Stata软件基本操作和数据分析入门 第五讲多组平均水平的比较 赵耐青 、复习和补充两组比较的统计检验 1.配对设计资料(又称为 Dependent Samples a)对于小样本的情况下,如果配对的差值资料服从正态分布,用配对t检验 (test差值变量=0) b)大样本的情况下,可以用配对t检验 c)小样本的情况下,并且配对差值呈偏态分布,则用配对符号秩检验( (signrank 差值变量=0) 2.成组设计( Two Independent Samples) a)如果方差齐性并且大样本情况下,可以用成组t检验(test效应指标变 量by(分组变量) b)如果方差齐性并且两组资料分别呈正态分布,可以用成组t检验 c)如果方差不齐,或者小样本情况下偏态分布,则用秩和检验( Ranksum test) 000 92 94 74 0000000000000000 101 83 102 106
Stata 软件基本操作和数据分析入门 第五讲 多组平均水平的比较 赵耐青 一、复习和补充两组比较的统计检验 1. 配对设计资料(又称为 Dependent Samples) a)对于小样本的情况下,如果配对的差值资料服从正态分布,用配对 t 检验 (ttest 差值变量=0) b)大样本的情况下,可以用配对 t 检验 c)小样本的情况下,并且配对差值呈偏态分布,则用配对符号秩检验(signrank 差值变量=0) 2. 成组设计(Two Independent Samples) a)如果方差齐性并且大样本情况下,可以用成组 t 检验(ttest 效应指标变 量,by(分组变量)) b)如果方差齐性并且两组资料分别呈正态分布,可以用成组 t 检验 c)如果方差不齐,或者小样本情况下偏态分布,则用秩和检验(Ranksum test) group x 0 79 0 93 0 91 0 92 0 94 0 77 0 93 0 74 0 91 0 101 0 83 0 73 0 88 0 102 0 90 0 100 0 81 0 91 0 83 0 106 0 84 0 78
87 101 101 106 110 103 94 109 98 104 多组比较 1.完全随机分组设计(要求各组资料之间相互独立) a)方差齐性并且独立以及每一组资料都服从正态分布(小样本时要求),则采用 完全随机设计的方差分析方法(即:单因素方差分析, One Way aNOVA)进 行分析 b)方差不齐或小样本情况下资料偏态,则用 Kruskal wallis检验(H检验) 例51为研究胃癌与胃粘膜细胞中DNA含量(AU)的关系,某医师测得数据如下,试问四 组人群的胃粘膜细胞中平均DNA含量是否相同? 组别 group DNA含量(AU) 浅表型胃炎19.8112.7312.2912.5312.959.531268.9122714261068 肠化生 214.6117.5415.11713.3915.3213.7418.2413.8112.63145316.17 早期胃癌323.2620.820.623.517.8521.9122.1322.0419531841214820.24
0 87 0 95 0 101 1 101 1 100 1 114 1 86 1 106 1 107 1 107 1 94 1 89 1 104 1 98 1 110 1 89 1 103 1 89 1 121 1 94 1 95 1 92 1 109 1 98 1 98 1 120 1 104 1 110 二、多组比较 1. 完全随机分组设计(要求各组资料之间相互独立) a)方差齐性并且独立以及每一组资料都服从正态分布(小样本时要求),则采用 完全随机设计的方差分析方法(即:单因素方差分析,One Way ANOVA)进 行分析。 b)方差不齐或小样本情况下资料偏态,则用 Kruskal Wallis 检验(H 检验) 例5.1 为研究胃癌与胃粘膜细胞中DNA含量(A.U)的关系,某医师测得数据如下,试问四 组人群的胃粘膜细胞中平均DNA含量是否相同? 组别 group DNA 含量(A.U) 浅表型胃炎 1 9.81 12.73 12.29 12.53 12.95 9.53 12.6 8.9 12.27 14.26 10.68 肠化生 2 14.61 17.54 15.1 17 13.39 15.32 13.74 18.24 13.81 12.63 14.53 16.17 早期胃癌 3 23.26 20.8 20.6 23.5 17.85 21.91 22.13 22.04 19.53 18.41 21.48 20.24
晚期胃癌423.7319.4622.3919.5325.920.4320.7120.0523.4121.3421.3825.70 由于这四组对象的资料是相互独立的,因此属于完全随机分组类型的。检验问题是考察四组 DNA含量的平均水平相同吗。如果每一组资料都正态分布并且方差齐性可以用One way- ANOVA进行分析,反之用 Kruskal wallis检验 STATA数据输入格式 9.81 12.73 12.29 8 12.27 111222 14.26 10.68 14.61 17.54 17 13.74 18.24 13.81 22223 12.63 14.53 16.17 23.26 20 20.6 23.5 333333333444 21.91 22.04 19.53 18.41 21.48
晚期胃癌 4 23.73 19.46 22.39 19.53 25.9 20.43 20.71 20.05 23.41 21.34 21.38 25.70 由于这四组对象的资料是相互独立的,因此属于完全随机分组类型的。检验问题是考察四组 DNA 含量的平均水平相同吗。如果每一组资料都正态分布并且方差齐性可以用 One way-ANOVA 进行分析,反之用 Kruskal Wallis 检验。 STATA 数据输入格式 g x 1 9.81 1 12.73 1 12.29 1 12.53 1 12.95 1 9.53 1 12.6 1 8.9 1 12.27 1 14.26 1 10.68 2 14.61 2 17.54 2 15.1 2 17 2 13.39 2 15.32 2 13.74 2 18.24 2 13.81 2 12.63 2 14.53 2 16.17 3 23.26 3 20.8 3 20.6 3 23.5 3 17.85 3 21.91 3 22.13 3 22.04 3 19.53 3 18.41 3 21.48 3 20.24 4 23.73 4 19.46 4 22.39
19.53 444444444 21.38 7 分组正态性检验, Skewness/Kurtosis tests for normalit Variable Pr( Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 0.491 0.485 1.07 0.5861 sktest x if g==2 Skewness/Kurtosis tests for Normality Variable Pr(Skewness) Pr (Kurtosis) adj chi2(2) ob>chi2 0.541 0.6201 sktest x if g==3 Skewness/Kurtosis tests for Normality Variable Pr(Skewness) Pr(Kurtosis) adj chi2(2) ob>chi2 0.527 0.750 0.7704 sktest x if g==4 Skewness/Kurtosis tests for Normality Variable Pr(Skewness) Pr(Kurtosis) adj chi2(2) ob>chi2 0.616 1.75 0.4166 上述结果表明每一组资料都服从正态分布。 单因素方差分析的 STATA命令: oneway效应指标变量分组变量tb 其中t表示计算每一组均数和标准差,b表示采用 Bonferroni统计方法进行两
4 19.53 4 25.9 4 20.43 4 20.71 4 20.05 4 23.41 4 21.34 4 21.38 4 25.7 分组正态性检验,α=0.05 . sktest x if g==1 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- x | 0.491 0.485 1.07 0.5861 . sktest x if g==2 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- x | 0.482 0.541 0.96 0.6201 . sktest x if g==3 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- x | 0.527 0.750 0.52 0.7704 . sktest x if g==4 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- x | 0.260 0.616 1.75 0.4166 上述结果表明每一组资料都服从正态分布。 单因素方差分析的 STATA 命令:oneway 效应指标变量 分组变量,t b 其中 t 表示计算每一组均数和标准差,b 表示采用 Bonferroni 统计方法进行两
两比较 本例命令为 oneway x group, t b oneway x g, t b Summary of X Mean Std. Dev 11.6863641.6884388 215.1733331.749173 22.00252.2429087 12 Total 17.5831914.6080789 alysis ariance Source ob>F Between groups 824.942549 274 77.8 0.0000 Withir 151.839445 133.531 Total 976.781994 4621.2343912 Bartlett's test for equal variances: chi2 (3)= 1.1354 Prob>chi2 =0. 769 方差齐性的检验为:卡方=1.1354,自由度=3,P值=0.769,因此可以认为方差是齐性的。 l:u=uzu=u四组总体均数相同 H1:μ,2,3,山a不全相同 =0.05,相应的统计量F=7.87以及相应的自由度为3和43,P值<0.0001,因此4组均数 的差别有统计学意义 (Bonferroni Row Mean- Col Mean 3.48697(第2组样本均数一第1组样本均数) 0.000(46:H=2检验的P值) 9.29285.80583(第3组样本均数一第2组样本均数) 0.0000.000(Hb:=2检验的P值) 4 10.31616.829171.02333(第4组样本均数-第3组样本均数) 0.000 000 1.00(H6:μ=μ检验的P值)\ 上述输出为两两比较的结果,在表格的每个单元中,第一行为两组均数的差值,第二行为两 组均数比较检验的P值 根据上述结果可以知道,第2组、第3组和第4组的AU均数均大于第1组的AU均数,并 且差别有统计学意义。说明肠化生患者和胃癌患者的DNA的AU含量平均水平均高于正常 人的AU平均水平,并且差别有统计学意义。 第3组和第4组的AU均数也大于第2组的AU平均水平,并且差别有统计学意义。说明胃
两比较。 本例命令为 oneway x group,t b . oneway x g,t b | Summary of x g | Mean Std. Dev. Freq. ------------+------------------------------------ 1 | 11.686364 1.6884388 11 2 | 15.173333 1.749173 12 3 | 20.979167 1.7668279 12 4 | 22.0025 2.2429087 12 ------------+------------------------------------ Total | 17.583191 4.6080789 47 Analysis of Variance Source SS df MS F Prob > F ------------------------------------------------------------------------ Between groups 824.942549 3 274.98085 77.87 0.0000 Within groups 151.839445 43 3.53114987 ------------------------------------------------------------------------ Total 976.781994 46 21.2343912 Bartlett's test for equal variances: chi2(3) = 1.1354 Prob>chi2 = 0.769 方差齐性的检验为:卡方=1.1354,自由度=3,P 值=0.769,因此可以认为方差是齐性的。 H0:μ1=μ2=μ3=μ4 四组总体均数相同 H1:μ1,μ2,μ3,μ4不全相同 α=0.05,相应的统计量 F=77.87 以及相应的自由度为 3 和 43,P 值<0.0001,因此 4 组均数 的差别有统计学意义。 Comparison of x by g (Bonferroni) Row Mean-| Col Mean | 1 2 3 ---------+--------------------------------- 2 | 3.48697(第 2 组样本均数-第 1 组样本均数) | 0.000(H0:μ1=μ2检验的 P 值) | 3 | 9.2928 5.80583(第 3 组样本均数-第 2 组样本均数) | 0.000 0.000(H0:μ3=μ2检验的 P 值) | 4 | 10.3161 6.82917 1.02333(第 4 组样本均数-第 3 组样本均数) | 0.000 0.000 1.000(H0:μ3=μ4检验的 P 值)\ 上述输出为两两比较的结果,在表格的每个单元中,第一行为两组均数的差值,第二行为两 组均数比较检验的 P 值。 根据上述结果可以知道,第 2 组、第 3 组和第 4 组的 AU 均数均大于第 1 组的 AU 均数,并 且差别有统计学意义。说明肠化生患者和胃癌患者的 DNA 的 AU 含量平均水平均高于正常 人的 AU 平均水平,并且差别有统计学意义。 第 3 组和第 4 组的 AU 均数也大于第 2 组的 AU 平均水平,并且差别有统计学意义。说明胃