Stata软件基本操作和数据分析入门 第五讲多组平均水平的比较 赵耐青 、复习和补充两组比较的统计检验 1.配对设计资料(又称为 Dependent Samples) a)对于小样本的情况下,如果配对的差值资料服从正态分布,用配对t检验 test差值变量=0) b)大样本的情况下,可以用配对t检验 c)小样本的情况下,并且配对差值呈偏态分布,则用配对符号秩检验( (signrank 差值变量=0) 2成组设计 Two Independent Samples) a)如果方差齐性并且大样本情况下,可以用成组t检验tt效应指标变 量.by(分组变量) b)如果方差齐性并且两组资料分别呈正态分布,可以用成组t检验 c)如果方差不齐,或者小样本情况下偏态分布,则用秩和检验( Ranksum test) group 79 000000 929794 000 101 00000000000 102 0089 106 84 78
Stata 软件基本操作和数据分析入门 第五讲 多组平均水平的比较 赵耐青 一、复习和补充两组比较的统计检验 1. 配对设计资料(又称为 Dependent Samples) a)对于小样本的情况下,如果配对的差值资料服从正态分布,用配对 t 检验 (ttest 差值变量=0) b)大样本的情况下,可以用配对 t 检验 c)小样本的情况下,并且配对差值呈偏态分布,则用配对符号秩检验(signrank 差值变量=0) 2. 成组设计(Two Independent Samples) a)如果方差齐性并且大样本情况下,可以用成组 t 检验(ttest 效应指标变 量,by(分组变量)) b)如果方差齐性并且两组资料分别呈正态分布,可以用成组 t 检验 c)如果方差不齐,或者小样本情况下偏态分布,则用秩和检验(Ranksum test) group x 0 79 0 93 0 91 0 92 0 94 0 77 0 93 0 74 0 91 0 101 0 83 0 73 0 88 0 102 0 90 0 100 0 81 0 91 0 83 0 106 0 84 0 78
000 101 101 100 106 107 107 94 89 11111 110 103 92452 109 11111 120 104 110 、多组比较 1.完全随机分组设计(要求各组资料之间相互独立) a)方差齐性并且独立以及每一组资料都服从正态分布(小样本时要求,则采用 完全随机设计的方差分析方法(即:单因素方差分析, One Way anoVa进 行分析。 b)方差不齐或小样本情况下资料偏态,则用 Kruskal wallis检验(H检验 例5.1为研究胃癌与胃粘膜细胞中DNA含量(AU)的关系,某医师测得数据如下,试问四 组人群的胃粘膜细胞中平均DNA含量是否相同? 组别 group DNA含量(AU) 浅表型胃炎19.8112.7312.2912.5312.959.531268912.27142610.68 肠化生 214.6117.5415.11713.3915.3213.7418.2413.81126314.5316.17 早期胃癌323.2620.820.623.517.8521.912.132.0419.53184121.4820.24
0 87 0 95 0 101 1 101 1 100 1 114 1 86 1 106 1 107 1 107 1 94 1 89 1 104 1 98 1 110 1 89 1 103 1 89 1 121 1 94 1 95 1 92 1 109 1 98 1 98 1 120 1 104 1 110 二、多组比较 1. 完全随机分组设计(要求各组资料之间相互独立) a)方差齐性并且独立以及每一组资料都服从正态分布(小样本时要求),则采用 完全随机设计的方差分析方法(即:单因素方差分析,One Way ANOVA)进 行分析。 b)方差不齐或小样本情况下资料偏态,则用 Kruskal Wallis 检验(H 检验) 例5.1 为研究胃癌与胃粘膜细胞中DNA含量(A.U)的关系,某医师测得数据如下,试问四 组人群的胃粘膜细胞中平均DNA含量是否相同? 组别 group DNA 含量(A.U) 浅表型胃炎 1 9.81 12.73 12.29 12.53 12.95 9.53 12.6 8.9 12.27 14.26 10.68 肠化生 2 14.61 17.54 15.1 17 13.39 15.32 13.74 18.24 13.81 12.63 14.53 16.17 早期胃癌 3 23.26 20.8 20.6 23.5 17.85 21.91 22.13 22.04 19.53 18.41 21.48 20.24
晚期胃癌423.7319.4622.3919.5325.920.4320.7120.0523.4121.3421.3825.70 由于这四组对象的资料是相互独立的,因此属于完全随机分组类型的。检验问题是考察四组 DNA含量的平均水平相同吗。如果每一组资料都正态分布并且方差齐性可以用One ay- ANOVA进行分析,反之用 Kruskal wallis检验 STATA数据输入格式 9.81 12.73 1111 12.29 12.95 8.9 12.27 14.26 10.68 14.61 12222222 17.54 13.39 15.32 13.74 18.24 222223 13.81 12.63 14.53 16.17 23.26 33333 20.6 17.8 21.91 22.04 333333444 19.53 18.41 21.48 20.24 23.73 19.46
晚期胃癌 4 23.73 19.46 22.39 19.53 25.9 20.43 20.71 20.05 23.41 21.34 21.38 25.70 由于这四组对象的资料是相互独立的,因此属于完全随机分组类型的。检验问题是考察四组 DNA 含量的平均水平相同吗。如果每一组资料都正态分布并且方差齐性可以用 One way-ANOVA 进行分析,反之用 Kruskal Wallis 检验。 STATA 数据输入格式 g x 1 9.81 1 12.73 1 12.29 1 12.53 1 12.95 1 9.53 1 12.6 1 8.9 1 12.27 1 14.26 1 10.68 2 14.61 2 17.54 2 15.1 2 17 2 13.39 2 15.32 2 13.74 2 18.24 2 13.81 2 12.63 2 14.53 2 16.17 3 23.26 3 20.8 3 20.6 3 23.5 3 17.85 3 21.91 3 22.13 3 22.04 3 19.53 3 18.41 3 21.48 3 20.24 4 23.73 4 19.46 4 22.39
19.53 4444444 25.9 20.43 20.05 21.34 21.38 25.7 分组正态性检验,a=0.05 sktest x if g==1 Skewness/Kurtosis tests for normality Joint Variable Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 0.491 0.485 1.07 0.5861 sktest x if g==2 Skewness /Kurtosis tests for Normality Variable Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 0.482 0.541 0.96 0.6201 sktest x if g==3 Skewness/Kurtosis tests for Normality Joint Variable Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 0.527 0.750 0.52 0.7704 sktest x if Skewness/ Kurtosis tests for Normality Variable Pr(Skewness) Pr(Kurtosis) adj chi2(2)Prob>ch 0.260 0.616 1.75 0.4166 上述结果表明每一组资料都服从正态分布。 单因素方差分析的 STATA命令: oneway效应指标变量分组变量tb 其中t表示计算每一组均数和标准差b表示采用 Bonferroni统计方法进行两
4 19.53 4 25.9 4 20.43 4 20.71 4 20.05 4 23.41 4 21.34 4 21.38 4 25.7 分组正态性检验,=0.05 . sktest x if g==1 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- x | 0.491 0.485 1.07 0.5861 . sktest x if g==2 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- x | 0.482 0.541 0.96 0.6201 . sktest x if g==3 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- x | 0.527 0.750 0.52 0.7704 . sktest x if g==4 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- x | 0.260 0.616 1.75 0.4166 上述结果表明每一组资料都服从正态分布。 单因素方差分析的 STATA 命令:oneway 效应指标变量 分组变量,t b 其中 t 表示计算每一组均数和标准差,b 表示采用 Bonferroni 统计方法进行两
两比较。 本例命令为 oneway x group;tb oneway x g, t b Summary of Std. d 11.6863641.6884388 15.1733331.749173 3|20.9791671.7668279 22.00252.2429087 12 Total 17.5831914.6080789 Analysis of variance Source Prob >F 824.942549 3274 77.8 0.0000 Within groups 151.839445433.531 Total 976.7819944621.2343912 Bartlett's test for equal variances: chi2(3 1.1354Prob>chi2=0.769 方差齐性的检验为:卡方=1.1354,自由度=3,P值=0.769,因此可以认为方差是齐性的 H:μ=u==山四组总体均数相同 u,山u不全相同 a=0.05,相应的统计量F=77.87以及相应的自由度为3和43,P值<0.0001,因此4组均数 的差别有统计学意义 omparison of x by g (Bonferroni) 2|3.48697(第2组样本均数一第1组样本均数 0.000(H6:=2检验的P值) 9.29285.80583(第3组样本均数一第2组样本均数) 0.000 0.000(H:1u3=2检验的P值) 4|10.31616.829171.02333(第4组样本均数-第3组样本均数) 0.000 0.000 1.000(H:H=u检验的P值) 上述输出为两两比较的结果,在表格的每个单元中,第一行为两组均数的差值,第二行为两 组均数比较检验的P值。 根据上述结果可以知道,第2组、第3组和第4组的AU均数均大于第1组的AU均数,并 且差别有统计学意义。说明肠化生患者和胃癌患者的DNA的AU含量平均水平均高于正常 人的AU平均水平,并且差别有统计学意义。 第3组和第4组的AU均数也大于第2组的AU平均水平,并且差别有统计学意义。说明胃
两比较。 本例命令为 oneway x group,t b . oneway x g,t b | Summary of x g | Mean Std. Dev. Freq. ------------+------------------------------------ 1 | 11.686364 1.6884388 11 2 | 15.173333 1.749173 12 3 | 20.979167 1.7668279 12 4 | 22.0025 2.2429087 12 ------------+------------------------------------ Total | 17.583191 4.6080789 47 Analysis of Variance Source SS df MS F Prob > F ------------------------------------------------------------------------ Between groups 824.942549 3 274.98085 77.87 0.0000 Within groups 151.839445 43 3.53114987 ------------------------------------------------------------------------ Total 976.781994 46 21.2343912 Bartlett's test for equal variances: chi2(3) = 1.1354 Prob>chi2 = 0.769 方差齐性的检验为:卡方=1.1354,自由度=3,P 值=0.769,因此可以认为方差是齐性的。 H0:1=2=3=4 四组总体均数相同 H1:1,2,3,4 不全相同 =0.05,相应的统计量 F=77.87 以及相应的自由度为 3 和 43,P 值<0.0001,因此 4 组均数 的差别有统计学意义。 Comparison of x by g (Bonferroni) Row Mean-| Col Mean | 1 2 3 ---------+--------------------------------- 2 | 3.48697(第 2 组样本均数-第 1 组样本均数) | 0.000(H0:1=2 检验的 P 值) | 3 | 9.2928 5.80583(第 3 组样本均数-第 2 组样本均数) | 0.000 0.000(H0:3=2 检验的 P 值) | 4 | 10.3161 6.82917 1.02333(第 4 组样本均数-第 3 组样本均数) | 0.000 0.000 1.000(H0:3=4 检验的 P 值)\ 上述输出为两两比较的结果,在表格的每个单元中,第一行为两组均数的差值,第二行为两 组均数比较检验的 P 值。 根据上述结果可以知道,第 2 组、第 3 组和第 4 组的 AU 均数均大于第 1 组的 AU 均数,并 且差别有统计学意义。说明肠化生患者和胃癌患者的 DNA 的 AU 含量平均水平均高于正常 人的 AU 平均水平,并且差别有统计学意义。 第 3 组和第 4 组的 AU 均数也大于第 2 组的 AU 平均水平,并且差别有统计学意义。说明胃