Stata软件基本操作和数据分析入门 第四讲两组计量资料平均水平的统计检验 、配对设计的平均水平检验 统计方法选择原则: 如果配对的差值服从近似正态分布(小样本)或大样本,则用配对t 检验 小样本的情况下,配对差值呈明显偏态分布,则用配对秩符号检 ya(matched-pairs signed-ranks test) 例110例男性矽肺患者经克矽平治疗,其血红蛋白(g/dL)如下: 表10例男性矽肺患者血红蛋白值(g/dL) 病例号1 治疗前11.315.015.013.512.810.011.012.013.012.3 治疗后14.013.814.013.513.512.014.711.413.812.0 问:治疗前后的血红蛋白的平均水平有没有改变 这是一个典型的前后配对设计的研究(但不提倡,因为对结果的解 释可能会有问题) Stata数据输入结构 11.3 14 15 13.8 13.5 13.5 12.8 3.5 11 14.7 12.3 操作如下
Stata 软件基本操作和数据分析入门 第四讲 两组计量资料平均水平的统计检验 一、配对设计的平均水平检验 统计方法选择原则: 如果配对的差值服从近似正态分布(小样本)或大样本,则用配对 t 检验 小样本的情况下,配对差值呈明显偏态分布,则用配对秩符号检 验(matched-pairs signed-ranks test)。 例 1 10 例男性矽肺患者经克矽平治疗,其血红蛋白(g/dL)如下: 表 10 例男性矽肺患者血红蛋白值(g/dL) 病例号 1 2 3 4 5 6 7 8 9 10 治疗前 11.3 15.0 15.0 13.5 12.8 10.0 11.0 12.0 13.0 12.3 治疗后 14.0 13.8 14.0 13.5 13.5 12.0 14.7 11.4 13.8 12.0 问:治疗前后的血红蛋白的平均水平有没有改变 这是一个典型的前后配对设计的研究(但不提倡,因为对结果的解 释可能会有问题) Stata 数据输入结构 X1 X2 11.3 14 15 13.8 15 14 13.5 13.5 12.8 13.5 10 12 11 14.7 12 11.4 13 13.8 12.3 12 操作如下:
gen 产生配对差值的变量d sktest d 正态性检验 正态性检验结果如下 ktest d Skewness/Kurtosis tests for Normality Jo int Variable Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 0.279 0.774 1.43 0.4885 正态性检验的无效假设为:资料正态分布 相应的备选假设为:资料非正态分布 α=0.05,由于正态性检验的P值=0.40189>,故可以认为资料近 似服从正态分布 ttest d=o 配对t检验:Ho;u=0wsH1;μ=0, =0.05 结果如下 One-sample t test Variable Ob Mean Std. Err. Std. Dev. [95% Conf. Interval 10-.679999952042721.645735-1.857288,4972881 egrees of f Ha: mean 0 Ha: mean=0 Ha: mean>0 t=-1.3066 t=-1.3066 t=-1.3066 P<t=0.1119 P>|t|=0.2237 P>t=0.8881 P值=02237>α,故认为治疗前后的血红蛋白的平均数差异没有统计 学意义。即:没有足够的证据可以认为治疗前后的血红蛋白的总体平
gen d=x1-x2 产生配对差值的变量 d sktest d 正态性检验 正态性检验结果如下: . sktest d Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- d | 0.279 0.774 1.43 0.4885 正态性检验的无效假设为:资料正态分布 相应的备选假设为:资料非正态分布 =0.05,由于正态性检验的 P 值=0.40189>>,故可以认为资料近 似服从正态分布。 ttest d=0 配对 t 检验: H0:d=0 vs H1:d0, =0.05 结果如下: One-sample t test ------------------------------------------------------------------------------ Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- d | 10 -.6799999 .5204272 1.645735 -1.857288 .4972881 ------------------------------------------------------------------------------ Degrees of freedom: 9 Ho: mean(d) = 0 Ha: mean < 0 Ha: mean ~= 0 Ha: mean > 0 t = -1.3066 t = -1.3066 t = -1.3066 P < t = 0.1119 P > |t| = 0.2237 P > t = 0.8881 P 值=0.2237>,故认为治疗前后的血红蛋白的平均数差异没有统计 学意义。即:没有足够的证据可以认为治疗前后的血红蛋白的总体平
均数不同。 如果已知差值的样本量,样本均数和样本标准差,可以用立即命令如 下(如,已知样本量为10,差值的样本均数为-0.66,差值的标准差 为1.65,则输入命令如下 ttest样本量样本均数样本标准差0 本例为: ttest10-0.661.650 得到下列结果如下: ttest10.661.650 One-sample t test Mean Std. Err. Std. Dev. [95% Conf. Interval] 5217758 1.6552033891.840339 Degrees of freedom: 9 Ho: mean (x) Ha: mean o Ha: mean =0 Ha: mean >0 1.2649 1.2649 t 1.2649 P<t=0.8812 P>|t|=0.2377 P>t 结果解释与结论同上述相同。 如果对于小样本的情况下,差值不满足正态分布,则用 Match-Sign- rank test.,操作如下: signrank差值变量名=0 假如本例不满足正态分布(为了借用上例资料,而假定的,实际上本 例满足正态分布)则 H0:差值的中位数=0 (其意义是治疗前的血红蛋白配大于治疗后的血红蛋白的概率=治疗 前的血红蛋白小于治疗后的血红蛋白的概率)
均数不同。 如果已知差值的样本量,样本均数和样本标准差,可以用立即命令如 下(如,已知样本量为 10,差值的样本均数为-0.66,差值的标准差 为 1.65,则输入命令如下: ttesti 样本量 样本均数 样本标准差 0 本例为: ttesti 10 -0.66 1.65 0 得到下列结果如下: . ttesti 10 .66 1.65 0 One-sample t test ------------------------------------------------------------------------------ | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- x | 10 .66 .5217758 1.65 -.5203389 1.840339 ------------------------------------------------------------------------------ Degrees of freedom: 9 Ho: mean(x) = 0 Ha: mean < 0 Ha: mean ~= 0 Ha: mean > 0 t = 1.2649 t = 1.2649 t = 1.2649 P < t = 0.8812 P > |t| = 0.2377 P > t = 0.1188 结果解释与结论同上述相同。 如 果 对 于 小 样 本 的 情 况 下 , 差 值 不 满 足 正 态 分 布 , 则 用 Match-Sign-rank test,操作如下: signrank 差值变量名=0 假如本例不满足正态分布(为了借用上例资料,而假定的,实际上本 例满足正态分布)则 H0:差值的中位数=0 (其意义是治疗前的血红蛋白配大于治疗后的血红蛋白的概率=治疗 前的血红蛋白小于治疗后的血红蛋白的概率)
H1:差值的中位数≠0 C=0.05 本例为 signrank d=0 Wilcoxon signed-rank test sign s sum ranks expected positive negative all unadjusted variance 96.25 ad justment for ties 0.00 ad justment for zeros adjusted variance Ho: d=o 0.919 Prob>|z|=0.3583 P值=0.3583>>,故没有足够的证据说明两个总体不同。 二、平行对照设计的两组资料平均水平统计检验 统计方法选择原则 如果两组资料的方差齐性和相互独立的,并且每组资料服从正态 分布(大样本资料可以忽略正态性问题),则用成组t检验,否则可 以用成组 Wilcoxon秩和检验 例2为研究噪声对纺织女工子代智能是否有影响,一研究人员在 某纺织厂随机抽取接触噪声95dB(A)、接触工龄5年以上的纺织 女工及同一单位、条件与接触组相近但不接触噪声的女职工,其 子女(学前幼儿)作为研究对象,按韦氏学前儿童智力量表(中
H1:差值的中位数0 =0.05 本例为 signrank d=0 Wilcoxon signed-rank test sign | obs sum ranks expected -------------+--------------------------------- positive | 4 18 27 negative | 5 36 27 zero | 1 1 1 -------------+--------------------------------- all | 10 55 55 unadjusted variance 96.25 adjustment for ties 0.00 adjustment for zeros -0.25 ---------- adjusted variance 96.00 Ho: d = 0 z = -0.919 Prob > |z| = 0.3583 P 值=0.3583>>,故没有足够的证据说明两个总体不同。 二、平行对照设计的两组资料平均水平统计检验 统计方法选择原则: 如果两组资料的方差齐性和相互独立的,并且每组资料服从正态 分布(大样本资料可以忽略正态性问题),则用成组 t 检验,否则可 以用成组 Wilcoxon 秩和检验。 例 2 为研究噪声对纺织女工子代智能是否有影响,一研究人员在 某纺织厂随机抽取接触噪声 95dB(A)、接触工龄 5 年以上的纺织 女工及同一单位、条件与接触组相近但不接触噪声的女职工,其 子女(学前幼儿)作为研究对象,按韦氏学前儿童智力量表(中
国修订版)测定两组幼儿智商,结果如下。问噪声对纺织女工子 代智能有无影响?(接触组 group=0,不接触组goup=1) 资料及其结果如下: 00000 94 000 77 74 000000000 73 102 90 000 898 0 106 000011 87 95 100 114 106 107 107 104
国修订版)测定两组幼儿智商,结果如下。问噪声对纺织女工子 代智能有无影响?(接触组 group=0,不接触组 group=1) 资料及其结果如下: group x 0 79 0 93 0 91 0 92 0 94 0 77 0 93 0 74 0 91 0 101 0 83 0 73 0 88 0 102 0 90 0 100 0 81 0 91 0 83 0 106 0 84 0 78 0 87 0 95 0 101 1 101 1 100 1 114 1 86 1 106 1 107 1 107 1 94 1 89 1 104