基本概念复习 Meta分析是以统计量为观察单位进行统计分析,因此需要了解统计量的规律性和一些基本 统计概念 教学目的:复习总体、抽样分布概念、随机现象的规律性一一概率分布,特别正态分布 介绍统计量的定义、分布和统计量的总体平均值。效应差异度量( Effect size) 总体:根据研究目的确定所有同质个体的某指标观察值(或测量值)构成的集合称为总体 ( population),或更严谨地称为该观察指标(变量)的总体。总体中所有观察值的平均数 称为总体均数。例如:研究某地区7岁健康男孩身高,如果该地区共有10000个7 健康男孩,则这10000个7岁健康男孩的身高测量值构成的集合就是这个研究目的 所确定的总体。这10000个7岁男孩的身高平均值就是这个研究问题的总体均数。 个体变异:在同一研究目的下确定的相同特征的研究对象(称为同质个体)中,研究对象之间 的观察值相互不同,称为个体变异(严格地说研究对象观察值与总体均数的差值称为 个体变异)。个体变异是随机的。 随机现象的规律性:对某一种随机现象进行大量重复观察,可以发现其规律性。同种随机现 象的规律性是相同,但是单个随机现象是无法考察其规律性。例如,观察某地区7 岁健康男孩身高的分布情况,把身高分为3段:第一段为身高小于125cm:第二段为 身高在125cm~135cm:第三段为身高高于135cm。对于在该地区随机抽一个7岁健 康男孩并测量他的身高而言,该男孩的身高在这3个身高范围中的任何一个都是可 能,所以在抽样前不能断定所抽到的健康男孩身高在哪个范围中。但如果在该地区抽 了10000个7岁健康男孩并测量其身高,结果为身高小于125cm共有720人占总数 的72%;身高在125cm~135cm范围中共有8950人占总数的89.5%;身高大于135cm 共有330人占总数的3.3%,因此可以断定大多数男孩的身高在125cm~135cm范围 中,这就是大量重复观察时所呈现的规律性。从另一角度上分析,对于随机考察一个 7岁健康男孩身高而言,虽因为随机性而不能断定其身高在哪个范围中,但可以肯定 身高在125cm~135cm范围中的机会要远高于其它身高两个范围。本例只是一种较简 单的概率分布。任何随机现象或随机变异在大量重复观察的意义下都会呈现一定的 随机特征的规律性,即这种随机特征的规律性就是指观察值出现在可能的不同范围 对应有不同的机会(概率),这就是所谓的“概率分布”。 统计量:样本表达式构成的样本统计指标估计未知总体参数,这种样本统计指标称为统计量 ( statistIc)并且要求统计量的样本表达式中不含有未知参数。例如:样本均数、样本 OR、样本RR等 样本均数的抽样误差:总体均数与样本均数的差称为样本均数的抽样误差。由于通常总体均 数是未知的,故用样本均数的标准误大小刻划样本均数的抽样误差的平均度量。由于 个体变异是随机的,所以样本均数也是随机的。即:抽样前是无法确切知道样本均数 将是多大。由于样本均数的抽样误差=样本均数一总体均数,总体均数是确切的常数, 故样本均数的抽样误差是随机的。下面将举例说明: 例如,已知某地高中三年级男生的平均身高为168.15厘米,这里,将该地高中三年级男生 的身高视为一个总体,其总体均数=168.15,总体标准差σ=600。现从该总体中反复 抽取5个样本,每个样本中有9个高中三年级男生的身高测量值,每个样本计算样本均数(在 每个样本中,对9个身高测量值计算平均数),因此共得到5个样本均数如下:
1 基本概念复习 Meta 分析是以统计量为观察单位进行统计分析,因此需要了解统计量的规律性和一些基本 统计概念。 教学目的:复习总体、抽样分布概念、随机现象的规律性――概率分布,特别正态分布, 介绍统计量的定义、分布和统计量的总体平均值。效应差异度量(Effect Size) 总体:根据研究目的确定所有同质个体的某指标观察值(或测量值)构成的集合称为总体 (population),或更严谨地称为该观察指标(变量)的总体。总体中所有观察值的平均数 称为总体均数。例如:研究某地区 7 岁健康男孩身高,如果该地区共有 10000 个 7 岁健康男孩,则这 10000 个 7 岁健康男孩的身高测量值构成的集合就是这个研究目的 所确定的总体。这 10000 个 7 岁男孩的身高平均值就是这个研究问题的总体均数。 个体变异:在同一研究目的下确定的相同特征的研究对象(称为同质个体)中,研究对象之间 的观察值相互不同,称为个体变异(严格地说研究对象观察值与总体均数的差值称为 个体变异)。个体变异是随机的。 随机现象的规律性:对某一种随机现象进行大量重复观察,可以发现其规律性。同种随机现 象的规律性是相同,但是单个随机现象是无法考察其规律性。例如,观察某地区 7 岁健康男孩身高的分布情况,把身高分为 3 段:第一段为身高小于 125cm;第二段为 身高在 125cm~135cm;第三段为身高高于 135cm。对于在该地区随机抽一个 7 岁健 康男孩并测量他的身高而言,该男孩的身高在这 3 个身高范围中的任何一个都是可 能,所以在抽样前不能断定所抽到的健康男孩身高在哪个范围中。但如果在该地区抽 了 10000 个 7 岁健康男孩并测量其身高,结果为身高小于 125cm 共有 720 人占总数 的 7.2%;身高在 125cm~135cm 范围中共有 8950 人占总数的 89.5%;身高大于 135cm 共有 330 人占总数的 3.3%,因此可以断定大多数男孩的身高在 125cm~135cm 范围 中,这就是大量重复观察时所呈现的规律性。从另一角度上分析,对于随机考察一个 7 岁健康男孩身高而言,虽因为随机性而不能断定其身高在哪个范围中,但可以肯定 身高在 125cm~135cm 范围中的机会要远高于其它身高两个范围。本例只是一种较简 单的概率分布。任何随机现象或随机变异在大量重复观察的意义下都会呈现一定的 随机特征的规律性,即这种随机特征的规律性就是指观察值出现在可能的不同范围 对应有不同的机会(概率),这就是所谓的“概率分布”。 统计量:样本表达式构成的样本统计指标估计未知总体参数,这种样本统计指标称为统计量 (statistic)并且要求统计量的样本表达式中不含有未知参数。例如:样本均数、样本 OR、样本 RR 等。 样本均数的抽样误差:总体均数与样本均数的差称为样本均数的抽样误差。由于通常总体均 数是未知的,故用样本均数的标准误大小刻划样本均数的抽样误差的平均度量。由于 个体变异是随机的,所以样本均数也是随机的。即:抽样前是无法确切知道样本均数 将是多大。由于样本均数的抽样误差=样本均数-总体均数,总体均数是确切的常数, 故样本均数的抽样误差是随机的。下面将举例说明: 例如,已知某地高中三年级男生的平均身高为 168.15 厘米,这里,将该地高中三年级男生 的身高视为一个总体,其总体均数 =168.15 ,总体标准差 = 6.00 。现从该总体中反复 抽取 5 个样本,每个样本中有 9 个高中三年级男生的身高测量值,每个样本计算样本均数(在 每个样本中,对 9 个身高测量值计算平均数),因此共得到 5 个样本均数如下:
样本 样本观测值 样本均|抽样 数(X)误差 161.1173.7173.7167.316221622166.6166.61574165.64-2.51 1668159.1159.11661173.3173.3169.11691165.2166.79-1.36 3 1574174172.3175.81666182.1163.115941594167.79-0.36 174.5182.11685171.317411656173717191675172.133.98 5 164116661696169.6173.8173.21643166.6182.1169.991.84 由上表可知,由于个体变异的存在,而抽样又是随机进行的,因此,各样本均数与总体 均数之间一般说来是有差异的。这种由个体变异和随机抽样所引起的样本均数与总体均数 (本例为=16815)之间的差异就是抽样误差,并且是随机的。 由于任何的随机变异都是有其随机特征的规律性,只是单个随机变异往往无法考察其规 律性,如果大量重复观察同一种随机变异,就可以发现其随机特征的规律性。下面考察如果 资料X服从正态分布N(μ,2),它的样本均数的随机特征规律性(概率分布)是什么? 由于在实际研究中,同一特征的研究对象往往只有一个样本,因此只能得到一个样本均 数,故往往无法依据样本资料考察样本均数的分布情况。如果我们对同一总体随机抽了许多 样本,并且对每个样本计算其样本均数,因此可以得到许多样本均数,然后作这些样本均数 (视为新的样本资料)的频数图,就可以得到样本均数的规律性。因此我们以下将借助计算机 随机模拟抽样,在同一正态分布的总体中随机抽许多样本,对每一个样本计算样本均数,因 此可以得到许多样本均数,这样可以考察样本均数的随机特征的规律性 正态分布样本的样本均数分布 为了给读者关于样本均数分布的直观认识,下面做3个抽样试验,仍以某地高三男生的 身高为例。设身高变量为X,假定X服从正态分布,记为XM(168.15,62)。从总体X中反 复随机抽样,样本含量分别为n=4,n=16和n=36,分别随机抽10000个样本并计算样本均 数,把同一样本含量的10000个样本均数视为一个新的样本资料作频数图(见图3.1),并且 表3.2分别给出同一样本含量的前20个样本均数。读者不难从频数图和表32可以发现样本 均数的变异有如下特点
2 样本 号 样本观测值 (n=9) 样本均 数( X ) 抽 样 误差 1 161.1 173.7 173.7 167.3 162.2 162.2 166.6 166.6 157.4 165.64 -2.51 2 166.8 159.1 159.1 166.1 173.3 173.3 169.1 169.1 165.2 166.79 -1.36 3 157.4 174 172.3 175.8 166.6 182.1 163.1 159.4 159.4 167.79 -0.36 4 174.5 182.1 168.5 171.3 174.1 165.6 173.7 171.9 167.5 172.13 3.98 5 164.1 166.6 169.6 169.6 173.8 173.2 164.3 166.6 182.1 169.99 1.84 由上表可知,由于个体变异的存在,而抽样又是随机进行的,因此,各样本均数与总体 均数之间一般说来是有差异的。这种由个体变异和随机抽样所引起的样本均数与总体均数 (本例为 =168.15 )之间的差异就是抽样误差,并且是随机的。 由于任何的随机变异都是有其随机特征的规律性,只是单个随机变异往往无法考察其规 律性,如果大量重复观察同一种随机变异,就可以发现其随机特征的规律性。下面考察如果 资料 X 服从正态分布 N(, 2 ),它的样本均数的随机特征规律性(概率分布)是什么? 由于在实际研究中,同一特征的研究对象往往只有一个样本,因此只能得到一个样本均 数,故往往无法依据样本资料考察样本均数的分布情况。如果我们对同一总体随机抽了许多 样本,并且对每个样本计算其样本均数,因此可以得到许多样本均数,然后作这些样本均数 (视为新的样本资料)的频数图,就可以得到样本均数的规律性。因此我们以下将借助计算机 随机模拟抽样,在同一正态分布的总体中随机抽许多样本,对每一个样本计算样本均数,因 此可以得到许多样本均数,这样可以考察样本均数的随机特征的规律性。 正态分布样本的样本均数分布 为了给读者关于样本均数分布的直观认识,下面做 3 个抽样试验,仍以某地高三男生的 身高为例。设身高变量为 X,假定 X 服从正态分布,记为 X~N(168.15, 62 )。从总体 X 中反 复随机抽样,样本含量分别为 n=4,n=16 和 n=36,分别随机抽 10000 个样本并计算样本均 数,把同一样本含量的 10000 个样本均数视为一个新的样本资料作频数图(见图 3.1),并且 表 3.2 分别给出同一样本含量的前 20 个样本均数。读者不难从频数图和表 3.2 可以发现样本 均数的变异有如下特点:
样本含量n= 样本含量n=16 样本含量n=36 0.24 0.24 0.16 0.16 0.12 12 0.08 0.08 0.04 0.04 0.04 00 00 152160168176184152160168176184152160168176184 X的平均数=168198 X的平均数=168.185 的平均数=168135 x的标准差=29930X的标准差=14868356-5x的标准差=0.9973=10 图3.1从正态分布总体N681562)中随机抽样的结果 曲线是正态总体N(168.156)的分布密度曲线×组距 直方图为正态分布总体N(1685,62)的样本均数的频数图(纵坐标为频率) 表3.2从正态总体N(168.15,62)随机抽样,样本含量分别为4,16和36 分别对应的前20个样本的样本均数 n=16 样本号均数样本号均数樺样本号均数样本号均数|样本号均数样本号均数 1169.2211166.821167.9111168.101168.3711166.71 2169.6112162.472170.912166.452167.4712167.76 3165.7313170.023168.6013168.853170.3613169.46 5169.9915168.16|5168.9515168.745168.6815167.90 61664316164.256168.5416172.506168.7816168.43 7171.7717164.637167.8717168.527169.5417167.60 816.6518164.728168.6618167.158168.7718167.17 9170.7119165.83|9170.0119166.199167.6119168.94 10170.8420169.8310167.1920166.1510168.9520169.29 1)大多数的样本均数相互之间存在差异,绝大多数的样本均数x不等于X的总体均数, 但都离X的总体均数比较近 2)无论样本含量n多大,在每个抽样试验中,X的均数都接近于X的总体均数,即样 本均数X的集中趋势位置与个体资料X的集中趋势位置较为接近,样本均数X的频数图 (图3.1)均呈现出中间多、两边少且基本对称的正态分布特征。随着样本含量的增大,样 本均数X的频数图范围越来越窄。 3)图3.1所给出的3种样本含量的10000个样本均数的频数图及其统计描述可以发现:
3 样本含量 n=4 样本含量 n=16 样本含量 n=36 X 的平均数=168.198 X 的标准差=2.9995 6 3.0 4 = X 的平均数=168.185 X 的标准差=1.4868 6 1.5 16 = X 的平均数=168.135 X 的标准差=0.9997 6 1.0 36 = 图 3.1 从正态分布总体 N(168.15,62 )中随机抽样的结果 曲线是正态总体 N(168.15,62 )的分布密度曲线×组距 直方图为正态分布总体N(168.15,62 )的样本均数的频数图(纵坐标为频率) 表 3.2 从正态总体 N(168.15,6 2 )随机抽样,样本含量分别为 4,16 和 36 分别对应的前 20 个样本的样本均数 n=4 n=16 n=36 样本号 均数 样本号 均数 样本号 均数 样本号 均数 样本号 均数 样本号 均数 1 169.22 11 166.82 1 167.91 11 168.10 1 168.37 11 166.71 2 169.61 12 162.47 2 170.19 12 166.45 2 167.47 12 167.76 3 165.73 13 170.02 3 168.60 13 168.85 3 170.36 13 169.46 4 166.60 14 171.53 4 165.48 14 169.72 4 167.16 14 168.31 5 169.99 15 168.16 5 168.95 15 168.74 5 168.68 15 167.90 6 166.43 16 164.25 6 168.54 16 172.50 6 168.78 16 168.43 7 171.77 17 164.63 7 167.87 17 168.52 7 169.54 17 167.60 8 166.65 18 164.72 8 168.66 18 167.15 8 168.77 18 167.17 9 170.71 19 165.83 9 170.01 19 166.19 9 167.61 19 168.94 10 170.84 20 169.83 10 167.19 20 166.15 10 168.95 20 169.29 1)大多数的样本均数相互之间存在差异,绝大多数的样本均数 X 不等于 X 的总体均数, 但都离 X 的总体均数比较近。 2)无论样本含量 n 多大,在每个抽样试验中, X 的均数都接近于 X 的总体均数,即样 本均数 X 的集中趋势位置与个体资料 X 的集中趋势位置较为接近,样本均数 X 的频数图 (图 3.1)均呈现出中间多、两边少且基本对称的正态分布特征。随着样本含量的增大,样 本均数 X 的频数图范围越来越窄。 3) 图 3.1 所给出的 3 种样本含量的 10000 个样本均数的频数图及其统计描述可以发现:
每种样本量的10000样本均数值所计算出的标准差都非常接近G/Vn(o为个体资料X的 总体标准差)。 理论上可以证明:从正态分布N(μ,G2)的总体中随机抽取样本含量为n的一个样本X …,Xn,其样本均数X有如下性质: 1)样本均数X服从正态分布N(μ,o2/n)。 2)样本均数的总体标准差资料X的总体标准差σ。为了区分样本所在总体的标准 差,通常称样本均数的标准差为样本均数的标准误(简称均数标准误,记为σx。故样本均 数与个体资料所在的总体变异程度有如下规律: n 由于在实际研究中,我们往往只有一个样本,不能利用样本均数直接估计均数标准误 x,但可以用样本标准差S估计总体标准差o,利用公式(31)得到均数标准误的估计式 为了叙述方便,常称S为标准误,称Gx为理论标准误 二、非正态总体的样本均数分布 在非正态总体中随机抽样,样本均数X在抽样前也是不能确定的,任意二次随机抽样 的样本均数往往也是不同的,所以无论正态总体抽样还是非正态总体抽样,样本均数X都 是随机的,同样在概率意义下是有一定规律的 为了帮助读者比较直观地了解从非正态总体抽样的样本均数分布规律,下面给出总体均 数为1的指数分布(密度)曲线图和一个样本含量n=1000的样本资料(个体观察值)频数图(图 32)。并且做3个抽样试验,在这个总体中大量重复随机抽样,样本量为n=4,n=9和n=100, 分别抽10000个样本并作其样本均数的频数图(图3.3)和统计描述
4 每种样本量的 10000 个样本均数值所计算出的标准差都非常接近 n (为个体资料 X 的 总体标准差)。 理论上可以证明:从正态分布 N(, 2 )的总体中随机抽取样本含量为 n 的一个样本 X1, X2,…,Xn,其样本均数 X 有如下性质: 1)样本均数 X 服从正态分布 N(, 2 /n)。 2)样本均数的总体标准差= n 资料X的总体标准差 。为了区分样本所在总体的标准 差,通常称样本均数的标准差为样本均数的标准误(简称均数标准误),记为 X 。故样本均 数与个体资料所在的总体变异程度有如下规律: n = X (3.1) 由于在实际研究中,我们往往只有一个样本,不能利用样本均数直接估计均数标准误 X ,但可以用样本标准差 S 估计总体标准差,利用公式(3.1)得到均数标准误的估计式 n S S X = (3.2) 为了叙述方便,常称 X S 为标准误,称 X 为理论标准误。 二、非正态总体的样本均数分布 在非正态总体中随机抽样,样本均数 X 在抽样前也是不能确定的,任意二次随机抽样 的样本均数往往也是不同的,所以无论正态总体抽样还是非正态总体抽样,样本均数 X 都 是随机的,同样在概率意义下是有一定规律的。 为了帮助读者比较直观地了解从非正态总体抽样的样本均数分布规律,下面给出总体均 数为 1 的指数分布(密度)曲线图和一个样本含量 n=1000 的样本资料(个体观察值)频数图(图 3.2)。并且做 3 个抽样试验,在这个总体中大量重复随机抽样,样本量为 n=4,n=9 和 n=100, 分别抽 10000 个样本并作其样本均数的频数图(图 3.3)和统计描述
总体均数μ=1(可以证明:总体标准差σ=1) 在μ=1的指数分布总体随机抽取一个样本 a:指数分布(密度曲线)图 b:个体观察值频数图(样本含量n=1000) X=09994,S=09672,中位数M=0.7417 图32指数分布的密度曲线和个体观察值频数图 n=100 A (a)x的均数=09903 x的均数=1.0068 x的 标准差()1的均数=0995 x的标准差=04891=05 0.31321-033 的中位数=09087 x的中位数=09976 x的中位数=0.9696 图3.3从总体均数为1的指数分布总体中随机抽10000个样本的样本均数频数图 从上述抽样结果可以看出:从非正态的指数分布总体X中抽样所得到的样本均数X, 在样本含量较小时呈偏态分布但也有别于指数分布,而在大样本时X的频数分布图接近正 态分布。x的均数始终在X的总体均数=1两侧附近,下的标准差X的总体标准差 事实上,无论样本来自什么总体,理论上可以证明: 1.样本均数x的总体标准差是个体资料x的总体标准差的√(o=,即样本 均数的理论标准误),理论标准误σr的样本估计式为S=S/V 2样本均数X与个体资料X的集中趋势位置相同,即样本均数X与个体资料Ⅹ的总体 均数相同。 3若个体资料所属总体x呈正态分布N(,a),则由前面所述可知,样本均数X的 分布规律仍为正态分布N(a,G2/m):作标准化变换
5 总体均数=1(可以证明:总体标准差=1) 在=1 的指数分布总体随机抽取一个样本 a:指数分布(密度曲线)图 b:个体观察值频数图(样本含量 n=1000)。 X = 0.9994 ,S= 0.9672,中位数 M=0.7417 图 3.2 指数分布的密度曲线和个体观察值频数图 n=4 n=9 n=100 (a) X 的均数=0.9903 X 的标准差=0.4891 1 0.5 4 = X 的中位数=0.9087 (b) X 的均数=1.0068 X 的 标 准 差 = 0.3313 1 0.3333 9 = X 的中位数=0.9696 (c) X 的均数=0.9995 X 的标准差=0.1002 1 0.1 100 = X 的中位数=0.9976 图 3.3 从总体均数为 1 的指数分布总体中随机抽 10000 个样本的样本均数频数图 从上述抽样结果可以看出:从非正态的指数分布总体 X 中抽样所得到的样本均数 X , 在样本含量较小时呈偏态分布但也有别于指数分布,而在大样本时 X 的频数分布图接近正 态分布。 X 的均数始终在 X 的总体均数 =1 两侧附近, X 的标准差 X n 的总体标准差 。 事实上,无论样本来自什么总体,理论上可以证明: 1. 样本均数 X 的总体标准差是个体资料 X 的总体标准差的 1 n ( X n = ,即样本 均数的理论标准误) ,理论标准误 X 的样本估计式为 S S n X = / 。 2.样本均数 X 与个体资料 X 的集中趋势位置相同,即样本均数 X 与个体资料 X 的总体 均数相同。 3.若个体资料所属总体 X 呈正态分布 ( ) 2 N , ,则由前面所述可知,样本均数 X 的 分布规律仍为正态分布 ( ) 2 N n , ;作标准化变换