样本,我们可以借助于附录中的表Ⅺ这类随机数表来进行。 统计推断合理而充分利用从样本观察值中计算得来的量。我 们定义一个统计量为样本观察值的不含有未知参数的函数例如, 设 yn表示一个样本。则样本均值 与样本方差 )2 都是统计量。这些量分别是样本中心趋势和离中趋势的度量。S= /S,称为样本标准差,有时用作离中趋势的度量。工程师们常 常喜欢用标准差来量度离中趋势,因为它的单位与变量y的单位 相同 样本均值和方差的性质样本均值y是总体均值的一个 点估计(量),同样,样本方差S2是总体方差02的一个点估计 (量)。一般说来,一个未知参数的估计量就是对应于那个参数的 个统计量。一个点估计(量)就是一个随机变量。从样本数值 所算得的一个估计量的具体数值叫做一个估计值。例如·假设要 估计某一特殊类型纺织纤维的抗断强度的均值和方差。检验-一个 n=25的纤维样品的随机样本并记录好每一样品的抗断强度。按 照27与2-8式计算出样本均值和方差,分别是y=18.6和S2= 1·20。因此,的估计值是y=18.6,a2的估计值是S2=1.20 作为一个好的点估计所需具备的性质是什么呢?其中两个最 重要的性质如下 1·点估计应是无偏的。也就是说,点估计的长期试验平均值 或期望值应该是被估计的参数。虽然无偏性是所希望的,但仅有 这一性质常常不能使-个估计量成为一个好的估计量 23
2-个无偏估计量应该具有最小的方差。这一性质表明,最 小方差点估计的方差比参数的任一其他估计量的方差都小。 容易证明,y与S2分别是g与a2的无偏估计量。 先考虑y。利用期望的性质,得 y E(y)=E E(∑y) E(y 因为每个观察值y的期望值都是P。于是,y是P的一个无偏估计 量 今考虑样本方差S2。有 E(S2)=E E ECSS) 其中SS (y;-y)2是这些观察值y的校正平方和。今有 E(SS)=E|>( (2-9) t=1 ·24·
,(P2+a2)-n(p2+a2/n) (n-1)a2 (2-10) 因此, E(S2)=-1E(SS) 所以S2是a2的一个无偏估计量 自由度2-10式中的量n-1叫做平方和SS的自由度。这是 个很一般的结果;也就是说,如果y是一个具有方差a的随机 变量而SS=∑(yy)2有个自由度,则 E (2-11) 平方和的自由度等于平方和中独立元素的个数。例如,2-9式中的 SS=∑1(y,-y)2是由n个元素y1-y,y2-y,…,yn-y的 平方和所组成而因为Σn=1(y,-y)=0,这些元素并非都是独立 的;实际上,只有其中的n-1个是独立的,所以SS有n-1个自 由度 正态及其他抽样分布如果已知样本所由来的总体的概率分 布,通常,我们能够确定一个特定统计量的概率分布。统计量的 概率分布叫做抽样分布。现在,我们简要讨论几个有用的抽样分 布 最重要的一个抽样分布就是正态分布。如果y是一个正态随 机变量,则y的概率分布是 f(y) 0√分=-(1ym2-∞<y<∞(2-12) 其中-∞<p<∞是分布的均值,a2>0是方差。正态分布如图2 5所示。 因为作为实验误差的结果而体现在样本中的差别通常能用正 态分布来描述,所以正态分布在实验设计的数据分析中起着主角 25
的作用。很多重要的抽样分布亦可通过正态随机变量来定义。我 们常用记号y~N(,a2)表示y是具有均值和方差2的正态 分布。 图2-5正态分布 正态分布的一个重要的特殊情况是标准正态分布;即,p=0 与a2=1。如果y~N(n,a2),则随机变量 (2-13) 服从标准正态分布,记为x~N(0,1)。2-13式所示的运算通常 叫做正态随机变量y的标准化。标准正态分布函数表在附录的表 I中给出。 很多统计方法都假定随机变量是正态分布的。中心极限定理 常作为近似正态性的一个合理依据。 定理2-1中心极限定理若y3,y2,…,yn是n个独立同分 布的随机变量,具有E(y,)=和V(y,)=σ2(都是有限的), +y2+…+yn,则 n ·26·
是一个依下述意义下的一个近似的N(0,1)分布,即,若Fn(z) 是xn的分布函数,Φ(z)是N(0,1)随机变量的分布函数,则 lim[Fn(z)/(z)]=1。这一结果实质上说明,n个独立同分 nbsr 布随机变量的和是近似正态分布的。在很多情况中,这一近似对 很小的n,比方说n<10,是良好的,但在其他情形下,需要很大 的n,比方说,n>100。我们通常认为,实验中的误差来自多个独 立源,且以加法方式出现;因此,正态分布就成为这种联合实验 误差的一个近乎合理的模型 能利用正态随机变量来定义的一个重要的抽样分布是卡方分 布或x2分布。若z1,z,…,z是独立的正态分布的随机变量,其 均值为0,方差为1,简记为NID(0,1),则随机变量 ≈2+…+ 服从自由度为k的卡方分布。卡方的密度函数是 f(X2) 2r12)(x)+-x2x>0(214) 几个卡方分布如图2-6所示。这一分布是非对称的或偏斜的,其均 值与方差分别为 k a2=2k 卡方分布的百分位数表列于附录中的表Ⅲ。 作为服从卡方分布的随机变量的一个例子,假设y y是来自N(r,a2)分布的一个随机样本,则 ∑(y SS (2-15) ss 也就是说,是自由度为n-1的卡方分布 用于本书的很多方法涉及平方和的计算和变换。2-15式给出 的结果是十分重要的且反复出现;正态随机变量的平方和除以a2 27