n-1(x一F)2 X,k=1,2 (X,-X),k=1,2 这些随机变量仍分别称为样本平均值、样本方差、样本k阶原点矩及样本k阶中心矩。可以让 明,只要总体的r阶矩存在,样本r阶矩以概率1收敛于总体的r阶矩 在数理统计中除了用样本矩外,还需要用到另外一些样本数字特征。为此引入如下定义: 设(X1X2…Xn)为总体X的·个样本,g(X1,X2,…,X)为…个连续函数。如果g中不 包含任何未知参数,则称g(X1,K2…,X)为一个统计量。 如果x1x2…r,是样本(X,X……X)的观察值则x(x1,x2,…x)是统计量g(X3 X2,…,Xn)的一个观察值 如X.S2,M及M都是统计量,其中和S2是两个特别重要的统计量统计量都是随机 变量,如果总体的分布函数为已知,则统计量的分布是可以求得的 2.2.3顺序统计量 定义设总体X具有连续的分布函数F(x),(X,X2…,X)为总体X的一个样本,若将 样本观察值x1x3,…,x,按从小到大的次序排列 规定统计量X灬为取上述排列的第k个值为观察值的殖机变量,则称X,X(;…,Xa 为做序统计量。其中最小项为X1=min(1,X2…X,),最大项为X=max(X,X2,…, X}。而统计量X-X(1)=mx(X1,X2,…,X)-min(x1,X2,…,X)称为极差。 順序统计量X有自己的分布函数F(x)设样本中最大项Xm的分布函数记为F; 则 F(u)=PX)≤a}=P{X≤u,X:≤u,…,Xn≤u} F(a)] (2-12) 样本中最小项x(1的分布函数记为F(z),则 Fi(o)=PIXosu-1-PiXm>vl 1-P{X1>vX2>7,…X>v} [P{X>v}]-1-[1-F(v)] (2-13) 如果总体X有概率密度函数f(x)则X和Xa3的概率密度函数分别为 A(u=nlF(u)]If(u) (2-14) f(v)=n[1-F(v)]1·f(v) (2-15) 般地顺序统计量X的分布函数记为F(y),k=1,2,…H。我们用P{y≤(<y+ y示事件“在样本X1,X2,…,X,中,有-一个落在[y,y+△y),k-1.个落在(-∞,y),其余n
k个落在[y+△y,∞)”的概率,于是 △F(y) k-1 [F(y)]4·[1-F(y+△y)y f:(y)=lin k-1/LF(y)y-1·[1-F(y)y (2-16) F:(y)=n 2.3直方图和秩 23.1直方图 上节提到,当样本容量很大时祥本分布函数将近似地等于总体的分布函数。工程上常用 直方图来求得随机变量的概率密度函数f(x),下面介绍直方图的作法。 设x,x3…,x是一组数据,为了掌握它变化的规律性,对它加以整理。首先选取a,b两 数,使得a适当小于min(x1,x2,…,x),b适当大于max(x,x2;…,xn),并用分点t(a=to<t <…<!m=b将区间[a,分成m个小区间[,1,t1),=1,2,…,m,每个小区间长度为△,。然 后统计x1x2……x落入[t.1,)中的个数,设落入[t.1,t,内有n.个。把每小区间内的数据 称为一组,这样、整批数据就被分成了m组。作 ≤ 并绘出f()的图形,由于fn(x)的图形呈直方形,因此称为直方图 在作直方图时,要注意分组问题。组数的多少往往影响着直方图反映数据分布的效应,如 果组数过多,每组所占的区间就很狭窄,这不仅造成讣算上的麻烦,而且也有可能因随机因素 导致某组内数据稀少,甚至没有,这样直方图就不能较好地反映数据所提供的信息;如果组数 过少,那么落在每组内的数据就较多,从而掩盖了组内数据变化的情况。在实际应用中,一般当 数据多于100个时宜分为10~20组,当数据少于50个时,分为5~6组为宜 直方图是总体概率密度曲线的一个佔计,在这里m,可以看成事件{t<x<1,在n次重 复独立试验中出现的頻率。令x=↓(,+1),称正为组中值,则当充分大时,有 f(x)≈(x)n△=(x) 通常称f(x)为频率密度函数 例2-1研究某届学生数学成绩的分布随机抽充了120名学生进行测试,得到如下数 据 58926967849457747483
51626462725856767683 83567298748468837985 595973725469786882.84 79787879778284828482 81869479745472686345 93794255687064737354 46647477766968665472 50726263907454738968 87748675508267628844 rm ■■ 69887274559066766474 65737269687560797780 图2-2直方图 作出它的直方图。 解该组数据最小值为42,最大值为98取a=40,b-100,将[a,b)分成12个小区间,为 计算方便,各小区间长度取等值, 100-40 =5这样将全部数据分成12组,计算各组的频 数,列于表2-1中,由表2-1即可画出直方图如图2-2所示。由图可以看出学生成绩大致 是服从正态分布的。 丧2-1效据统计表 频数登记 频数 频率 频率密度 [95,10 0.008 0.0016 [90,95) 0.050 0.0100 [85,9 正T 0.058 0.0116 80,85) 正正正 0.0266 75,80) 正正正F 0.150 正正正正F 0.192 0.0384 65,70) 正正正T 0.142 0.0284 60,65) 正正 0.092 0.Dl84 0.t75 0.;》150 [50,55 正F 0.066 0.0132 45,5:) T 0.017 0.0034 [40,45) 0.017 D.;H3 120 2.3.2秩 在工程试验中,有时会遇到试验样本价格昂贵试验周期长,限于人力物力,一般样本容
量不可能很大,因此小样本统计推断是必须解决的问题。工程上常用的方法是青接根据样本观 祭值作累积分布函数图 根据拌本观察值作累积分布函数图时,首先将观察值按从小到大的順疗排列描点于横坐 标上然后运用顺序统计量和秩的概念,确定相应的纵坐标值 例2-2某元件,随机抽样5个,测得其失效时间分别为200,300,380,50,850(h),以此 作为横坐标值,若以等慨率取相应的失效概率20%,40%,60%,80%,100%为纵坐标值,则得 茶积分布函数如图2-3所示, pf」 图2-3累积分布函数 图2-4失效分布函数 取纵坐标值为20%,40%,…,这样意味着总体中有20%的寿命低于20h(第一个順序统 计量的观察值),4%的寿命低于30h(第二个顺序统计量的观察值)…。这样的假定是否合 理?从统计学的观点看,理山是不充分的因为顺序统计量是随机变量.它有自己的概率密度函 数和分布函数。如果另取一次样本,则尖效时间就不可能正好又是200,300,…,而是在这些值 附近波动的一些数值。也就是说,当寿命分别为200,300,…(h)时,其相应的尖效概率y F:(x)本身又是随机变量Y的观察值,Yd也是顺序统计量。因此,累积分布函数图的纵坐标 值,应根据順序统计量的分布函数来确定, 为」求得顺序统计量Yω,Ya;…,Y∽的概率密度函数,这里绐出如下重要结论 当总体X的分布函数为严格单增的连绫函数F(x)时,其反函数x=F(y)也是严格单 增的连续函数,由于F(x)只能取区间[0,1]上的值,对于区间[0,1]:的任…·y值,有 PIF()<y=l(XF '(y))=[F (y)3-y 所以,随机变量Y=F(x)服从区间[0,1]上的均匀分布。Y的分布函数和概率密度函数分别为 这个结论对般的连续函数F(x)也成立。 由式(2-16)得,顺序统计量Ya的密度函数为 i;(y-(k-1!(n-b!y21(1-y)” (2-19) 其分布函数为 2
(1 (2-20) 1)!(n一k)! 上述分布函数的分位点,常被用来估计总体分布函数F(x),这个分位点叫做秩。若 F+(y) f;(x)dx-0.5 则分位点y称为中位秩,若 F:(y)=|f(x)dx=0.05 则分位点y灬称为5%秩同理,还有95%秩、2.5%秩及97.5%秩等。根据给定的n、k,即可 求得中位秩、5%秩、95%秩等。为应用方便,各秩之值列于书末附表1。1程上多应明中位秩 在例2-2中、若以中位秩来确定总体累积分布函数的纵坐标,则根据n=5查附表1可得 相应的失效概率为12.94%,31.17%,50%,68.53%和87.06%,即可作出累积分布函数如图 2-4所小。 2.4抽样分布 统计量是对总体行性进行估计与推断的最重要的堪本概念,求出统计量g(X1,X2… X)的分布函数是统计学的基本问题之…。统计量的分布,称为抽样分布。 般地·要确定-个统计量的精确分布并不是件容易的事。只有对一些重要的持殊情况 如忌总体X服从正态分布时·已求出了x统计量,缆计量及F统计量的精确分布。它们在参数 的计及检验中起脊很重要的作用 2.4.1正态分布 设迮续型随机变致的概*密度为 f(x): (2-21) 则称服从参数为μ、σ的正态分布,记分X~N(μσ2)。参数μ为X的数学期望或均偵;参数 为X的均方差而。2则称为方。的分布函数为 F(x).1 C d a (2-22) -0.d=1时,称X服从标准止态分布,其概率密度函数和分布函数分别用g(x)和φ (x)長小,即 (2-24) 般,若X~N(g,a2).则令z 代入(2-22)式得