第五章统计量及其分布 一、教材说明 本章内容包括:总体与样本,样本数据的整理与显示,统计量及其分布,三大抽样分布。 本章的基本概念和重要结论是学习数理统计的基础。 1、教学目的与教学要求 1)掌握数理统计的总体、样本、样本经验分布函数 ,统计量及常用统计量等基本概念。 2)掌握 大分布的定义,并能熟练应用来求随机变量的分布, 3)牢记Fisher定理的内容及其三大推论。 4)使学生了解数理统计研究问题的方法与概率论研究问题方法的不同。 5)了解如何对样本数据进行整理与现实。 2、本章重点与难点 登重点是数理统计的基本概念 三大分布的定义、Fisher定理及其推论。难点是Fisher 定理结合二 分布茅 求随机变量的分布。 二、教学内容 本章共分总体与样本、样本数据的整理与显示、统计量及其分布、三大抽样分布等4 节来进述本章的基本内容。 §5.1总体与样本 总体与样本 在一个统计问题中,把研究对象的全体称为总体,构成总体的每个成员称为个体。对于 实际问题,总体中的个体是 些实在的人或物。比如,我们要研究某大学的学生身高情况 则该大学的全体学生构成问题的总体,而每一个学生即是一个个体。事实上,每一个学生有 许多特征:性别、年龄、身高、体重等等,而在该问题中,我们关心的只是该校学生的身高 如何,对其他的特征暂不考虑。这样,每个学生(个体)所具有的数量指标一一身高就是个 体,而所有身高全体看成总体。这样,抛开实际背景,总体就是一堆数,这堆数中有大有小, 有的出现机会多,有的出现机会小,因此用 个概率分布去描述和归纳总体是合适的,从这 个意义上说: 总体就是一个分布,而其数量指标就是服从这个分布的随机变量。 例511考察某厂的产品质量,将其产品分为合格品和不合格品,并以0记合格品,以 1记不格品,若以表示不合格品率,则各总体可用一个二点分布表示 p 1-p p 不同的p反映了总体间的差异。 在有些问题中,我们对每一研究对象可能要观测两个或更多个指标,此时可用多维随机 向量及其联合分布来描述总体。这种总体称为多维总体。 若总体中的个体数是有限的,此总体称为有限总体:否则称为无限总体。实际中总体中 的个体数大多是有限的,当个体数充分大时,将有限总体看作无限总体是一种合理抽象
第五章 统计量及其分布 一、教材说明 本章内容包括:总体与样本,样本数据的整理与显示,统计量及其分布,三大抽样分布。 本章的基本概念和重要结论是学习数理统计的基础。 1、教学目的与教学要求 1)掌握数理统计的总体、样本、样本经验分布函数、统计量及常用统计量等基本概念。 2)掌握三大分布的定义,并能熟练应用来求随机变量的分布。 3)牢记 Fisher 定理的内容及其三大推论。 4)使学生了解数理统计研究问题的方法与概率论研究问题方法的不同。 5)了解如何对样本数据进行整理与现实。 2、本章重点与难点 本章重点是数理统计的基本概念、三大分布的定义、Fisher 定理及其推论。难点是 Fisher 定理结合三大分布来求随机变量的分布。 二、教学内容 本章共分总体与样本、样本数据的整理与显示、统计量及其分布、三大抽样分布等 4 节来讲述本章的基本内容。 §5.1 总体与样本 一、 总体与样本 在一个统计问题中,把研究对象的全体称为总体,构成总体的每个成员称为个体。对于 实际问题,总体中的个体是一些实在的人或物。比如,我们要研究某大学的学生身高情况, 则该大学的全体学生构成问题的总体,而每一个学生即是一个个体。事实上,每一个学生有 许多特征:性别、年龄、身高、体重等等,而在该问题中,我们关心的只是该校学生的身高 如何,对其他的特征暂不考虑。这样,每个学生(个体)所具有的数量指标——身高就是个 体,而所有身高全体看成总体。这样,抛开实际背景,总体就是一堆数,这堆数中有大有小, 有的出现机会多,有的出现机会小,因此用一个概率分布去描述和归纳总体是合适的,从这 个意义上说: 总体就是一个分布,而其数量指标就是服从这个分布的随机变量。 例 5.1.1 考察某厂的产品质量,将其产品分为合格品和不合格品,并以 0 记合格品,以 1 记不格品,若以 p 表示不合格品率,则各总体可用一个二点分布表示: X 0 1 p 1-p p 不同的 p 反映了总体间的差异。 在有些问题中,我们对每一研究对象可能要观测两个或更多个指标,此时可用多维随机 向量及其联合分布来描述总体。这种总体称为多维总体。 若总体中的个体数是有限的,此总体称为有限总体;否则称为无限总体。实际中总体中 的个体数大多是有限的,当个体数充分大时,将有限总体看作无限总体是一种合理抽象
二、样本与简单随机样本 1、样本 为了了解总体的分布,从总体中随机地抽取n个个体,记其指标值为x,x2,,X, 则x,x2,…,x。称为总体的一个样本,称为样本容量或简称为样本量,样本中的个体称为 样品。当n≥30时,称x,x2,…,xn为大样本,否则为小样本。 首先指出,样本具有所谓的二重性:一方面,由于样本是从总体中随机抽取的,抽取前 无法预知它们的数值,因此样本是随机变量,用大写字母X,X2,…,X。表示:另一方面。 样本在抽取以后经观测就有确定的观测值,因此样本又是一组数值,此时用小写字母 x,x2,,x。表示。简单起见,无论是样本还是其观测值,本书中均用x,x2,,x。表示 从上下文我们能加以区别。 每个样本观测值都能测到一个具体的数值,则称该样本为完全样本,若样本观测值没有 具体的数值,只有一个范围,则称这样的样本为分组样本。从而知道分组样本与完全样本相 比在信息上总有损失,但在实际中,若样本量特别大,用分组样本既简明扼要,又能帮助人 们更好地认识总体 例51.4略。 2、简单随机样本 从总体中抽取样本可有不同的抽法,为了能由样本对总体作出较可靠的推断就希望样本 能很好地代表总体。这就需要对抽样方法提出一些要求,最常用的有如下两个要求: 1)样本具有随机性:要求每 一个个体都有同等机会被选入样本,这便意味着每一样品 x,与总体X有相同的分布。 2)样本要求有独立性:要求每一样品的取值不影响其它样品的取值,这便意味者 x,2,…xn相互独立。 若样本x,x2,…,xn是n个相互独立的具有同一分布的随机变量,则称该样本为简单随 机样本,简称为样本。 注(I)若总体X的分布函数为Fx,则其样本的联合分布函数为F(x,) (2)若总体X的密度函数为p,则其样本的联合密度为·p(x) (3)若总体X的分布列为p(x),则其样本的联合分布列为口x,) (4)对有限总体不放回抽样,若总体中有几个个体,抽取样本容量为m,当心<W (分≤0.1)时,不放回抽样得到的样本可认为是简单随机样本。 例51.5设有一批产品共N个,需进行抽样检验以了解其不合格品率P,现从中抽出n 个逐一检查它们是否是不合格品,记合格品为0,不合格品为1。则总体为一个二点分布: P=p,PK=0l-p。设x,xn为该总体的一个样本,采用不放回抽样得到。这时
二、样本与简单随机样本 1、样本 为了了解总体的分布,从总体中随机地抽取 n 个个体,记其指标值为 n x , x , , x 1 2 , 则 n x , x , , x 1 2 称为总体的一个样本,n 称为样本容量或简称为样本量,样本中的个体称为 样品。当 n 30 时,称 n x , x , , x 1 2 为大样本,否则为小样本。 首先指出,样本具有所谓的二重性:一方面,由于样本是从总体中随机抽取的,抽取前 无法预知它们的数值,因此样本是随机变量,用大写字母 X X Xn , , , 1 2 表示;另一方面, 样本在抽取以后经观测就有确定的观测值,因此样本又是一组数值,此时用小写字母 n x , x , , x 1 2 表示。简单起见,无论是样本还是其观测值,本书中均用 n x , x , , x 1 2 表示, 从上下文我们能加以区别。 每个样本观测值都能测到一个具体的数值,则称该样本为完全样本,若样本观测值没有 具体的数值,只有一个范围,则称这样的样本为分组样本。从而知道分组样本与完全样本相 比在信息上总有损失,但在实际中,若样本量特别大,用分组样本既简明扼要,又能帮助人 们更好地认识总体。 例 5.1.4 略。 2、简单随机样本 从总体中抽取样本可有不同的抽法,为了能由样本对总体作出较可靠的推断就希望样本 能很好地代表总体。这就需要对抽样方法提出一些要求,最常用的有如下两个要求: 1)样本具有随机性:要求每一个个体都有同等机会被选入样本,这便意味着每一样品 i x 与总体 X 有相同的分布。 2)样本要求有独立性:要求每一样品的取值不影响其它样品的取值,这便意味着 n x , x , , x 1 2 相互独立。 若样本 n x , x , , x 1 2 是 n 个相互独立的具有同一分布的随机变量,则称该样本为简单随 机样本,简称为样本。 注(1)若总体 X 的分布函数为 F(x),则其样本的联合分布函数为 ( ) 1 i n i F x = (2)若总体 X 的密度函数为 p(x),则其样本的联合密度为 ( ) 1 i n i p x = (3)若总体 X 的分布列为 ( ) i p x ,则其样本的联合分布列为 ( ) 1 i n i p x = (4)对有限总体不放回抽样,若总体中有几个个体,抽取样本容量为 n,当 n<<N ( 0.1 N n )时,不放回抽样得到的样本可认为是简单随机样本。 例 5.1.5 设有一批产品共 N 个,需进行抽样检验以了解其不合格品率 p,现从中抽出 n 个逐一检查它们是否是不合格品,记合格品为 0,不合格品为 1。则总体为一个二点分布: P(X=1)=p,P(X=0)=1-p。设 1 ,..., n x x 为该总体的一个样本,采用不放回抽样得到。这时
第二次抽到不合格品的概率依赖于第一次抽到的是否是不合格品: x==0名 但当N很大时,上述两个概率近似都等于P,所以当N很大,而n不大时,不放回抽样得 到的样本可近似看成简单随机样本。 §5.2样本数据的整理与显示 一、经验分布函数 1、定义设x,x2,,x,是取自总体分布函数为F()的样本,若将样本观测值从小到 大进行排列为x,x2…,a,则x≤x2S…xa为有序样本,如下函数 0,当x<x和 E=信<nke2--l 1,当x>xa 称为经验分布函数。 例52.1某食品厂生产听装饮料,现从生产线上随机抽取5听饮料,称得其净重为:351 347355344351,求此样本的经验分布函数。 2、经验分布函数的性质 1°对每一个固定的x,F,(x)是事件“X≤x”发生的频率,当n固定时,F(x)是样 本的函数,是一个随机变量,且F,(x)P→F(x)。 2°(格里纹科定理)定理52.1:设x1,x2,,xn是取自总体分布函数为Fx)的样本 F(x)是经验分布函数,有 P(lim sup F.(x)-F(x)=0)=1. 注此定理表明,当相当大时,经验分布函数是总体分布函数的一个良好的近似 二、频数频率分布表 样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或 频率分布表,其基本步骤是: 1、对样本进行分组:首先确定组数k,作为一般性原则,组数通常在5-20个。对容量 较小的样本,通常将其分为5组或6组,容量为10左右的样本可分7到10组,容量在20 左右的样本可分9~13组,容量为300左右级以上的样本可分12到20组。 2、确定每组组距:每组组距可以相同也可以不同。但实际中常选用长度相同的区间, 以d表示组距
第二次抽到不合格品的概率依赖于第一次抽到的是否是不合格品: 1 1 ( 1 1) 2 1 − − = = = N Np P x x 1 ( 1 0) 2 1 − = = = N Np P x x 但当 N 很大时,上述两个概率近似都等于 p,所以当 N 很大,而 n 不大时,不放回抽样得 到的样本可近似看成简单随机样本。 §5.2 样本数据的整理与显示 一、经验分布函数 1、定义 设 n x , x , , x 1 2 是取自总体分布函数为 F(x)的样本,若将样本观测值从小到 大进行排列为 (1) (2) ( ) , , , n x x x ,则 (1) (2) (n) x x x 为有序样本,如下函数 (1) ( ) ( 1) ( ) 0, ( ) , , 1,2, , 1 1, n k k n x x k F x x x x k n n x x + = = − 当 当 当 称为经验分布函数。 例 5.2.1 某食品厂生产听装饮料,现从生产线上随机抽取 5 听饮料,称得其净重为:351 347 355 344 351,求此样本的经验分布函数。 略。 2、经验分布函数的性质 0 1 对每一个固定的 x,F (x) n 是事件“ X x ”发生的频率,当 n 固定时, F (x) n 是样 本的函数,是一个随机变量,且 F (x) F(x) P n ⎯→ 。 0 2 (格里纹科定理)定理 5.2.1:设 n x , x , , x 1 2 是取自总体分布函数为 F(x)的样本, F (x) n 是经验分布函数,有 (lim sup ( ) − ( ) = 0) = 1 − + → P F x F x n x n 。 注 此定理表明,当 n 相当大时,经验分布函数是总体分布函数的一个良好的近似。 二、频数频率分布表 样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或 频率分布表,其基本步骤是: 1、对样本进行分组:首先确定组数 k,作为一般性原则,组数通常在 5-20 个。对容量 较小的样本,通常将其分为 5 组或 6 组,容量为 100 左右的样本可分 7 到 10 组,容量在 200 左右的样本可分 9~13 组,容量为 300 左右级以上的样本可分 12 到 20 组。 2、确定每组组距:每组组距可以相同也可以不同。但实际中常选用长度相同的区间, 以 d 表示组距
3、确定每组组限。 4、统计样本数据落入每个区间的个数一一须数,并列出其须数频率分布表 具体例子略 三、样本数据的图形显示: 常用的样本数据的图形显示主要有直方图和茎叶图,具体例子略。 §5.3统计量及其分布 一、统计量与抽样分布 样本来自总体,含有总体各方面的信息,但这些信息较为分散,有时不能直接利用。为 将这些分散的信息集中起来以反映总体的各种特征,需要对样本进行加工,最常用的加工方 法是构造样本的函数,为此: 定义531设x,x2,,xn为取自某总体的样本,若样本函数T=T(x,,x)中不含有 任何未知参数,则称T为统计量。统计量的分布为抽样分布。 按上述定义:设x,x,,xn为样本,则三,三x都是统计量,当4,o2未知时, 名一以。等都不是统计量】 注统计量不依赖于未知参数,但其分布一般是依赖于未知参数的。 二、常用的统计量 1、样本均值、样本方差、样本k阶矩及k阶中心矩 定义设x,x2,…,xn是来自某总体的样本。称 =之x为样木均值 s矿-2化-印为样本方龙 S°=V5为样本标准差 了2化-可矿为体(无》方龙 S=V区为样本(无偏)标准差 a-泛女为解太贵6原)矩 A一之低-计为样本阶中心矩
3、确定每组组限。 4、统计样本数据落入每个区间的个数——频数,并列出其频数频率分布表。 具体例子略。 三、样本数据的图形显示: 常用的样本数据的图形显示主要有直方图和茎叶图,具体例子略。 §5.3 统计量及其分布 一、统计量与抽样分布 样本来自总体,含有总体各方面的信息,但这些信息较为分散,有时不能直接利用。为 将这些分散的信息集中起来以反映总体的各种特征,需要对样本进行加工,最常用的加工方 法是构造样本的函数,为此: 定义 5.3.1 设 n x , x , , x 1 2 为取自某总体的样本,若样本函数 ( , , ) 1 n T = T x x 中不含有 任何未知参数,则称 T 为统计量。统计量的分布为抽样分布。 按上述定义:设 n x , x , , x 1 2 为样本,则 2 1 1 , i n i i n i x x = = 都是统计量,当 2 , 未知时, 1 1 , x x − 等都不是统计量。 注 统计量不依赖于未知参数,但其分布一般是依赖于未知参数的。 二、常用的统计量 1、样本均值、样本方差、样本 k 阶矩及 k 阶中心矩 定义 设 n x , x , , x 1 2 是来自某总体的样本。称 = = n i i x n x 1 1 为样本均值 = = − n i i x x n S 1 * 2 ( ) 2 1 为样本方差 2 * * S = S 为样本标准差 = − − = n i i x x n S 1 2 2 ( ) 1 1 为样本(无偏)方差 2 S = S 为样本(无偏)标准差 = = n i k k i x n a 1 1 为样本 k 阶(原点)矩 = = − n i k k i x x n b 1 ( ) 1 为样本 k 阶中心矩
业ws2-2 (2)在分组样本场合下:若x,为第1组的组中值,厂为该1组的个数,k为组数,则 -++正,其中n=2 s26-2-刘 2、次序统计量 定义537设x,x2,,x,是取自总体X的样本,将其从小到大排序得到 x和≤2≤…≤x定义X0:不论x,x,…,x,取怎样的一组观测值,X。总取x0为 其观测值,称Xo为第i个次序统计量,从而有X。≤Xa≤…Xo X=盟化,以X。=惑化,)分别称为样本的最小、最大次序统计量。 注样本x,x2,…,xn独立同总体分布,但X,X2,Xm既不独立又不同分布。 三、统计量X与S2的性质 定理531x-)=0: 证明略。 定理5.32数据观察值与均值的偏差平方和最小,即在形如∑(x,-c)2的函数中, (x-最小,其中e为任意给定常数。 证明略 定理53.3设x,2,…,xn是来自某个总体的样本,x为样本均值。 1)若总体分布为N(4,G2),则x的精确分布为N(4,二。2)。 2)若总体分布未知或不是正态分布,但EX=4,mX=2,则n较大时的渐近分布为 证明略
注(1) = − − = n i i x x n S 1 2 2 ( ) 1 1 = [ ] 1 1 1 2 2 = − − n i i x nx n (2)在分组样本场合下:若 i x 为第 i 组的组中值, i f 为该 i 组的个数,k 为组数,则 = = + + = k i i k k n f n x f x f x 1 1 1 ,其中 = − − = k i i i f x x n S 1 2 2 ( ) 1 1 = [ ] 1 1 1 2 2 = − − k i i i f x nx n 2、次序统计量 定 义 5.3.7 设 n x , x , , x 1 2 是取自总体 X 的 样 本 , 将 其 从 小 到 大 排 序 得 到 (1) (2) ( ) n x x x .定义 X(i) :不论 n x , x , , x 1 2 取怎样的一组观测值, X(i) 总取 ()i x 为 其观测值,称 X(i) 为第 i 个次序统计量,从而有 X(1) X(2) X(n) . i i n X X = 1 1 min , i i n X n X = 1 ( ) max 分别称为样本的最小、最大次序统计量。 注 样本 n x , x , , x 1 2 独立同总体分布,但 (1) (2) ( ) , , , X X X n 既不独立又不同分布。 三、统计量 X 与 2 S 的性质 定理 5.3.1 ( ) 0 1 − = = n i i x x 。 证明 略。 定理 5.3.2 数据观察值与均值的偏差平方和最小,即在形如 = − n i i x c 1 2 ( ) 的函数中, = − n i i x x 1 2 ( ) 最小,其中 c 为任意给定常数。 证明 略。 定理 5.3.3 设 n x , x , , x 1 2 是来自某个总体的样本, x 为样本均值。 1) 若总体分布为 ( , ) 2 N ,则 x 的精确分布为 ) 1 ( , 2 n N 。 2) 若总体分布未知或不是正态分布,但 2 EX = ,VarX = ,则 n 较大时的渐近分布为 ) 1 ( , 2 n N ,记为 x . ~ ) 1 ( , 2 n N 。 证明 略