第六章样本及抽样分布 【授课对象】理工类本科二年级 【授课时数】4学时 【授课方法】课堂讲授与提问相结合 【基本要求】1、理解总体、个体和样本的概念 2、了解经验分布函数和直方图的作法,知道格林汶科定理; 理解样本均值、样本方差和样本矩的概念并会计算 4、理解统计量的概念,掌握几种常用统计量的分布及其结论: 、理解分位数的概念,会计算几种重要分布的分位数 本章重点】样本均值、样本方差和样本矩的计算;抽样分布——x2分布,t分布, F分布;分位数的理解和计算。 本章难点】对样本、统计量及分位数概念的理解:样本矩的计算。 【授课内容及学时分配】 §6.0前言 前面五章我们研究了概率论的基本内容,从中得知:概率论是研究随机现象统计规律性 的一门数学分支。它是从一个数学模型出发(比如随机变量的分布)去研究它的性质和统计 规律性:而我们下面将要研究的数理统计,也是硏究大量随机现象的统计规律性,并且是应 用十分广泛的一门数学分支。所不同的是数理统计是以概率论为理论基础,利用观测随机现 象所得到的数据来选择、构造数学模型(即研究随机现象)。其研究方法是归纳法(部分到整 体)。对硏究对象的客观规律性做出种种合理性的估计、判断和预测,为决策者和决策行动提 供理论依据和建议。数理统计的内容很丰富,这里我们主要介绍数理统计的基本概念,重点 研究参数估计和假设检验 §6.1隨机禅本 总体与样本 1.总体、个体 在数理统计学中,我们把所研究的全部元素组成的集合称为总体;而把组成总体的每个
1 第六章 样本及抽样分布 【授课对象】理工类本科二年级 【授课时数】4 学时 【授课方法】课堂讲授与提问相结合 【基本要求】1、理解总体、个体和样本的概念; 2、了解经验分布函数和直方图的作法,知道格林汶科定理; 3、理解样本均值、样本方差和样本矩的概念并会计算; 4、理解统计量的概念,掌握几种常用统计量的分布及其结论; 5、理解分位数的概念,会计算几种重要分布的分位数。 【本章重点】样本均值、样本方差和样本矩的计算;抽样分布—— 2 分布, t 分布, F 分布;分位数的理解和计算。 【本章难点】对样本、统计量及分位数概念的理解;样本矩的计算。 【授课内容及学时分配】 §6.0 前 言 前面五章我们研究了概率论的基本内容,从中得知:概率论是研究随机现象统计规律性 的一门数学分支。它是从一个数学模型出发(比如随机变量的分布)去研究它的性质和统计 规律性;而我们下面将要研究的数理统计,也是研究大量随机现象的统计规律性,并且是应 用十分广泛的一门数学分支。所不同的是数理统计是以概率论为理论基础,利用观测随机现 象所得到的数据来选择、构造数学模型(即研究随机现象)。其研究方法是归纳法(部分到整 体)。对研究对象的客观规律性做出种种合理性的估计、判断和预测,为决策者和决策行动提 供理论依据和建议。数理统计的内容很丰富,这里我们主要介绍数理统计的基本概念,重点 研究参数估计和假设检验。 §6.1 随机样本 一、总体与样本 1.总体、个体 在数理统计学中,我们把所研究的全部元素组成的集合称为总体;而把组成总体的每个
元素称为个体 例如:在研究某批灯泡的平均寿命时,该批灯泡的全体就组成了总体,而其中每个灯泡 就是个体;在研究我校男大学生的身高和体重的分布情况时,该校的全体男大学生组成了总 体,而每个男大学生就是个体。 但对于具体问题,由于我们关心的不是每个个体的种种具体特性,而仅仅是它的某一项 或几项数量指标X(可以是向量)和该数量指标X在总体的分布情况。在上述例子中X是表示 灯泡的寿命或男大学生的身高和体重。在试验中,抽取了若干个个体就观察到了X的这样或 那样的数值,因而这个数量指标ⅹ是一个随机变量(或向量),而X的分布就完全描写了总 体中我们所关心的那个数量指标的分布状况。由于我们关心的正是这个数量指标,因此我们 以后就把总体和数量指标X可能取值的全体组成的集合等同起来 定义1:把研究对象的全体(通常为数量指标X可能取值的全体组成的集合)称为总体 总体中的每个元素称为个体。 我们对总体的研究,就是对相应的随机变量X的分布的研究,所谓总体的分布也就是数 量指标X的分布,因此,X的分布函数和数字特征分别称为总体的分布函数和数字特征。今 后将不区分总体与相应的随机变量,笼统称为总体X。根据总体中所包括个体的总数,将总 体分为:有限总体和无限总体 例1:考察一块试验田中小麦穗的重量: X=所有小麦穗重量的全体(无限总体);个体—一每个麦穗重x 对应的分布: F(x)=PEx=重量x的麦穗数=1 e2d~N(u,a2)0<x<+0 总麦穗数 例2:考察一位射手的射击情况 X=此射手反复地无限次射下去所有射击结果全体 每次射击结果都是一个个体(对应于靶上的一点) 射中 个体数量化x= 0未中 1在总体中的比例p为命中率 0在总体中的比例1-p为非命中率 总体X由无数个0,1构成,其分布为两点分布B(1,p)P{X=1}=p,P{X=0}=1-p 2样本与样本空间 为了对总体的分布进行各种研究,就必需对总体进行抽样观察
2 元素称为个体。 例如:在研究某批灯泡的平均寿命时,该批灯泡的全体就组成了总体,而其中每个灯泡 就是个体;在研究我校男大学生的身高和体重的分布情况时,该校的全体男大学生组成了总 体,而每个男大学生就是个体。 但对于具体问题,由于我们关心的不是每个个体的种种具体特性,而仅仅是它的某一项 或几项数量指标 X (可以是向量)和该数量指标 X 在总体的分布情况。在上述例子中 X 是表示 灯泡的寿命或男大学生的身高和体重。在试验中,抽取了若干个个体就观察到了 X 的这样或 那样的数值,因而这个数量指标 X 是一个随机变量(或向量),而 X 的分布就完全描写了总 体中我们所关心的那个数量指标的分布状况。由于我们关心的正是这个数量指标,因此我们 以后就把总体和数量指标 X 可能取值的全体组成的集合等同起来。 定义 1:把研究对象的全体(通常为数量指标 X 可能取值的全体组成的集合)称为总体; 总体中的每个元素称为个体。 我们对总体的研究,就是对相应的随机变量 X 的分布的研究,所谓总体的分布也就是数 量指标 X 的分布,因此, X 的分布函数和数字特征分别称为总体的分布函数和数字特征。今 后将不区分总体与相应的随机变量,笼统称为总体 X 。根据总体中所包括个体的总数,将总 体分为:有限总体和无限总体。 例 1:考察一块试验田中小麦穗的重量: X =所有小麦穗重量的全体(无限总体);个体——每个麦穗重 x 对应的分布: + = = = − − − e dt N x 重量 x F x P x x t ~ ( , ) 0 2 1 ( ) { } 2 2 ( ) 2 2 总麦穗数 的麦穗数 例 2:考察一位射手的射击情况: X =此射手反复地无限次射下去所有射击结果全体; 每次射击结果都是一个个体(对应于靶上的一点) 个体数量化 = 未中 射中 0 1 x 1 在总体中的比例 p 为命中率 0 在总体中的比例 1− p 为非命中率 总体 X 由无数个 0,1 构成,其分布为两点分布 B(1, p) P{X = 1} = p, P{X = 0} = 1− p 2.样本与样本空间 为了对总体的分布进行各种研究,就必需对总体进行抽样观察
抽样一一从总体中按照一定的规则抽出一部分个体的行动。 一般地,我们都是从总体中抽取一部分个体进行观察,然后根据观察所得数据来推断总 体的性质。按照一定规则从总体X中抽取的一组个体(X1,X2,…,Xn)称为总体的一个样本, 显然,样本为一随机向量。 为了能更多更好的得到总体的信息,需要进行多次重复、独立的抽样观察(一般进行n 次),若对抽样要求①代表性:每个个体被抽到的机会一样,保证了X1,X2,…Xn的分布相同, 与总体一样。②独立性:X1,X2,…X相互独立。那么,符合“代表性”和“独立性”要求 的样本(X1,X2…,Xn)称为简单随机样本。易知,对有限总体而言,有放回的随机样本为简 单随机样本,无放回的抽样不能保证X1,X2,…,Xn的独立性;但对无限总体而言,无放回随 机抽样也得到简单随机样本,我们本书则主要研究简单随机样本。 对每一次观察都得到一组数据(x,x2…,xn),由于抽样是随机的,所以观察值 (x1,x2,…xn)也是随机的。为此,给出如下定义 定义2:设总体X的分布函数为F(x),若X1,X2,…X,是具有同一分布函数F(x)的相互独立 的随机变量,则称(x12x2,…,Xn)为从总体x中得到的容量为n的简单随机样本,简称样 本。把它们的观察值(x,x2,…xn)称为样本值 定义3:把样本(X13X2,…,Xn)的所有可能取值构成的集合称为样本空间,显然一个样本值 (x1x2…,xn)是样本空间的一个点。 、样本的分布: 设总体X的分布函数为F(x),(X1X2,…Xn)是X的一个样本,则其联合分布函数为: =∏F(x) 例3:设总体X~B(,p),(X1,2…X)为其一个简单随机样本,则样本空间 g2=x1,x2…xnx=0;=12,,m},因为PX=x}=p(1-p)2,x=0, 所以样本的联合分布列为: P{X1=x,X2=x2…Xn=xn}=P{X1=x}P{X2=x2}…P{Xn=xn} p2(1-p)p2(1-p) §6.2分布郾数与概率軎度函数的近似解
3 抽样——从总体中按照一定的规则抽出一部分个体的行动。 一般地,我们都是从总体中抽取一部分个体进行观察,然后根据观察所得数据来推断总 体的性质。按照一定规则从总体 X 中抽取的一组个体 ( , , , ) X1 X2 Xn 称为总体的一个样本, 显然,样本为一随机向量。 为了能更多更好的得到总体的信息,需要进行多次重复、独立的抽样观察(一般进行 n 次),若对抽样要求①代表性:每个个体被抽到的机会一样,保证了 X X Xn , , , 1 2 的分布相同, 与总体一样。②独立性: X X Xn , , , 1 2 相互独立。那么,符合“代表性”和“独立性”要求 的样本 ( , , , ) X1 X2 Xn 称为简单随机样本。易知,对有限总体而言,有放回的随机样本为简 单随机样本,无放回的抽样不能保证 X X Xn , , , 1 2 的独立性;但对无限总体而言,无放回随 机抽样也得到简单随机样本,我们本书则主要研究简单随机样本。 对每一次观察都得到一组数据( n x , x , , x 1 2 ),由于抽样是随机的,所以观察值 ( n x , x , , x 1 2 )也是随机的。为此,给出如下定义: 定义 2:设总体 X 的分布函数为 F(x) ,若 X X Xn , , , 1 2 是具有同一分布函数 F(x) 的相互独立 的随机变量,则称( X X Xn , , , 1 2 )为从总体 X 中得到的容量为 n 的简单随机样本,简称样 本。把它们的观察值( n x , x , , x 1 2 )称为样本值。 定义 3:把样本( X X Xn , , , 1 2 )的所有可能取值构成的集合称为样本空间,显然一个样本值 ( n x , x , , x 1 2 )是样本空间的一个点。 二、样本的分布: 设总体 X 的分布函数为 F(x) ,( X X Xn , , , 1 2 )是 X 的一个样本,则其联合分布函数为: F ( x ,x , ,x ) n * 1 2 == n i 1 ( )i F x 。 例 3:设总体 ~ (1, ) , ( , , ) X B p X1 X2 Xn 为其一个简单随机样本,则样本空间 {( x ,x , ,x ) x , ; i , , ,n} = 1 2 n i = 01 =12 ,因为 1 { } (1 ) x x P X x p p − = = − , x = 0,1 所以样本的联合分布列为: 1 1 2 2 1 1 2 2 { , , , } { } { } { } P X x X x X x P X x P X x P X x = = = = = = = n n n n p p p p p p xi i n x x x x x x n n (1 ) . (1 ) (1 ) 0,1 1,2, , 1 1 1 = 1 − − 1 2 − − 2 − − = = §6.2 分布函数与概率密度函数的近似解
在概率论中,我们介绍了几种常用的分布函数以及它们的性质,当时我们总假定它们都 是先给定的,而在实际中,所遇到的用于描述随机现象的随机变量,事先并不知道其分布函 数,甚至连其分布类型也一无所知,那么,怎么样才能确定它的分布函数F(x)呢? 般地,利用样本及样本值,建立一定的概率模型,用由此获得的概率统计信息来对总 体X的F(x)进行估计和推断,这就是: 经验分布函数 1.定义:设(X12x2,…,Xn)是来自总体X的样本,用S(x)表示:∈R,X1,X2,…,Xn 中不大于x的随机变量的个数,定义经验分布函数为 Fn(x)=-S(x)x∈R 设(x1x2,…xn)是样本的一个观察值,令这n个数值由小到大的顺序排列后为:x≤x2≤ 对yx∈R 由定义很容易得到经验分布函数的观察值 F(x)= 0kn1 xk≤x<xk+1k=1,2,…,n-1 x≥xn 通常也称F(x)是总体X的经验分布函数,在不至于混淆的情况下统一用F(x)来表示总体 X的经验分布函数 显然,F(x)是单调非降右连续的跳跃函数(阶梯函数),在点x=x处有间断,在每个 间断点的跃度为-,(k=1,2,3,…,n)且0≤Fn(x)≤1,lmFn(x)=0,lmnF(x)=1,它 满足分布函数的三个性质,所以必是一个分布函数。 一般地,随着n的增大,F(x)越来越接近X的分布函数F(x),关于这一点,格列汶科 ( Glivenko)在1953年给了理论上的论证,即: 2定理1( Glivenko-Th):若总体X的分布函数为F(x),经验分布函数为Fn(x),则对 x∈R,有:P{m(sp1E(x)-F(x)=0}=1[Fx)-→F(x) -acrc+oo 定理表明,Fn(x)以概率1一致收敛于F(x),即:可以用F(x)来近似F(x),这也是利 用样本来估计和判断总体的基本理论和依据 例壬:某厂从一批荧光灯中抽出10个,测其寿命的数据(单位千时)如下 95.5,18.1 1,26.5,31.7,33.8,8.7,150,48.8,48.3
4 在概率论中,我们介绍了几种常用的分布函数以及它们的性质,当时我们总假定它们都 是先给定的,而在实际中,所遇到的用于描述随机现象的随机变量,事先并不知道其分布函 数,甚至连其分布类型也一无所知,那么,怎么样才能确定它的分布函数 F(x) 呢? 一般地,利用样本及样本值,建立一定的概率模型,用由此获得的概率统计信息来对总 体 X 的 F(x) 进行估计和推断,这就是: 一、经验分布函数 1.定义:设( X X Xn , , , 1 2 )是来自总体 X 的样本,用 S x( ) 表示: x R, 1 2 , , , X X X n 中不大于 x 的随机变量的个数,定义经验分布函数为 1 ( ) ( ) F x S x x R n n = 。 设( n x , x , , x 1 2 )是样本的一个观察值,令这 n 个数值由小到大的顺序排列后为: * 1 x ≤ * 2 x ≤ * 3 x ≤……≤ * n x ,对 x ∈R 由定义很容易得到经验分布函数的观察值: * ( ) F x n = 1 0 n k * n * k * k * x x x x x x x +1 1 k = 1,2, , n −1 通常也称 * ( ) F x n 是总体 X 的经验分布函数,在不至于混淆的情况下统一用 F (x) n 来表示总体 X 的经验分布函数。 显然, F (x) n 是单调非降右连续的跳跃函数(阶梯函数),在点 * k x = x 处有间断,在每个 间断点的跃度为 n 1 ,( k =1,2,3,…, n )且 0 Fn (x) 1, lim F (x) n x→− =0, lim F (x) n x→+ =1,它 满足分布函数的三个性质,所以必是一个分布函数。 一般地,随着 n 的增大, F (x) n 越来越接近 X 的分布函数 F(x) ,关于这一点,格列汶科 (Glivenko)在 1953 年给了理论上的论证,即: 2.定理 1(Glivenko-Th):若总体 X 的分布函数为 F(x) ,经验分布函数为 F (x) n ,则对 x R ,有: P F x F x lim( sup | ( ) ( ) |) 0 1 n→ − + x n − = = [ . ( ) ( ) a e F x F x n ⎯⎯⎯→ 一致 ] 定理表明, F (x) n 以概率 1 一致收敛于 F(x) ,即:可以用 F (x) n 来近似 F(x) ,这也是利 用样本来估计和判断总体的基本理论和依据。 例 4:某厂从一批荧光灯中抽出 10 个,测其寿命的数据(单位千时)如下: 95.5, 18.1, 13.1, 26.5, 31.7, 33.8, 8.7, 15.0, 48.8, 48.3
求该批荧光灯寿命的经验分布函数F(x)(观察值) 解:将数据由小到大排列得 8.7,13.1,15.0,18.1,26.5,31.7,33.8,48.8,49.3,95.5 则经验分布函数为: 8.7 8.7≤x<13. 13.1≤x<15.0 0.3 15.0≤x<18.1 0.4 l8.1≤x<26.5 Fn(x)={0.5 0.6 31.7≤x<33.8 0.7 33.8≤x<488 0.8 48.8≤x<49.3 49.3≤x<955 ≥95.5 利用直方图求密度函数的近似解: 设(X1,X,…,X)为来自总体X的一个样本,其样本观察值为(x,x,…,x),将该组 数值x1,x2…xn分成l组,可作分点:aa1,a2…,a1(各组距可以不相等),则各组为 (a0,a1],(a1,a2],……,(a,a],若样本观察值中每个数值落在各组中的频数分别为m1 m2,m2,…m,则频率分别为:","……:以各组为底边,以相应组的频率除 以组距为高,建立l个小矩形,即得总体X的直方图。 由上分析可知:直方图中每一矩形的面积等于相应组的频率 设总体X的密度函数为f(x),则:总体X(真实值)落在第k组(a4-1,a4]的概率为: (x)dx 由 Bernoulli大数定理可知:当n很大时,样本观察值(单个)落在该区间的频率趋近 于此概率;即:(a-1,a]上矩形的面积接近于f(x)在此区间上曲边梯形的面积,当n无 限增大时,分组组距越来越小,直方图就越接近总体X的密度函数f(x)的图象。(这与定积 分的意义具有同样的道理)。 §6.3样本的数字镎征 由第三章节知:随机变量的数字特征,能够反映随机事件的某些重要的概率特征,从第
5 求该批荧光灯寿命的经验分布函数 F (x) n (观察值)。 解:将数据由小到大排列得: 8.7,13.1,15.0,18.1,26.5,31.7,33.8,48.8,49.3,95.5, 则经验分布函数为: = 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 F (x) n 95.5 49.3 95.5 48.8 49.3 33.8 48.8 31.7 33.8 26.5 31.7 18.1 26.5 15.0 18.1 13.1 15.0 8.7 13.1 8.7 x x x x x x x x x x x 二、利用直方图求密度函数的近似解: 设( X X Xn , , , 1 2 )为来自总体 X 的一个样本,其样本观察值为( n x , x , , x 1 2 ),将该组 数值 n x , x , , x 1 2 分成 l 组,可作分点: a a a al , , , , 0 1 2 (各组距可以不相等),则各组为: ( 0 a , 1 a ],( 1 a , a2 ] ,……,( al−1, l a ] ,若样本观察值中每个数值落在各组中的频数分别为 m1, m2, m3 ,…, ml ,则频率分别为: n m1 , n m2 …… n ml ;以各组为底边,以相应组的频率除 以组距为高,建立 l 个小矩形,即得总体 X 的直方图。 由上分析可知:直方图中每一矩形的面积等于相应组的频率 设总体 X 的密度函数为 f (x) ,则:总体 X (真实值)落在第 k 组( ak−1, k a ] 的概率为: − k k a a f x dx 1 ( ) 。 由 Bernoulli 大数定理可知:当 n 很大时,样本观察值(单个)落在该区间的频率趋近 于此概率;即:( ak−1 , k a ] 上矩形的面积接近于 f (x) 在此区间上曲边梯形的面积,当 n 无 限增大时,分组组距越来越小,直方图就越接近总体 X 的密度函数 f (x) 的图象。(这与定积 分的意义具有同样的道理)。 §6.3 样本的数字特征 由第三章节知:随机变量的数字特征,能够反映随机事件的某些重要的概率特征,从第