目录第五章数理统计的基本概念及抽样分布195.1引言185.1.1什么叫数理统计学1数理统计学的应用4$5.1.26统计学发展简史$5.1.37数理统计的若干基本概念85.27$5.2.1总体和样本样本的两重性和简单随机样本9$5.2.2统计模型$5.2.310统计推断$5.2.411$5.3统计量12统计量的定义$5.3.112若干常用的统计量85.3.213i
8 ¹ 1ÊÙ ênÚOÄVg9ĩ٠1 §5.1 Úó . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 §5.1.1 oênÚOÆ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 §5.1.2 ênÚOÆA^ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 §5.1.3 ÚOÆuÐ{¤ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 §5.2 ênÚOeZÄVg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 §5.2.1 oNÚ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 §5.2.2 ü5Ú{üÅ . . . . . . . . . . . . . . . . . . . . . . 9 §5.2.3 ÚO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 §5.2.4 ÚOíä . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 §5.3 ÚOþ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 §5.3.1 ÚOþ½Â . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 §5.3.2 eZ~^ÚOþ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 i
第五章数理统计的基本概念及抽样分布教学目的:1)使学生对什么叫数理统计及其发展史有一个初步的了解。2)使学生掌握数理统计的若干基本概念,如总体、样本、简单样本、统计模型等。3)使学生掌握统计量x2、t、F、正态总体样本均值和样本方差的分布及其简单性质$5.1引言85.1.1什么叫数理统计学本课程的前四章介绍了概率论的基本内容,为数理统计学建立了重要的数学基础.从本章起,我们转入本课程的第二部分一数理统计学,下面我们首先说明什么是数理统计学.统计学的任务是研究怎样有效地收集、整理和分析带有随机性影响的数据,从而对所考虑的问题作出一定结论的方法和理论.它是一门实用性很强的学科,在人类活动的各个领域有着广泛的应用研究统计学方法的理论基础问题的那一部分构成“数理统计学”的内容.一般地可以认为数理统计是数学的一个分支,它是研究如何有效地收集和有效地使用带有随机性影响的数据的一门学科.下面通过例子对此加以说明1.有效地收集数据收集数据的方法有:全面观察(或普查)、抽样调查和安排试验等方式例5.1.1.人口普查和抽样调查,我国在2000年进行了第五次人口普查:如果普查的数据是准确无误的,无随机性可言,不需用数理统计方法,由于人口普查,调查项目很多我国有13亿人口,普查工作量极大,而训练有素的工作人员缺乏,因此虽是全面调查,但数据并不可靠,农村超计划生育满报、漏报人口的情况时有发生:针对普查数据不可靠,国家统计局在人口普查的同时还派出专业人员对全国人口进行抽样调查,根据抽样调查的结果,对人口普查的数字进行适当的修正.抽样调查在普查不可靠时是一种补充办法.1
1ÊÙ ênÚOÄVg9ĩ٠Æ8: 1) ¦Æ)éoênÚO9ÙuФkÐÚ )" 2) ¦Æ)ݺênÚOeZÄVg§XoN!!{ü!ÚO." 3) ¦Æ)ݺÚOþχ 2!t!F!oNþÚ©Ù9Ù{ü5. §5.1 Úó §5.1.1 oênÚOÆ §coÙ0 VÇØÄSN, ênÚOÆïá êÆÄ:.l Ùå, ·=\§1Ü©—ênÚOÆ. e¡·Äk`²o´ênÚO Æ. ÚOÆ?Ö´ïÄNk/Â8!nÚ©ÛkÅ5Kêâ, l é ¤Ä¯Kѽ(Ø{ÚnØ. §´¢^5érÆ, 3<a¹Ä +kX2A^. ïÄÚOÆ{nØÄ:¯K@Ü©¤“ênÚO Æ”SN. /±@ ênÚO´êÆ©|, §´ïÄXÛk/Â8Úk/¦^kÅ5K êâÆ. e¡ÏL~féd\±`². 1. k/Â8êâ Â8êâ{k: ¡* (½Ê)!ÄNÚSüÁª. ~ 5.1.1. <ÊÚÄN. ·I32000c?1 1Êg<Ê. XJÊê â´O(ÃØ, ÃÅ5ó, ØI^ênÚO{. du<Ê, N8éõ, ·Ik13·<, Êóþ4, Ôökó< "y. Ïd´¡N, êâ¿Ø, à~Oy)ô!¦<¹ku). éÊêâØ, I[ÚOÛ3<ÊÓÑ;< éI<?1ÄN, âÄN (J, é<Êêi?1·?. ÄN3ÊØ´«Ö¿ {. 1
如何安排抽样调查,这是有效收集数据的重要问题,这构成数理统计学的一个重要分支一《抽样调查方法》,例5.1.2.考察某地区10000农户的经济状况.从中挑选100户做抽样调查.若该地区分成平原和山区两部分,平原地区较富,占该地区农户的70%,山区的30%农户较穷.我们的抽样方案规定在抽取的100户中,从平原地区抽70户,山区抽30户,在各自范围内用随机化方法抽取在本例中有效收集数据是通过合理地设计抽样方案来实现的.在通过试验收集数据的情形如何做到有效收集数据,请看下例例5.1.3.某化工产品的得率与温度、压力和原料配方有关。为提高得率,通过试验寻找最佳生产条件:试验因素和水平如下水平2314因素温度800100012001400压力10203040D配方A8c3个因素,每个因素4个水平共要做43=64次试验.做这么多试验人力、物力、财力都不可能,因此,如何通过尽可能少的试验获得尽可能多的信息?比如采用正交表安排试验就是一种有效的方法如何安排试验方案和分析试验结果,这构成数理统计的另一分支一《试验的设计和分析》,在本例中有效收集数据是通过科学安排试验的方法来实现的在有效收集数据中一个重要问题是:数据必须具有随机性2.有效的使用数据获取数据后,需要用有效的方法,去集中和提取数据中的有关信息,以对所研究的问题作出一定的结论,在统计上称为“推断”为了有效的使用数据进行统计推断,需要对数据建立一个统计模型,并给定某些准则去评判不同统计推断方法的优劣2
XÛSüÄN, ù´kÂ8êâ¯K, ù¤ênÚOÆ ©|—5ÄN{6. ~ 5.1.2. ,/«10000àr²LG¹. l¥]À100rÄN. eT/«©¤ ²Úì«üÜ©, ²/«L, ÓT/«àr70%, ì«30%àr¡. · ÄY5½3Ä100r¥, l²/«Ä70r, ì«Ä30r, 3gS^Å z{Ä. 3~¥kÂ8êâ´ÏLÜn/OÄY5¢y. 3ÏLÁÂ8ê â/XÛkÂ8êâ, we~: ~ 5.1.3. ,zó¬Ç§Ý!ØåÚk'. JpÇ, ÏLÁÏé Z)^. ÁÏÚY²Xe P Ï P PPPPPPPPP Y² 1 2 3 4 §Ý 800 1000 1200 1400 Øå 10 20 30 40 A B C D 3Ï, zÏ4Y² 4 3 = 64 gÁ. ùoõÁ<å!Ôå!ãåÑØ U. Ïd, XÛÏL¦UÁ¼¦Uõ&E? 'Xæ^LSüÁ Ò´«k{. XÛSüÁYÚ©ÛÁ(J, ù¤ênÚO,©|—5ÁOÚ ©Û6. 3~¥kÂ8êâ´ÏLÆSüÁ{5¢y. 3kÂ8ê⥯K´: êâ7LäkÅ5. 2. k¦^êâ ¼êâ, I^k{, 8¥ÚJêâ¥k'&E, ±é¤ïÄ ¯Kѽ(Ø, 3ÚOþ¡“íä”. k¦^êâ?1ÚOíä, IéêâïáÚO., ¿½, O KµØÓÚOíä{`. 2
例5.1.4.为估计一个物体的重量a,把它在天平上称5次获得数据1,2,.,5,它们都受到随机性因素的影响(天平的精度反映了影响的大小)估计a的大小有下列三种不同方法:(1)用5个数的算术平均值=(a1+..+5)去估计a;(2)将21,2,,5按大小排列为(1)≤(2)≤≤(5),取中间一个值(3)去估计a;(3)用W=((1)+(5)去估计a.你可能认为优于(3),而(3)优于W.这是不是对的?为什么是这样?在什么条件下才对?事实上,对这些问题的研究正是数理统计学的任务,要回答这些问题我们需要对数据建立一个统计模型和制定评判不同统计推断方法的准则.本例中在适当的假定下,可认为数据服从正态模型下面我们举一个例子说明采用合适的统计方法也是有效使用数据的一个重要方面例5.1.5.某农村有100户农户,要调查此村农民是否脱贫.脱贫的标准是每户年均收入超过1万元.经调查此村90户农户年收入5000元,10户农户年收入10万元,问此村农民是否脱贫?(1)用算术平均值计算该村农户年均收入如下:=(90×0.5+10×10)/100=1.45(万)按此方法得出结论:该村农民已脱贫.但90%的农户年均收入只有5000元,事实上并未脱贫.(2)用样本中位数计算该村农户年均收入:即将100户的年收入记为1,32,.2100,将其按大小排列为(1)≤(2)≤≤(100)·样本中位数定义为排在最中间两户的平均值,即((50)+(51)/2=0.5(万)按此方法得出结论:该村农民尚未脱贫.这与实际情况相符3.数理统计方法的归纳性质数理统计是数学的一个分支,但是它的推理方法是不一样的:统计方法的本质是归纳式的,而数学则是演绎式的.统计方法的归纳性质,源于它在作结论时,是根据所观察到的大量的“个别”情况,“归纳”起来所得.而不是从一些假设、命题或已知事实出发按一定的逻辑推理得出来的(这后者称为演绎推理):举一例子说明:统计学家通过大量的3
~ 5.1.4. OÔNþa,r§3U²þ¡5g¼êâ x1, x2, · · · , x5, §Ñ ÉÅ5ÏK(U²°ÝN K). Oaken«ØÓ {: (1) ^5êâ²þ x¯ = 1 5 (x1 + · · · + x5) Oa; (2) ò x1, x2, · · · , x5 U ü x(1) ≤ x(2) ≤ · · · ≤ x(5) , ¥m x(3) Oa; (3) ^ W = 1 2 (x(1) + x(5)) Oa.\U@ x¯ `u x(3), x(3) `u W.ù´Ø´é? o´ù? 3 o^eâé? ¯¢þ, éù ¯KïÄ´ênÚOÆ?Ö. £ù ¯K·IéêâïáÚO.Ú½µØÓÚOíä{ OK. ~¥3·b½e, @êâÑl. e¡·Þ~f`²æ^Ü·ÚO{´k¦^êâ¡. ~ 5.1.5. ,à~k100ràr, Nd~à¬´Äø«. ø«IO´zrcþÂ\ L1. ²Nd~90ràrcÂ\5000, 10ràrcÂ\10, ¯d~଴ Äø«? (1) ^â²þOT~àrcþÂ\Xe: x¯ = (90 × 0.5 + 10 × 10)/100 = 1.45() Ud{Ñ(Ø: T~ମø«. 90%àrcþÂ\k5000, ¯¢þ¿ø «. (2) ^¥ êOT~àrcþÂ\: =ò100rcÂ\P x1, x2, · · · , x100, òÙUü x(1) ≤ x(2) ≤ · · · ≤ x(100) . ¥ ê½Âü3¥mür ²þ, = (x(50) + x(51))/2 = 0.5() Ud{Ñ(Ø: T~à¬ÿø«. ù¢S¹Î. 3. ênÚO{8B5 ênÚO´êÆ©|, ´§ín{´Ø. ÚO{´8 Bª, êÆK´ü̪. ÚO{8B5, u§3(Ø, ´â¤* þ“O”¹, “8B”å5¤. Ø´l b!·K½®¯¢ÑuU ½Ü6ínÑ5(ùö¡üÌín) . Þ~f`²: ÚOÆ[ÏLþ 3
观察资料发现,吸烟与某种呼吸系统的疾病有关,他得出这一结论的根据是:从观察到的大量例子,看到吸烟者中患此种疾病的比例远高于不吸烟者.他不可能用逻辑推理的方法证明这一点,试拿统计学与几何学进行比较就可以清楚地看出二者方法的差别所在,在几何学中要证明“等腰三角形两底角相等”,只需从等腰这个前提出发,运用几何公理,一步步地推出这个结论(这一方法属于演绎推理):而一个习惯于统计方法的人就可能想出这样的方法:作很多大小形状不一的等腰三角形,实际测量它的底角查看区别如何,根据所得数据,看看可否作出底角相等的结论,这属于归纳推理的方法众所周知,归纳推理是要冒风险的.事实上归纳推理的不确定性的出现,是一种逻辑的必然人们不可能做出十分肯定的结论,因为归纳推理所依据的数据具有随机性然而,不确定性的推理是可行的,所以推理的不确定性程度是可以计算的,统计学的作用之一就是提供归纳推理和计算不确定性程度的方法.不确定性是用概率计算的.以后会见到我们求参数的区间估计,不但给出区间估计的表达式,而且给出这一估计区间包含未知参数的可靠程度的大小$5.1.2数理统计学的应用人类在科学研究、生产和管理等各方面的活动,大都离不开数据资料的收集、整理和分析的工作.因此统计学的应用领域也及其广泛1.国家行政机关和各种职能机构的工作,需要经常收集各种有关的数据资料,以了解情况并做出相应的决策,这里面的统计工作,固然有大量的描述性统计的成份,但统计推断的方法也很有用并且十分必要.例如在判断某一时期经济运行是否过热,以便采取宏观调控措施等重大决策时,对当时经济运行种数据和资料进行定量分析是必不可少的.这就离不开统计推断方法用数理统计方法进行社会调查,这种工作常属于国家职能部门的工作范围.“抽样调查”是常用的方法,统计学的方法在决定调查规模和制定有效的抽样方案是很有用,统计推断方法在对调查得来的资料进行正确分析时也有指导意义.例如经过精心设计和组织的社会抽样调查,其效果有时可达到甚至超过全面调查的水平,在人口学中,确定一个合适的人口发展动态模型需要掌握大量的观察资料,而且要使用包括统计方法在内的一些科学方法.再如,社会保险基金需要用到精算学,建立精算模型、对寿命数据的分析都要用到许多统计方法2.在工农业生产中我们常常要利用试验设计和方差分析的方法寻找最佳生产条件例如为提高农业中的单位面积产量,有一些因素对这个指标有影响:种子的品种、施肥量4
* ]uy, áë,«áXÚ;¾k'. ¦Ñù(Øâ´: l* þ~f, wáëö¥d«;¾'~puØáëö. ¦ØU^Ü6ín {y²ù:. Á<ÚOÆAÛÆ?1'Ò±Ù/wÑö{O¤ 3. 3AÛÆ¥y²“n/ü.”, IlùcJÑu, $^AÛ ún, ÚÚ/íÑù(Ø(ù{áuüÌín) . S.uÚO{<, ÒUÑù{: éõ/GØn/, ¢Sÿþ§.w« OXÛ, â¤êâ, wwÄÑ.(Ø, ùáu8Bín{. ¯¤±, 8Bín´kºx. ¯¢þ8BínØ(½5Ñy, ´«Ü 67,. <ØUÑ©½(Ø, Ï8Bín¤âêâäkÅ5. , , Ø(½5ín´1, ¤±ínØ(½5§Ý´±O. ÚOÆ ^Ò´Jø8BínÚOØ(½5§Ý{. Ø(½5´^VÇO. ± ¬·¦ëê«mO, ØÑ«mOLª, ÑùO«m ¹ëê§Ý. §5.1.2 ênÚOÆA^ <a3ÆïÄ!)Ú+n¡¹Ä, ÑlØmêâ]Â8!n Ú©Ûó. ÏdÚOÆA^+9Ù2. 1. I[1Å'Ú« UÅó, I²~Â8«k'êâ], ± )¹¿ÑAûü. ùp¡ÚOó, ,kþ£ã5ÚO¤°, Ú Oíä{ék^¿ ©7. ~X3ä,ϲL$1´ÄL9, ±Bæ ÷*Nûü, é²L$1«êâÚ]?1½þ©Û´7Ø . ùÒlØmÚOíä{. ^ênÚO{?1¬N, ù«ó~áuI[ UÜó. “ÄN ”´~^{. ÚOÆ{3û½N5Ú½kÄY´ék^, Ú Oíä{3éN5]?1(©Ûk¿Â. ~X²L°%OÚ| ¬ÄN, ÙJk$L¡NY². 3<Æ¥, (½ Ü·<uÐÄ.Iݺþ* ], ¦^)ÚO{3S Æ{. 2X, ¬xÄ7I^°Æ, ïá°.!鯷êâ©Û Ñ^NõÚO{. 2. 3óà)¥·~~|^ÁOÚ©Û{ÏéZ)^. ~XJpà¥ü ¡Èþ, k ÏéùIkK: «f¬«!þ 4