第三节二项分布 、二项总体分布 质量性状的试验研究中常见所有个体都可根据某事件的发生与不发生而分成两组的 情况。例如在大豆花色遗传规律的硏究中,所有植株都可根据开紫花还是白花(不开紫花) 分为两组。又如在种子的发芽试验中,每粒种子都可根据发芽与否归入发芽或不发芽组。 将这类试验的结果数量化,以种子发芽试验为例,设不发芽为0,发芽为1,那么每粒种 子的试验结果可用一个只有0和1两个可能取值的间断性随机变数来表示。如果发芽的概 率为p,不发芽与发芽对立其概率就是q=1-p,可用表44的概率分布列来表示。这种概 率分布称为二项总体分布,又称(0,1)二点分布,因为随机变数X只有0和1两个可能 的取值 二项总体分布的数学期望和方差可如下计算。设总体里有N个个体,p为x=1的概 率,q为x=0的概率,那么x=1组的理论发生次数应为pN,x=0组的理论发生次数应为 N。因此 Nd 425) 0sN1-p)+q(0-p)2 N pq 由于q=1-p,所以p是二项总体分布唯一的参数。 表44二项总体的概率分布列 表45种子发芽试验的概率分布列(一) PX=x)PX≤x) p+q=1 〔例4.3〕以某试验地的5株蔬菜为总体调査蚜虫危害情况。令x=1代表受害,x=0 代表未受害,5株的观察结果为0,1,0,1,0。试求危害率的数学期望和方差 根据式(425)得 0+1+0+1+0 =04 2(0-04)2+(1-04)2+(0-04)2+(1-04)2+(0-04)2 0.24 说明该试验地蚜虫的平均危害率为0.4,危害率变异的方差为0.24。此例也说明了二 项总体的平均数为=p,方差为a2=p,标准差为a=√pq。 、二项分布的概率函数及计算 仍以种子发芽试验为例,假定发芽的概率为0.9,每两粒种子为一组统计试验结果
6 第三节 二项分布 一、二项总体分布 质量性状的试验研究中常见所有个体都可根据某事件的发生与不发生而分成两组的 情况。例如在大豆花色遗传规律的研究中,所有植株都可根据开紫花还是白花(不开紫花) 分为两组。又如在种子的发芽试验中,每粒种子都可根据发芽与否归入发芽或不发芽组。 将这类试验的结果数量化,以种子发芽试验为例,设不发芽为 0,发芽为 1,那么每粒种 子的试验结果可用一个只有 0 和 1 两个可能取值的间断性随机变数来表示。如果发芽的概 率为 p,不发芽与发芽对立其概率就是 q=1-p,可用表 4.4 的概率分布列来表示。这种概 率分布称为二项总体分布,又称(0,1)二点分布,因为随机变数 X 只有 0 和 1 两个可能 的取值。 二项总体分布的数学期望和方差可如下计算。设总体里有 N 个个体,p 为 x=1 的概 率,q 为 x=0 的概率,那么 x=1 组的理论发生次数应为 pN,x=0 组的理论发生次数应为 qN。因此 = = = − + − = pN N p pN p qN p N pq 2 2 2 (1 ) (0 ) (4.25) 由于 q=1-p,所以 p 是二项总体分布唯一的参数。 表 4.4 二项总体的概率分布列 表 4.5 种子发芽试验的概率分布列(一) x P(X=x) P(X≤x) x P(X=x) P(X≤x) 0 1 q=1-p p q p+q=1 0 1 2 0.01 0.18 0.81 0.01 0.19 1.00 〔例4. 3〕以某试验地的 5 株蔬菜为总体调查蚜虫危害情况。令 x=1 代表受害,x=0 代表未受害,5 株的观察结果为 0,1,0,1,0。试求危害率的数学期望和方差。 根据式(4.25)得 = + + + + = = − + − + − + − + − = 0 1 0 1 0 5 0 4 0 0 4 1 0 4 0 0 4 1 0 4 0 0 4 5 0 24 2 2 2 2 2 2 . ( . ) ( . ) ( . ) ( . ) ( . ) . 说明该试验地蚜虫的平均危害率为 0.4,危害率变异的方差为 0.24。此例也说明了二 项总体的平均数为 = p ,方差为 = pq 2 ,标准差为 = pq 。 二、二项分布的概率函数及计算 仍以种子发芽试验为例,假定发芽的概率为 0.9,每两粒种子为一组统计试验结果
因为每粒种子的发芽与否是相互独立的,所以两粒都不发芽的概率为0.1×0.1=0.01 粒发芽一粒不发芽(含第一粒发芽第二粒不发芽和第一粒不发芽第二粒发芽两种情况)的 概率为0.9×0.1+0.1×0.9=018;两粒种子都发芽的概率为09×09=0.81。以随机变数X 代表发芽试验的结果,它有0,1和2三个可能的取值。上述试验结果可列成表45的概率 分布列 根据以上分析可以看出,如果以p代表事件A发生的概率且在每次重复试验中都相等, 以q=1-p代表其对立事件A发生的概率,那么在n次重复试验中事件A出现x次(x=1 2,……,n)的概率表达为概率函数的形式为 f(x)=P(X=x)=Crp'q 其中Cn是组合数。式(4.26)称为二项分布( binomial distribution)的概率函数,因 为它正是二项式展开后含有p的项。由于p+q=1,所以 (p+q)2=cm”+Cmr”1+cp2q"2+…+ Cnp q"-+…+Cnp"=∑f(x)=1 意为在n次试验中出现互斥事件x=0,x=1,……,x=n其中之一的概率为1。 〔例4.4〕在一批发芽率为0.9的种子里取5粒进行发芽试验。以x为发芽粒数,试做 出试验结果X的概率分布列。 已知n=5,p=0.9,q=1-0.9=0.1。根据式(426)得到如表46所示的概率分布列 计算二项分布的各项概率也可以用递推公式。因为 P(X=x)=Crp '"-, P(X=x+1)=Crtp*q-r 两者的比值为 P(X=x+1)Cp (n-x)p P(X=x) C q (x+1) 所以 P(x=x+1)=n-XP P(r-x (4.27) (x+1)q 在上例中P(X=0)=0.00001,用式(427)来求P(X=1)为 (5-0)×0.9 P(X=1)= (0+D)xO1×0000100045 其余各项也可以依此计算 也可以用图42来表示表46的概率分布列。从图中可以看出这是一个偏态的概率分 布,因为其p≠q且n较小。如果p=q则二项分布是对称的,见图4.3。理论分析和实践 结果都表明当n很大时,即使p≠q的二项分布其图形也接近对称,见图44 例45某玉米种子发芽率为06,今按设计株距穴播,若每穴播4粒,预计田间保苗 率是多少? 首先考虑,这里的田间保苗率实际上是每穴有种子发芽的概率,这是一个和事件,可
7 因为每粒种子的发芽与否是相互独立的,所以两粒都不发芽的概率为 0.1×0.1=0.01;一 粒发芽一粒不发芽(含第一粒发芽第二粒不发芽和第一粒不发芽第二粒发芽两种情况)的 概率为 0.9×0.1+0.1×0.9=0.18;两粒种子都发芽的概率为 0.9×0.9=0.81。以随机变数 X 代表发芽试验的结果,它有 0,1 和 2 三个可能的取值。上述试验结果可列成表 4.5 的概率 分布列。 根据以上分析可以看出,如果以 p 代表事件A 发生的概率且在每次重复试验中都相等, 以 q=1-p 代表其对立事件 A 发生的概率,那么在 n 次重复试验中事件 A 出现 x 次(x=1, 2,……,n)的概率表达为概率函数的形式为 f (x) = P X x Cn p q x x n x ( = ) = − (4.26) 其中 Cn x 是组合数。式(4.26)称为二项分布(binomial distribution)的概率函数,因 为它正是二项式展开后含有 p x的项。由于 p+q=1,所以 = − − − + = + + + + + + = = n x n n n x x n x n n n n n n n p q C q C pq C p q C p q C p f x 0 2 0 1 1 2 2 2 ( ) ( ) 1 意为在 n 次试验中出现互斥事件 x=0,x=1,……,x=n 其中之一的概率为 1。 〔例4. 4〕在一批发芽率为 0.9 的种子里取 5 粒进行发芽试验。以 x 为发芽粒数,试做 出试验结果 X 的概率分布列。 已知 n=5,p=0.9,q=1-0.9=0.1。根据式(4.26)得到如表 4.6 所示的概率分布列。 计算二项分布的各项概率也可以用递推公式。因为 P X x Cn p q P X x C p q x x n x n x x n x ( = ) = , ( = + ) = − + + − − 1 1 1 1 两者的比值为 P X x P X x C p C q n x p x q n x n x ( ) ( ) ( ) ( ) = + = = = − + + 1 1 1 所以 P X x n x p x q ( ) P X x ( ) ( ) = + = ( ) − + 1 = 1 (4.27) 在上例中 P(X=0)=0.000 01,用式(4.27)来求 P(X=1)为 P(X ) ( ) . ( ) . = = . − + 1 5 0 0 9 0 1 01 0 000 01=0.000 45 其余各项也可以依此计算。 也可以用图 4.2 来表示表 4.6 的概率分布列。从图中可以看出这是一个偏态的概率分 布,因为其 p≠q 且 n 较小。如果 p=q 则二项分布是对称的,见图 4.3。理论分析和实践 结果都表明当 n 很大时,即使 p≠q 的二项分布其图形也接近对称,见图 4.4。 [例 4.5] 某玉米种子发芽率为 0.6,今按设计株距穴播,若每穴播 4 粒,预计田间保苗 率是多少? 首先考虑,这里的田间保苗率实际上是每穴有种子发芽的概率,这是一个和事件,可