其中σ>0,μ与σ均为常数。其分布函数为 G-H) F(x) dy-∞<x<+∞ √2丌σ 正态分布通常记为N(μ,02)。若u=0,0=1,则称为标准正态分布,记为N(0,1)。 它的密度函数和分布函数分别用q(x)和φ(x)表示: p(r) -∞<x<+ dy-∞<x<+∞ 正态分布也可以作为二项分布的极限。当n→>∞时,若q,p均不趋于0,此时的二项分布以 N(np,npq)为其极限(注意若p或q趋于0,则二项分布以泊松分布为极限)。正态分布是概 率论中最重要的分布。一方面,这是一种最常见的分布,例如测量的误差,炮弹的落点,人 的身高,体重,同样处理的实验数据,……等等,都近似服从正态分布。一般说来,若影响 某一数量指标的随机因素很多,而每个因素的影响又都不太大,则这个指标就服从正态分布 这一点我们还要在后边的定理中讲到。另一方面,正态分布在理论研究中也非常重要,后边 的许多统计方法都是建立在随机变量服从正态分布的基础上的,所以对正态分布的特性一定 要非常熟悉。 1.5 4-3-2-101234 图21正态分布密度函数曲线 图21为正态分布密度函数曲线。从图中可见,f(x)在x==0处达到最大值,整个图形关 于直线ⅹ=μ对称,σ越大则曲线越平,σ越小,曲线越尖。 在实际应用中,我们更常使用的是标准正态分布曲线。它的密度函数曲线和分布函数曲线 见图22 2-1-012 123
其中σ>0,μ与σ均为常数。其分布函数为: = − + − − − F x e dy x x y , 2 1 ( ) 2 2 2 ( ) 正态分布通常记为N(μ,σ2)。若μ=0,σ=1,则称为标准正态分布,记为N(0,1)。 它的密度函数和分布函数分别用(x)和Ф(x)表示: − − − = − + = − + x y x x e dy x x e x , 2 1 ( ) , 2 1 ( ) 2 2 2 1 2 1 正态分布也可以作为二项分布的极限。当n→ 时,若q, p均不趋于0,此时的二项分布以 N(np, npq)为其极限(注意若p或q趋于0,则二项分布以泊松分布为极限)。正态分布是概 率论中最重要的分布。一方面,这是一种最常见的分布,例如测量的误差,炮弹的落点,人 的身高,体重,同样处理的实验数据,……等等,都近似服从正态分布。一般说来,若影响 某一数量指标的随机因素很多,而每个因素的影响又都不太大,则这个指标就服从正态分布。 这一点我们还要在后边的定理中讲到。另一方面,正态分布在理论研究中也非常重要,后边 的许多统计方法都是建立在随机变量服从正态分布的基础上的,所以对正态分布的特性一定 要非常熟悉。 图2.1 正态分布密度函数曲线 图2.1为正态分布密度函数曲线。从图中可见,f(x) 在 x=μ=0 处达到最大值,整个图形关 于直线x=μ对称,σ越大则曲线越平,σ越小,曲线越尖。 在实际应用中,我们更常使用的是标准正态分布曲线。它的密度函数曲线和分布函数曲线 见图2.2。 (a) (b) 0 0.9 -4 -3 -2 -1 0 1 2 3 4 σ=0.5 σ=1.0 σ=1.5 0 0.1 0.2 0.3 0.4 0.5 - 3 - 2 - 1 - 0 1 2 3 0 0.2 0.4 0.6 0.8 1 -3 -2 -1 -0 1 2 3
图22标准正态分布密度函数曲线(a)和分布函数曲线(b) 从图22中可看出标准正态分布密度函数q(x)的曲线有以下特征 1°x=0时,(x)达到最大值。 2°x取值离原点越远,o(x)值越小 3°关于y轴对称,即o(x)=o(-x) 4°在x=±1有两个拐点。 5°曲线与x轴间所夹面积为1 标准正态分布函数Φ(x)的曲线是密度函数积分后的图形,它在x0点的取值为x点左方密度函 数曲线与x轴所夹的面积。分布函数曲线有以下特征: 1°关于点(0,0.5)对称,该点也是它的拐点 2°曲线以y=0和y=1为渐近线 3°Φ(1.960)-Φ(-1.960)=0.95 4°Φ(2.576)-Φ(-2.576)=0.99 后两个数值在统计推断中有重要应用,应熟记 上述特征特别是密度函数o(x)的特征在计算函数值时常有应用,应结合图形直观印象加以 熟记。 由于正态分布的重要性,它的密度函数及分布函数的数值都已被编成表格备查。这些表格 用法与一般数学常用表用法相同,不再赘述。需要注意的是多数表中只给出x≥0的(x)和(x) 值,这是因为由它们的对称性,有 q(-x)=(x)d(-x)=1-d(x) 因此可容易地算出x任意取值时o(x)和Φ(x)的值 由于上述表格均只限于标准正态分布表,对于服从一般正态分布的随机变量X,需先把它标 准化,然后再查表。标准化方法如下: 设X~N(p,02),令U X-H,则U~N(O,1),即: P(X<xo)=P(U 这样,只要先计算0二“的值,就可以从标准正态分布表中查出所需要的数值了 在查表过程中,下述一些关系式也是十分有用的。它们大多基于o(x)的对称性,希望能在理 解的基础上记忆它们,只有真正理解了才能牢固记忆且灵活应用。这些关系式包括: 令X~N(0,1 P(O<X<x)=(x0)2 PCX P(X>x0)=2(-x0) P(X<x0)=1-2-x0) P(x1<X<x2)=(x2)-(x1) 例2.1已知小麦穗长服从N(9.978,1,4412),求下列概率 (1)穗长<6.536cm (2)穗长>12.128cm
图2.2 标准正态分布密度函数曲线(a)和分布函数曲线(b) 从图2.2中可看出标准正态分布密度函数(x)的曲线有以下特征: 1 x=0时,(x) 达到最大值。 2 x取值离原点越远,(x) 值越小。 3 关于y轴对称,即 (x)= (- x) 4 在x=1有两个拐点。 5 曲线与x轴间所夹面积为1。 标准正态分布函数(x)的曲线是密度函数积分后的图形,它在x0点的取值为x0点左方密度函 数曲线与x轴所夹的面积。分布函数曲线有以下特征: 1 关于点(0,0.5)对称,该点也是它的拐点; 2 曲线以y = 0和y = 1为渐近线; 3 (1.960) -(-1.960) = 0.95 4 (2.576) -(-2.576) = 0.99 后两个数值在统计推断中有重要应用,应熟记. 上述特征特别是密度函数 (x)的特征在计算函数值时常有应用,应结合图形直观印象加以 熟记。 由于正态分布的重要性,它的密度函数及分布函数的数值都已被编成表格备查。这些表格 用法与一般数学常用表用法相同,不再赘述。需要注意的是多数表中只给出x≥0的 (x)和(x) 值,这是因为由它们的对称性,有: (−x) = (x),(−x) = 1− (x) 因此可容易地算出x任意取值时 (x)和(x)的值。 由于上述表格均只限于标准正态分布表,对于服从一般正态分布的随机变量X,需先把它标 准化,然后再查表。标准化方法如下: 设X~N(μ,σ2 ),令 − = X U ,则U ~ N(0, 1),即: ( ) ( ) ( ) 0 0 0 − = − = x x P X x P U 这样,只要先计算 x0 − 的值,就可以从标准正态分布表中查出所需要的数值了。 在查表过程中,下述一些关系式也是十分有用的。它们大多基于(x)的对称性,希望能在理 解的基础上记忆它们,只有真正理解了才能牢固记忆且灵活应用。这些关系式包括: 令X~N(0,1),则: ( ) ( ) ( ) ( ) 1 2 ( ) ( ) 2 ( ) ( ) ( ) 2 1 (0 ) ( ) 1 2 2 1 0 0 0 0 0 0 0 0 P x X x x x P X x x P X x x P X x x P X x x = − = − − = − = − = − 例2.1 已知小麦穗长服从N(9.978, 1.4412),求下列概率: (1)穗长<6.536cm, (2)穗长>12.128cm
(3)穗长在8573cm与9978cm之间。 P(X<6.536)=( 6.536-9978 )=(-2.39)=0.00842 12.128-9978 P(X>12.128)=( )=④(-1.49)=0.06811 1441 P8537<X<9978)=(998-9978、8.537-9978 144)-ax 1441 =(0)-④(-1)=0.50000-0.15866=0.34134 所求概率分别为:0.00842,0.06811,0.34134。 例22从甲到乙地有两条路线,走第一条路所需时间服从N(50,100),走第二条路时间服从 N(60,16),问: (1).若有70分钟可用,走哪条路好? (2).若只有65分钟呢 解:走哪条路好可理解为走该条路在指定的时间内到达的可能性大。因此有: (1):F1(70)=( =(2) 70-60 F,(70)=( )=④(25) 4 显然F2(70)>F1(70),应走第二条路 65-50 (2):F(65)= =(1.5) 65-60 F2(65)=o 4)=o(1.25) 显然F1(65)>F2(65),应走第二条路。 这道题还是有一定实际意义的。第一条路可能较短,但堵车的可能性较大,因此所需时间 有较大的变化范围;第二条路可能较长,但路况好,车辆少,因此所需时间变化不大。如果时 间充裕,则应走第二条路,此时到达的可能性大:反之时间有限,就只能走近路碰碰运气了 §24随机向量 在有些情况下,我们所关心的随机现象需要用不只一个数值来描述,例如要全面反映一个 人的健康情况,则需要血压,各种化验数据,X光透视或拍片,B超……等等。要反映温室中的 环境条件,也要有温度、湿度,CO浓度、光照强度等等。这样,当我们对类似的随机现象进 行研究测量时,每个样本点所包含的将不再是一个数字,而是一组数字,它们组成一个向量 X=(X1,X2,…Xn)。其中每个数字有它特定的生物学意义,如X1代表温度,X2代表湿度… 而且每个数字均带有测量时不可避免的随机误差,因此都是随机变量。这样的向量就称为随机 向量。与普通向量类似,其中包含的数字个数n称为向量的维数,每个数字称为向量的分量。显 然普通随机变量可视为一维随机向量。为了方便,我们常常对随机变量与随机向量不加区分, 而统一称为n维随机变量,其中n取值为自然数。 引入多维随机变量的概念主要是为了把它们作为一个整体来进行研究。在这样一个整体中 我们不仅能研究每个分量本身固有的性质,还可以研究各分量之间的关系,这在某些情况下是 非常有用的。限于课时及数学基础,我们不准备对这一课题进行深入讨论,而只是介绍一些必 要的概念
(3)穗长在8.573cm与9.978cm之间。 解: ) ( 1.49) 0.06811 1.441 12.128 9.978 ( 12.128) ( ) ( 2.39) 0.00842 1.441 6.536 9.978 ( 6.536) ( = − = − = − = − = − = P X P X (0) ( 1) 0.50000 0.15866 0.34134 ) 1.441 8.537 9.978 ) ( 1.441 9.978 9.978 (8.537 9.978) ( = − − = − = − − − = P X ∴ 所求概率分别为:0.00842, 0.06811, 0.34134。 例2.2 从甲到乙地有两条路线,走第一条路所需时间服从N(50,100),走第二条路时间服从 N(60,16),问: (1). 若有70分钟可用,走哪条路好? (2). 若只有65分钟呢? 解:走哪条路好可理解为走该条路在指定的时间内到达的可能性大。因此有: (1): ) (2) 10 70 50 (70) ( 1 = − F = ) (2.5) 4 70 60 (70) ( 2 = − F = 显然F2(70) > F1(70),应走第二条路。 (2): ) (1.5) 10 65 50 (65) ( 1 = − F = ) (1.25) 4 65 60 (65) ( 2 = − F = 显然F1(65) > F2(65),应走第二条路。 这道题还是有一定实际意义的。第一条路可能较短,但堵车的可能性较大,因此所需时间 有较大的变化范围;第二条路可能较长,但路况好,车辆少,因此所需时间变化不大。如果时 间充裕,则应走第二条路,此时到达的可能性大;反之时间有限,就只能走近路碰碰运气了。 §2.4 随机向量 在有些情况下,我们所关心的随机现象需要用不只一个数值来描述,例如要全面反映一个 人的健康情况,则需要血压,各种化验数据,X光透视或拍片,B超……等等。要反映温室中的 环境条件,也要有温度、湿度,CO2浓度、光照强度等等。这样,当我们对类似的随机现象进 行研究测量时,每个样本点所包含的将不再是一个数字,而是一组数字,它们组成一个向量: X=(X1,X2,…Xn)。其中每个数字有它特定的生物学意义,如X1代表温度,X2代表湿度…, 而且每个数字均带有测量时不可避免的随机误差,因此都是随机变量。这样的向量就称为随机 向量。与普通向量类似,其中包含的数字个数n称为向量的维数,每个数字称为向量的分量。显 然普通随机变量可视为一维随机向量。为了方便,我们常常对随机变量与随机向量不加区分, 而统一称为n维随机变量,其中n取值为自然数。 引入多维随机变量的概念主要是为了把它们作为一个整体来进行研究。在这样一个整体中, 我们不仅能研究每个分量本身固有的性质,还可以研究各分量之间的关系,这在某些情况下是 非常有用的。限于课时及数学基础,我们不准备对这一课题进行深入讨论,而只是介绍一些必 要的概念