第二章随机变量及其数字特征 §21随机变量和分布函数 随机变量: 直观上看,所谓随机变量,就是我们在随机实验中测定的量。例如观察10只新生动物的性 别,并计算其中雄性动物的数量Ⅹ,显然X可能取值为0,1,…,10:;但究竟取值为几,只能在 实验结束时才知道。象这样在实验中所得到的取值有随机性的量,就称为随机变量。随机变量 的特点就是当实验条件一定时,实验结果仍不确定。 上面所举的例子是离散型的随机变量,因为它只有有限个或可列个可能的取值。另外还有 大类随机变量,它们的取值是在某个区间中连续变化的,例如人的身高,体重,胸围…象这 样的随机变量称为连续型随机变量。 分布函数: 随机变量的取值是有随机性的,我们事先无法知道,但它的取值也是有规律性可循的,这 种规律性就表现在各个值出现的频率上。象上面的例子,如果我们把大量的初生动物分为10只 组进行观察,那末在一般情况下X取值为0或10的机会是非常少的,而取4,5,6的机会会相 当多。因此如果我们知道了离散随机变量取每个值的概率,那么我们对这个随机变量可以说知 道得很清楚了,我们可以把这样的关系列成一张表 X:01 P: Po P P10 这样的表称为概率分布表,P称为概率函数,并记为: P(X=x)=p(x) 显然概率函数应满足:对任意可能结果ⅹ,有 p(≥0.且∑p(x)= 这里的求和是对一切可能的结果进行的 对于连续型随机变量来说,它的可能取值是不可列的,实际上它取到某一个确定值的可能 性都为0,比如说人的体重,实际上不可能找到一个人体重为精确的100Kg而一点不差,这一方 面是我们的测重手段不能无限精密,另一方面如果真的无限精密,重100Kg的人就找不到了 当然在实践中不会这样要求,我们关心的通常是某一范围内的人,如100±5Kg,100±0.5Kg 100±0.05Kg…等等,如果我们的研究越细致,我们所考虑的区间一般就越小。这样,采用类似 微分的概念,我们就有: f(r)=lm p(rs x<x+ Ax) △x 称f(x)为随机变量X的密度函数,显然应有f(x)≥0,且可积: f(xdx=1 而 P(asx<b)= f(x)dx 为X落在[a,b)中的概率。 定义:设X为一随机变量,称函数 F(x)=P(X<x)(-∞<x<+∞) 为X的分布函数。 这个定义适用于离散型随机变量,也适用于连续型随机变量。连续型分布函数也可表示为 密度函数的积分:
第二章 随机变量及其数字特征 §2.1 随机变量和分布函数 一、 随机变量: 直观上看,所谓随机变量,就是我们在随机实验中测定的量。例如观察10只新生动物的性 别,并计算其中雄性动物的数量X,显然X可能取值为0,1,…,10;但究竟取值为几,只能在 实验结束时才知道。象这样在实验中所得到的取值有随机性的量,就称为随机变量。随机变量 的特点就是当实验条件一定时,实验结果仍不确定。 上面所举的例子是离散型的随机变量,因为它只有有限个或可列个可能的取值。另外还有 一大类随机变量,它们的取值是在某个区间中连续变化的,例如人的身高,体重,胸围…象这 样的随机变量称为连续型随机变量。 二、 分布函数: 随机变量的取值是有随机性的,我们事先无法知道,但它的取值也是有规律性可循的,这 种规律性就表现在各个值出现的频率上。象上面的例子,如果我们把大量的初生动物分为10只 一组进行观察,那末在一般情况下X取值为0或10的机会是非常少的,而取4,5,6的机会会相 当多。因此如果我们知道了离散随机变量取每个值的概率,那么我们对这个随机变量可以说知 道得很清楚了,我们可以把这样的关系列成一张表: X: 0 1 …… 10 P: P0 P1 …… P10 这样的表称为概率分布表,P称为概率函数,并记为: P(X=x)=p(x) 显然概率函数应满足:对任意可能结果x,有 p(x)≥0, 且 = x p(x) 1 这里的求和是对一切可能的结果进行的。 对于连续型随机变量来说,它的可能取值是不可列的,实际上它取到某一个确定值的可能 性都为0,比如说人的体重,实际上不可能找到一个人体重为精确的100Kg而一点不差,这一方 面是我们的测重手段不能无限精密,另一方面如果真的无限精密,重100Kg的人就找不到了。 当然在实践中不会这样要求,我们关心的通常是某一范围内的人,如100±5Kg,100±0.5Kg、 100±0.05Kg…等等,如果我们的研究越细致,我们所考虑的区间一般就越小。这样,采用类似 微分的概念,我们就有: x p x X x x f x x + = → ( ) ( ) lim 0 称f(x)为随机变量X的密度函数,显然应有f(x)≥0,且可积: − f (x)dx =1 而 P(a≤X<b)= b a f (x)dx 为X落在[a, b)中的概率。 定义:设X为一随机变量,称函数 F(x) = P(X<x) (-∞<x<+∞) 为X的分布函数。 这个定义适用于离散型随机变量,也适用于连续型随机变量。连续型分布函数也可表示为 密度函数的积分:
F(x)=P(X<x)=f(y)小 显然有: Pa≤X<b)=f(x)dt f(x)dx- f(x)dx =F(b)-F(a) 对于分布函数来说,它有如下的基本性质: 1)F(x)是不减函数,即:对任意b>a,有: F(b)=F(a) 2)Im F(x)=0, lm F(x)=l 3)左连续性:F(x0)=F(x 总结:我们研究随机变量的方法,大致有这样几种: 分布列或分布表,它用于离散型随机变量,变量的一切可能取值就是样本空间的样本点,而 分布列则给出了每个样本点对应的概率 2.密度函数,它与分布列相对应,用于连续型随机变量。它采用类似微分的概念,有了它通过 积分就可以得到变量落入任何区间的概率。其性质为: P(X=x)=0 f(x)ax=l (分布列也有类似性质,只是求和代替了积分) 3.为了统一起见,我们又引入了分布函数: F(x)=P(X<x) 它可用于任何随机变量。随机变量X落入任意区间[a,b)的概率为: P(a≤<b)=F(b)-F1 离散型:F(x)=∑p(x) 续型:F(x)=[f(y)d 性质:1°不减, 2°lmF(x)=0,lmF(x)=1 3°左连续。 §22离散型随机变量 上一节我们已经说过,对离散型随机变量X来说,我们感兴趣的不仅有它取哪些值x,而且 也要知道它取这些值的概率大小,即我们要知道 P i=1,2,3 p(x,=1,2,3,…}称为随机变量X的概率分布,通常用下面的形式表示离散型随机变量X的 概率分布 x P(x1)p(x2) 它称为X的分布列或分布表。 而分布函数为:
− = = x F(x) P(X x) f (y)dy 显然有: ( ) ( ) ( ) ( ) ( ) ( ) F b F a f x dx f x dx P a X b f x dx b a b a = − = − = − − (1) 对于分布函数来说,它有如下的基本性质: 1) F(x)是不减函数,即:对任意b>a,有: F(b)≥F(a) 2) lim ( ) = 0, lim ( ) = 1 →− →+ F x F x x x 3) 左连续性:F(x-0)=F(x) 总结:我们研究随机变量的方法,大致有这样几种: 1. 分布列或分布表,它用于离散型随机变量,变量的一切可能取值就是样本空间的样本点,而 分布列则给出了每个样本点对应的概率。 2. 密度函数,它与分布列相对应,用于连续型随机变量。它采用类似微分的概念,有了它通过 积分就可以得到变量落入任何区间的概率。其性质为: P(X=x)=0, − f (x)dx =1. (分布列也有类似性质,只是求和代替了积分) 3. 为了统一起见,我们又引入了分布函数: F(x)=P(X<x) (-∞<x<+∞) 它可用于任何随机变量。随机变量X落入任意区间[a, b)的概率为: P(a≤X<b)= F(b)-F(a) 离散型: = x x i i F(x) p(x ) 连续型: − = x F(x) f (y)dy 性质:1 不减, 2 lim ( ) = 0, lim ( ) = 1 →− →+ F x F x x x 3°左连续。 §2.2 离散型随机变量 上一节我们已经说过,对离散型随机变量X来说,我们感兴趣的不仅有它取哪些值xi,而且 也要知道它取这些值的概率大小,即我们要知道: P(X=xi) = p(xi), i=1,2,3,…… { p(xi), i=1,2,3,……}称为随机变量X的概率分布,通常用下面的形式表示离散型随机变量X的 概率分布: ( ) ( ) ( ) 1 2 1 2 n n p x p x p x x x x 它称为X的分布列或分布表。 而分布函数为:
F(=P(X<=∑px) 显然此时F(x)是一个跳跃函数,它与分布列是互相唯一确定的。因此都可用来描述X。 几种重要的离散型随机变量 1.两点分布:分布列为 g p 其概率模型是进行一次随机试验,成功的概率为p,失败概率为q=l-p,若令Ⅹ为成功次数,则 X服从两点分布。 2.二项分布:如果进行n次独立试验,仍用X记成功次数,则有 P(X=1)=Cnp'q",i=012,…n 称它二项分布,是因为它是n次二项式(P+q的展开式的第i+1项 3超几何分布:对N件产品(其中有M件次品)进行不放回抽样检查,在n件样品中的次品数X 显然是随机变量,它的分布是超几何分布 P(X=k) 0≤k≤n≤N,k≤M 它的计算是比较麻烦的,但若N>n,它可以用二项分布来近似 几何分布:连续进行独立实验,若以X记首次成功时的实验次数,则它是个随机变量,取值 为1,2,……其概率分布称为几何分布: ck p)=P(=k)=gk-lp k=1, 2, 3... 作为一种等待分布,几何分布有许多实际用途。它有一种十分有趣的性质,我们称为无记忆 性。也就是说,如果已知前m次实验都未成功,第m+1次实验成功的可能性并不因此而发生 变化。换句话说,你继续等待第一次成功出现的次数X仍服从原来的几何分布,因此就象是 把以前的经历都忘掉了一样。这一性质可简单证明如下 令B为前m次未成功,A为再等k次,则 P(AB) =q p q 仍服从原来的分布g(k,p) 更有意思的是,可以从数学上严格证明:若X是取正整数数值的随机变量,且在已知X>k 的条件下,X=k+1的概率与k无关,则X服从几何分布。证明如下 证明:以p记上述条件概率,令q=P(Xk)及p=P(X=k)。 则pk+1=qk-qk+1 而所求的条件概率 P 9=1-p,由于qo=1 即:pk=(1-p·p,这正是几何分布。 5.负二项分布(巴斯卡分布):它实际是几何分布的一种推广。它的模型是这样的:连续独立 实验,以X记第k次成功时总的实验次数,则X服从负二项分布,它的分布为: f(; k, p)=P(X=x)=C p(1-p) x=k,k+1, (注意X取值范围与二项分布的不同) 显然若令k=1,则为几何分布
F(x)=P(X<x)= x x i i p(x ) 显然此时F(x)是一个跳跃函数,它与分布列是互相唯一确定的。因此都可用来描述X。 几种重要的离散型随机变量: 1. 两点分布:分布列为: q p 0 1 其概率模型是进行一次随机试验,成功的概率为p, 失败概率为q=1-p,若令X为成功次数,则 X服从两点分布。 2. 二项分布:如果进行n次独立试验,仍用X记成功次数,则有: P X i C p q i n i i n i ( = ) = n − , = 0,1,2, 称它二项分布,是因为它是n次二项式(p+q)n的展开式的第i+1项。 3 .超几何分布:对N件产品(其中有M件次品)进行不放回抽样检查,在n件样品中的次品数X 显然是随机变量,它的分布是超几何分布: n N n k N M k M k C C C n P X k − − = ( = ) = 0≤k≤n≤N, k≤M 它的计算是比较麻烦的,但若N>>n,它可以用二项分布来近似。 4.几何分布:连续进行独立实验,若以X记首次成功时的实验次数,则它是个随机变量,取值 为1,2,……其概率分布称为几何分布: g(k, p)=P(X=k)=qk-1 p k=1, 2, 3…… 作为一种等待分布,几何分布有许多实际用途。它有一种十分有趣的性质,我们称为无记忆 性。也就是说,如果已知前m次实验都未成功,第m+1次实验成功的可能性并不因此而发生 变化。换句话说,你继续等待第一次成功出现的次数X仍服从原来的几何分布,因此就象是 把以前的经历都忘掉了一样。这一性质可简单证明如下: 令B为前m次未成功,A为再等k次,则 q p q q q p P A B k m m k 1 1 ( ) ) − − = = 仍服从原来的分布g (k, p)。 更有意思的是,可以从数学上严格证明:若X是取正整数数值的随机变量,且在已知X>k 的条件下,X=k+1的概率与k无关,则X服从几何分布。证明如下: 证明:以p记上述条件概率,令qk=P (X>k) 及 pk=P (X=k)。 则 pk+1=qk-qk+1 而所求的条件概率 k k q p p +1 = k k k k p q q p q q 1 , 1, (1 ) 0 1 = − = = − + 由于 即: pk = (1-p)k-1·p,这正是几何分布。 5. 负二项分布(巴斯卡分布):它实际是几何分布的一种推广。它的模型是这样的:连续独立 实验,以X记第k次成功时总的实验次数,则X服从负二项分布,它的分布为: k k x k f x k p P X x Cx p p − − ( ; , ) = ( = ) = − (1− ) 1 1 x = k, k +1, (注意X取值范围与二项分布的不同) 显然若令k=1,则为几何分布
我们把它称为负二项分布,是因为可以把它看作 展开式中的各项系数 它在生态学的研究中常有应用,许多生物种群的空间分布型都可以用它来描述,其参数k可作 为聚集性的指标,k越小,该生物的群集性越明显 6.泊松( Poisson)分布:在二项分布中,当事件出现概率特别小,(p→0),而实验次数又非常 多(n→∞),使n→λ(常数)时,二项分布就趋近于泊松分布,为 P(x)= x=0,1,2,… xl 历史上,泊松分布是作为二项分布的近似引入的,但是目前它的意义已远远超出了这一点 成为概率论中最重要的几个分布之一。许多随机现象服从泊松分布,如电话交换台接到的呼 叫数:汽车站的乘客人数:射线落到某区域中的粒子数:细胞计数中某区域里的细胞数 等等。可以证明,若随机现象具有以下的三个性质,则它服从泊松分布(以电话呼叫为例) (1)平稳性:在(tn,to+△t)中来到的呼叫平均数只与时间间隔Δt的长短有关,而与起点to 无关。它说明现象的统计规律不随时间变化 (2)独立增量性(无后效性):在(t,t+△t)中来到k个呼叫的可能与to以前的事件独立,即 不受它们的影响。它说明在互不相交的时间间隔内过程的进行是相互独立的 (3)普通性:在充分小的时间间隔内,最多来一个呼叫。即:令Pk(△t)为长度为△t的时间 间隔中来k个呼叫的概率,则: ∑P2(△) 它表明在同一瞬间来两个或更多的呼叫是不可能的。显然具有这样特性的现象是相当普遍 的。这一点从一个侧面说明了泊松分布的重要性。 如果改用细胞计数为例,则上述三条性质可描述如下: (1)平稳性:在记数板上某一区域中观察到细胞平均数只与区域的大小有关,与这一区域位 于板上的什么位置无关。这说明细胞出现在板上任何位置的可能性都是相等的 (2)独立增量性:在某一区域中观察到k个细胞的可能性与区域外细胞的多少无关,不受它 们的影响。这说明细胞出现在何处与任何其他细胞无关,细胞间既不会互相吸引,也不 会互相排斥 (3)普通性:每个细胞都可与其他细胞区分开来,不会有两个或几个细胞重叠在一起,使我 们对细胞无法准确计数。 生物学中能够符合上述条件的事例是相当多的,如水中细菌数:从远处飘来的花粉 孢子数;荒地上某种植物初生幼苗数等等。关键是这些细菌,花粉,种子等互相间既不能 有吸引力,也不能有排斥力,这样它们的分布就会服从泊松分布。反之,若细菌呈团块状 出现,或植物长大后由于自疏现象而互相间保持一定距离,则它们的分布就不会是泊松分 布了 §23连续型随机变量 连续型随机变量X可取某个区间[c,d或( )中的一切值,且存在可积函数f(x),使 F(x)= f()dy fx)称为的(分布)密度函数,F(x)称为x的分布函数。显然 P(asX<b)=F(b)-F(a)=f()dx
我们把它称为负二项分布,是因为可以把它看作 k x p q p − − ) 1 ( 展开式中的各项系数。 它在生态学的研究中常有应用,许多生物种群的空间分布型都可以用它来描述,其参数k可作 为聚集性的指标,k 越小,该生物的群集性越明显。 6. 泊松(Poisson)分布:在二项分布中,当事件出现概率特别小,(p→0),而实验次数又非常 多(n→∞),使np→λ(常数)时,二项分布就趋近于泊松分布,为: − = e x P x x ! ( ) x=0,1,2,…… 历史上,泊松分布是作为二项分布的近似引入的,但是目前它的意义已远远超出了这一点, 成为概率论中最重要的几个分布之一。许多随机现象服从泊松分布,如电话交换台接到的呼 叫数;汽车站的乘客人数;射线落到某区域中的粒子数;细胞计数中某区域里的细胞数…… 等等。可以证明,若随机现象具有以下的三个性质,则它服从泊松分布(以电话呼叫为例): (1) 平稳性: 在(t0, t0+Δt)中来到的呼叫平均数只与时间间隔Δt的长短有关,而与起点t0 无关。它说明现象的统计规律不随时间变化。 (2) 独立增量性(无后效性):在(t0,t0+Δt)中来到k个呼叫的可能与t0以前的事件独立,即 不受它们的影响。它说明在互不相交的时间间隔内过程的进行是相互独立的。 (3) 普通性:在充分小的时间间隔内,最多来一个呼叫。即:令Pk(Δt)为长度为Δt的时间 间隔中来k个呼叫的概率,则: 0 ( ) lim 2 0 = = → t P t k k t 它表明在同一瞬间来两个或更多的呼叫是不可能的。显然具有这样特性的现象是相当普遍 的。这一点从一个侧面说明了泊松分布的重要性。 如果改用细胞计数为例,则上述三条性质可描述如下: (1)平稳性:在记数板上某一区域中观察到细胞平均数只与区域的大小有关,与这一区域位 于板上的什么位置无关。这说明细胞出现在板上任何位置的可能性都是相等的。 (2)独立增量性:在某一区域中观察到k个细胞的可能性与区域外细胞的多少无关,不受它 们的影响。这说明细胞出现在何处与任何其他细胞无关,细胞间既不会互相吸引,也不 会互相排斥。 (3)普通性:每个细胞都可与其他细胞区分开来,不会有两个或几个细胞重叠在一起,使我 们对细胞无法准确计数。 生物学中能够符合上述条件的事例是相当多的,如水中细菌数;从远处飘来的花粉、 孢子数;荒地上某种植物初生幼苗数等等。关键是这些细菌,花粉,种子等互相间既不能 有吸引力,也不能有排斥力,这样它们的分布就会服从泊松分布。反之,若细菌呈团块状 出现,或植物长大后由于自疏现象而互相间保持一定距离,则它们的分布就不会是泊松分 布了。 §2.3 连续型随机变量 连续型随机变量X可取某个区间[c, d]或(-∞,∞)中的一切值,且存在可积函数f (x),使 − = x F(x) f (y)dy f(x) 称为X的(分布)密度函数,F(x) 称为X的分布函数。显然 = − = b a P(a X b) F(b) F(a) f (x)dx
这样,有了f(x),就可以计算X落入任何一个区间的概率,而 0≤P(X=C)≤lmf(x)dk=0 P(=C)=0 即连续型随机变量取任意个别值的概率都是0。这与离散型随机变量是完全不同的,而且这还说 明,一个事件的概率为0,并不一定是不可能事件。同样,一个事件概率为1,也不一定是必然 事件。 例如,人的身高可认为服从连续分布,由前述说明,身高取某具体数值如18m的概率为0, 这意味着人虽然很多,但不可能找到一个人身高精确地等于1.8m。另一方面,从人群中随意找 个人,他的身高总有一个具体值,设为1.7m。身高取1.7m的概率当然也为0,但现在却有一个 人身高为17m,说明概率为0的事件不一定是不可能事件。同时,由于身高为1.7m的概率为0, 因此身高不等于1.7m的概率为1。但由于前述至少有一人身高为1.7m,这样身高不等于17m的人 中将不包括这个人,也就不可能是全空间,即不是必然事件了 下面我们就来介绍一些连续型随机变量的例子 1.均匀分布:若a,b为有限数,则由下列密度函数定义的分布称为a,b]上的均匀分布 <xsb f(x)=b-a x<a或x>b 相应的分布函数为: F(以)=ax<a 0 a≤x<b x≥b 例:数字4舍5入后的误差分布,农药剂量在田间的分布,人工种植的果树的分布等 2.指数分布:指数分布的密度函数为: f(x) xx≥0 其中λ>0,为常数 0 分布函数为: kx≥0 x<0 指数分布经常用来作为各种“寿命”的分布,例如动物寿命,元件寿命,电话通话时间 等等,与几何分布类似,它也具有无记忆性: P(X +x>s)=2x>s+ 1) P(X>s) 即:已知寿命大于s年,则再活t年的概率与s无关。因此也称指数分布是“永远年轻”的。 可以证明,指数分布是唯一具有上述性质的连续型分布 3.正态分布:它的密度函数为 2-0<X<+0
这样,有了f (x),就可以计算X落入任何一个区间的概率,而 + → = = c k k c 0 P(X C) lim f (x)dx 0 0 ∴ P(X=C) = 0 即连续型随机变量取任意个别值的概率都是0。这与离散型随机变量是完全不同的,而且这还说 明,一个事件的概率为0,并不一定是不可能事件。同样,一个事件概率为1,也不一定是必然 事件。 例如,人的身高可认为服从连续分布,由前述说明,身高取某具体数值如1.8m的概率为0, 这意味着人虽然很多,但不可能找到一个人身高精确地等于1.8m。另一方面,从人群中随意找 一个人,他的身高总有一个具体值,设为1.7m。身高取1.7m的概率当然也为0,但现在却有一个 人身高为1.7m,说明概率为0的事件不一定是不可能事件。同时,由于身高为1.7m的概率为0, 因此身高不等于1.7m的概率为1。但由于前述至少有一人身高为1.7m,这样身高不等于1.7m的人 中将不包括这个人,也就不可能是全空间,即不是必然事件了。 下面我们就来介绍一些连续型随机变量的例子: 1. 均匀分布:若a, b为有限数,则由下列密度函数定义的分布称为[a, b]上的均匀分布: = − x a x b a x b f x b a 0 或 1 ( ) 相应的分布函数为: − − = x b a x b b a x a x a F x 1 0 ( ) 例:数字4舍5入后的误差分布,农药剂量在田间的分布,人工种植的果树的分布等。 2. 指数分布:指数分布的密度函数为: = − 0 0 0 ( ) x e x f x x 其中λ>0,为常数 分布函数为: − = − 0 0 1 0 ( ) x e x F x x 指数分布经常用来作为各种“寿命”的分布,例如动物寿命,元件寿命,电话通话时间…… 等等,与几何分布类似,它也具有无记忆性: t s s t e e e P X s P X s t P X s t X s − − − + = = + + = ( ) ( ) ( ) ( ) 即:已知寿命大于s 年,则再活t 年的概率与s 无关。因此也称指数分布是“永远年轻”的。 可以证明,指数分布是唯一具有上述性质的连续型分布。 3. 正态分布:它的密度函数为: = − + − − f x e x x , 2 1 ( ) 2 2 2 ( )