附录B概率论、随机变量和随机过程 本附录简要介绍书中所用到的概率论、随机变量、随机过程方面的主要概念。有关这 宽深主题的详细处理,以及本附录所给出的性质的证明,请参考1~8]。 B.1概率论 概率论是随机事件的数学描述。随机事件由概率空间(2,6,P()定义。概率空间由样 本空间2、随机事件的集合6和概率测度p()组成。其中2是随机事件可能结果的集合。6 是集合的集合,任意随机事件A∈£是2的子集。对每一个集合A∈£定义了概率测度 p(A)。概率空间要求集合6是一个σ域。直观地说,如果一个集合的集合6包含了所有它 的元素的交集、并集和补集',6就是一个。域。更准确地说,6是一个。域,如果:所有 可能结果构成的集合2是&中的一个集合;若集合AeE,则A∈E;对于任意集合 A,A,其中A,∈6,有UA∈6。为了能定义随机事件的交、并的概率,6必须是o 域。我们还要求概率空间中的概率测度满足下列三个基本性质: 1.p2)=1. 2.对于任意事件A∈8,有0≤p(A)≤1。 3.如果A和B是互斥的(即其交集为零),则P(AB)=p(4)+pB) 本节只考虑ε中的集合,因为概率测度只定义在这些集合上。 从概率测度p的基本性质可以推出一些重要特性,如p(4)=1-p(A)。再如,若 集合4,A两两不相交(A∩A,=0,i≠j),则当4U4U.UA,=2时,有 立4)=1,秀达样的集合4.为n的一个刻合(侧m.对于再个相交的安 合A和A,有p(AUA,)=p(4)+p(A)-p(4∩4),这一点导出了联合界(mion bomd),其表述为:对于任意集合A,.,An,有 '我们用A门B表示A和的交集,它是所有A和的共同元。A和B的并集记为AUB,是所有或出现在 A中、或出现在肿的元素的集合。AC2的补集记为,是所有在2中,但不在中的元秦, 1/13
附录 B 概率论、随机变量和随机过程 本附录简要介绍书中所用到的概率论、随机变量、随机过程方面的主要概念。有关这一 宽深主题的详细处理,以及本附录所给出的性质的证明,请参考[1~8]。 B.1 概率论 概率论是随机事件的数学描述。随机事件由概率空间(Ω, , ε p(⋅)) 定义。概率空间由样 本空间 、随机事件的集合 Ω ε 和概率测度 p( )⋅ 组成。其中Ω 是随机事件可能结果的集合。ε 是集合的集合,任意随机事件 A∈ε 是 Ω 的子集。对每一个集合 A∈ε 定义了概率测度 p( ) A 。概率空间要求集合ε 是一个σ 域。直观地说,如果一个集合的集合ε 包含了所有它 的元素的交集、并集和补集1 ,ε 就是一个σ 域。更准确地说,ε 是一个σ 域,如果:所有 可能结果构成的集合 Ω 是 ε 中的一个集合;若集合 A∈ε ,则 c A ∈ε ;对于任意集合 A A 1 2 , ,",其中 Ai ∈ε ,有 1 i i A ε ∞ = ∪ ∈ 。为了能定义随机事件的交、并的概率,ε 必须是σ 域。我们还要求概率空间中的概率测度满足下列三个基本性质: 1. 。 p()1 Ω = 2.对于任意事件 A∈ε ,有0 () ≤ ≤ p A 1。 3.如果 和 是互斥的(即其交集为零),则 A B p( ) () () A B pA pB ∪ = + 本节只考虑ε 中的集合,因为概率测度只定义在这些集合上。 从概率测度 p( )⋅ 的基本性质可以推出一些重要特性,如 。再如,若 集合 ( ) 1 () c pA pA = − 1, , A " An 两两不相交( 0 A A i j ∩ = / , i ≠ j ),则当 时,有 ,称这样的集合 AA A 1 2 ∪ ∪"∪ n = Ω 1 ()1 n i i p A = ∑ = 1 { ,., } A An 为 Ω 的一个划分(partition)。对于两个相交的集 合 Ai 和 Aj ,有 ( ) () ( ) ( ij i j ij p A A pA pA pA A ∪ =+− ∩ ) ,这一点导出了联合界(union bound),其表述为:对于任意集合 1, , A " An ,有 1 我们用 表示A和B的交集,它是所有A和B的共同元素。A和B的并集记为 ,是所有或出现在 A中、或出现在B中的元素的集合。 的补集记为 ,是所有在 A B ∩ A B ∪ A ⊂ Ω c A Ω 中,但不在A中的元素。 1/13
(AU4.U.UA)s (A) B1) 一个随机事件的发生能够影响另外一个随机事件发生的概率,这是因为观察到一个随机 事件的观察结果后,我们能够判定出6中有哪些子集也包括这个观察结果。为了反映这一点, 定义事件B在事件A发生的条件下的概率为p(BA)=pA∩B)/P(A),设p(A)≠O。这 表明 P(AOB)=P(A B)P(B)=P(BA)P(A) (B-2) 条件概率p(BA)=p(A∩B)/p(A)实际是用事件A的概率对事件B的概率进行了归一 化,因为我们知道A已经发生了。由(B-2)可得到贝叶斯准则(Bae'nle) (B)(Bp(B) B.3) p(A) 事件的独立性与概率测度p有关,若p(A∩B)=pA)PB),则事件A与事件B独立。 此时有p(B4=p(B),p(AB)=pA). B.2随机变量 随机变量是在概率空间(Q,8,P》上定义的。随机变量X是从样本空间2到实数轴的 子集的函数映射。如果X取实数轴上的离散值,称为离散(discrete)随机变量。如果X取 实数轴上的连续值,称为连续(continuous)随机变量。随机变量X的累积分布函效 (cumulative distribution function,cdD定义为Px(x)兰p(X≤x),x∈R。累积分布函数 可以从概率空间导出:p(X≤x)=p(X-(-0,x》,X-日是从实数轴到2的子集的逆映 射,即X-(-0,x)={@∈Q:X()≤x}。累积分布函数的性质基于概率测度的性质,首先 它满足0sP(x)=p(X-(-0,x》s1。其次,累积分布函数是不减函数:如果x≤x2 则 B(x)sP(x) 这 是 由 Pr(x2)=p(X-(-0,x》=pX-(-o,x》+p(X-(x,x》 ≥pX-'(-0,x)》=D(x)。 随机变量X的概率密度函数(probability density function,pd)定义为累积分布函数的 213
2/13 ( ) 1 2 i 1 ( ) n n i p A A A pA = ∪ ∪"∪ ≤ ∑ (B-1) 一个随机事件的发生能够影响另外一个随机事件发生的概率,这是因为观察到一个随机 事件的观察结果后,我们能够判定出ε 中有哪些子集也包括这个观察结果。为了反映这一点, 定义事件 在事件 B A 发生的条件下的概率为 p()( ) BA pA B p A = ∩ ( ) ,设 。这 表明 p A() 0 ≠ p( ) ( )() ( )( A B p AB p B pBA p A ∩ = = ) (B-2) 条件概率 p()( ) BA pA B p A = ∩ ( ) 实际是用事件 A 的概率对事件 的概率进行了归一 化,因为我们知道 A 已经发生了。由(B-2)可得到贝叶斯准则(Bayes’ rule): B ( )( ( ) ( ) p AB pB) pBA p A = (B.3) 事件的独立性与概率测度 p( )⋅ 有关,若 p( ) ()() A B pApB ∩ = ,则事件 A 与事件 独立。 此时有 B p()( BA pB = ) , p()( AB p A = ) 。 B.2 随机变量 随机变量是在概率空间( , Ω ε , ( )) p ⋅ 上定义的。随机变量 是从样本空间 到实数轴的 子集的函数映射。如果 取实数轴上的离散值,称为离散(discrete)随机变量。如果 取 实数轴上的连续值,称为连续(continuous)随机变量。随机变量 的累积分布函数 (cumulative distribution function,cdf)定义为 X Ω X X X () ( ) P x pX x X ≤ , x ∈\ 。累积分布函数 可以从概率空间导出: , 1 pX x pX x ( ) ( (, )) − ≤ = −∞ 1 X ( ) − ⋅ 是从实数轴到Ω 的子集的逆映 射,即 1 X ( ,) { : () x X ω ω } − −∞ = ∈Ω ≤ x ≤1 。累积分布函数的性质基于概率测度的性质,首先 它满足 。其次,累积分布函数是不减函数:如果 1 0 ( ) ( ( , )) P x pX x X − ≤ = −∞ 1 2 x ≤ x , 则 1 2 () () Px Px X X ≤ ,这是由于 1 11 22 1 ( ) ( ( , )) ( ( , )) ( ( , )) P x pX x pX x pX x x X − −− = −∞ = −∞ + 1 2 1 1 p( ( ,) X x ) − ≥ −∞ 1 ( ) = P x X 。 随机变量 的X 概率密度函数(probability density function,pdf)定义为累积分布函数的
号数:P,(色云PA().对连续随机变量,P,)是整个实数轴上的菌致。,对离敬随机 变量,Px(x)是一组冲激函数,冲激位置在X的可能取值处。概率度函数也称为X的概 率分布(probabiliry distribution)或分布(distribution),它决定了X处于某一范围时的概率: p≤X≤x)=p(X≤x)-p(X≤x)=Rr()-R,()=pr(x(B-4) 由于P(o)=1、Px(-∞)=0,所以概率密度函数的积分是1: 广p(xh=1 (B-5) 在不致混涌的情况下,可以省略累积分布函数和概率密度函数中的下标X,写成P(x)和 p(x)。 随机变量X的均值(meam)或期望值(expected value)是其概率平均,定义为: 4x=可X门]=px( B-6) 期望算子E)是线性的,也可用于随机变量的函数。X的函数的均值为 Eg(X】=g(x)Pr(x (B-7) 一个有特别意义的函数是X的n阶矩(mome): E[x"]=[x"p:(x)dx (B-8) X的方差是由其均值和二阶矩定义的: Var[X]=E[(X-uy)]=E[x]- (B-9) 方差反映X与其均值4x之差的平方的均值。X的标准差σx是方差的平方根。由期望算子 的线性性质容易证明,对任意常数c,有EcX灯=cFX]、Var[cX门=c2VarX门 EX+c]=E[X灯+c、VarX+c]=VarX]。因此,给一个随机变量乘以一个常数将使 其均值乘以相同的常数,使其方差乘以该常数的平方。给一个随机变量加上一个常数将使均 313
导数: () () X d X p x P dx x ) 。对连续随机变量, 是整个实数轴上的函数。对离散随机 变量, 是一组冲激函数,冲激位置在 的可能取值处。概率密度函数也称为 X 的概 率分布(probability distribution)或分布(distribution),它决定了 处于某一范围时的概率: ( ) X p x ( ) X p x X X 2 1 1 2 2 1 21 ( ) ( ) ( ) () () ( x XX X x p x X x p X x p X x P x P x p xd ≤≤ = ≤ − ≤ = − = ∫ x 0 (B-4) 由于 、 PX () 1 ∞ = PX ( ) −∞ = ,所以概率密度函数的积分是 1: () 1 X p x dx ∞ −∞ = ∫ (B-5) 在不致混淆的情况下,可以省略累积分布函数和概率密度函数中的下标 ,写成 X P x( ) 和 p( ) x 。 随机变量 的X 均值(mean)或期望值(expected value)是其概率平均,定义为: [ ] () X X X μ xp x dx ∞ −∞ = = ∫ E (B-6) 期望算子 是线性的,也可用于随机变量的函数。 的函数的均值为 E[ ]⋅ X [ ( )] ( ) ( ) X g X g x p x dx ∞ −∞ = ∫ E (B-7) 一个有特别意义的函数是 的X n 阶矩(moment): [ ] () n n X X x p x dx ∞ −∞ = ∫ E (B-8) X 的方差是由其均值和二阶矩定义的: 2 2 2 Var[ ] [( ) ] [ ] XX x X X 2 = −= σ E E μ − μ X (B-9) 方差反映 与其均值 X μ X 之差的平方的均值。X 的标准差σ X 是方差的平方根。由期望算子 的线性性质容易证明,对任意常数 ,有 c E E [] [ cX c X = ] 、 、 、 。因此,给一个随机变量乘以一个常数将使 其均值乘以相同的常数,使其方差乘以该常数的平方。给一个随机变量加上一个常数将使均 2 Var[ ] Var[ ] cX c X = E E [ ] [] Xc X c += + Var[ ] Var[ X c + = X ] 3/13
值加上相同的常数,而方差不变。 随机变量X的分布可以通过它的特征函数(characteristic function)来确定,特征函数 定义为: r(y=Efe]=px(x)e严d (B-10) 由B-10)可见,X的特征函数(v)是其概率密度函数Px(x)的傅氏反变换在/(2π)处的 值。因此通过x()可得到Px(x)为: pr=2∫re (B-11) 上式在求随机变量之和的分布时特别有用。可以由,()得到X的n阶矩: x1=←ro4创 0”g X的矩母画数(moment generating function,.MGF)定义为Mr(v)兰Eer],它与特征 函数类似,但在某些v值处会发散。如果矩母函数在零附近是有限的,则X的n阶矩为: Er]=4 dv" 令X是一个随机变最,g(x)是一个实函数。令Y=g(X)就定义了另外一个随机变量, 且有P0)-Jas,Pr(r达.若8是一一映射的单调增函数,则B0)=”P,(冰. 若g是一一映射的单调减函数,则B()=,Px(x达。 现在考虑联合的随机变量。为了能定义两个随机变量的联合分布,它们必须有相同的概 率空间。令X和Y是定义在同一个概率空间(2,8,P()上的两个随机变量。它们的联合累 积分布函数定义为P(x,)兰p(X≤x,Y≤y).联合概率密度函数定义为累积分布函数的 导数 413
值加上相同的常数,而方差不变。 随机变量 X 的分布可以通过它的特征函数(characteristic function)来确定,特征函数 定义为: 4/13 () [ ] () dx jvX jvx X X φ v e p xe ∞ −∞ = = ∫ E (B-10) 由(B-10)可见, 的特征函数 X ( ) X φ v 是其概率密度函数 的傅氏反变换在 ( ) X p x v (2π ) 处的 值。因此通过 ( ) X φ v 可得到 为: ( ) X p x 1 () () 2 jvx X X p x v φ e π ∞ − −∞ = ∫ dx (B-11) 上式在求随机变量之和的分布时特别有用。可以由 ( ) X φ v 得到 的X n 阶矩: 0 ( ) [ ]( ) n n n X n v v EX j v φ = ∂ = − ∂ X 的矩母函数(moment generating function,MGF)定义为 ( ) vX X v e⎡ ⎣ M E ⎤ ⎦ ,它与特征 函数类似,但在某些 值处会发散。如果矩母函数在零附近是有限的,则 的 阶矩为: v X n ( ) 0 n n X n v v X v = ∂ ⎡ ⎤ = ⎣ ⎦ ∂ E M 令 是一个随机变量, 是一个实函数。令 X g x( ) Y gX = ( )就定义了另外一个随机变量, 且有 。若 是一一映射的单调增函数,则 。 若 :() () () Y xg x y P y p x dx ≤ = ∫ X g 1 ( ) () () g y P y p x dx Y X − −∞ = ∫ g 是一一映射的单调减函数,则 1 。 ( ) () () Y X g y P y p x dx − ∞ = ∫ 现在考虑联合的随机变量。为了能定义两个随机变量的联合分布,它们必须有相同的概 率空间。令 和X Y 是定义在同一个概率空间( , , ( )) Ω ε p ⋅ 上的两个随机变量。它们的联合累 积分布函数定义为 (, ) ( , ) P x y p X xY y XY ≤ ≤ 。联合概率密度函数定义为累积分布函数的 导数:
Pr.P (B-12) dxdy 于是 Pnxy=广Pae,whdn B-13) 对于联合随机变量X和Y,对联合概率密度函数求关于Y的积分可得到X的分布: px(x)=[po(x.yry (B-14) 类似地, pr(y)=[px(x.ydx (B-15) 这样得到的分布Px(x)和户,(y)也称为联合分布Pn(x,y)的边际(marginal分布。注意联合 概率密度函数的积分必然是1: Po(x.yrdxdv=1 B-16) 两个随机变量的联合累积分布函数和联合概率密度函数的定义可以直接扩展到任意有限个 随机变量。 和随机事件一样,观察一个随机变量的结果可能会影响另一个随机变量的概率。在随机 变量X的实现给定为X=x的条件下,随机变量”的条件分布定义为 P(yX=x)=P(x,y/Px(x),这也表明Pn(xy)=乃yX=x)Px(x)。两个随机 变量X和Y之间的独立性是其联合分布的函数。具体而言,若X和Y的联合分布Pn(x,y) 可分解各自分布之积,即若P如(x,y)=Px(x)p(y),则X和Y是独立的随机变量。对于 独立随机变量,容易证明Ef(X)g(X]=E/(X】ELg(X】,其中f(x)和g(x)是任意 函数。 设随机变量X和Y的联合概率密度函数是P(x,y),定义其可阶联合矩为: E[X'X]x'y por(x,yybxdy (B-17) X和Y的相关(correlation)定义为E[Y],协方差(covariance)定义为 513
2 (, ) (, ) XY XY P xy p xy x y ∂ ∂ ∂ (B-12) 于是, (, ) (, ) x y P x y p v w dvdw XY XY −∞ −∞ = ∫ ∫ (B-13) 对于联合随机变量 和X Y ,对联合概率密度函数求关于Y 的积分可得到 的分布: X () (, ) X XY p x p x y dy ∞ −∞ = ∫ (B-14) 类似地, () (, ) Y XY p y p x y dx ∞ −∞ = ∫ (B-15) 这样得到的分布 和 也称为联合分布 的边际(marginal)分布。注意联合 概率密度函数的积分必然是 1: ( ) X p x ( ) Y p y (, ) XY p xy (, ) 1 XY p x y dxdy ∞ ∞ −∞ −∞ = ∫ ∫ (B-16) 两个随机变量的联合累积分布函数和联合概率密度函数的定义可以直接扩展到任意有限个 随机变量。 和随机事件一样,观察一个随机变量的结果可能会影响另一个随机变量的概率。在随机 变 量 X 的实现给定为 X = x 的条件下,随机变量 Y 的条件分布定义为 pY X ( ) (, ) yX x p xy p x = = Y X ( ) ,这也表明 (, ) ( ) () XY Y X p xy p yX xp x = = 。两个随机 变量 和Y 之间的独立性是其联合分布的函数。具体而言,若 和Y 的联合分布 可分解各自分布之积,即若 X X (, ) XY p xy (, ) () () XY X Y p xy p xp y = ,则 和Y 是独立的随机变量。对于 独立随机变量,容易证明 X E E [ ( ) ( )] [ ( )] [ ( ) f X gX f X EgX = ],其中 f ( ) x 和 是任意 函数。 g x( ) 设随机变量 和X Y 的联合概率密度函数是 ,定义其 p xy XY (, ) ij 阶联合矩为: [ ] (, ) i j ij E X X x y p x y dxdy XY ∞ ∫−∞ (B-17) X 和 的 Y 相 关 (correlation) 定义为 E[XY] , 协方差 ( covariance )定义为 5/13