龚光鲁,钱敏平著应用随机过程教程及其在算法与智能计算中的应用 清华大学出版社,2003 第1章概率论精要回顾与补充 1基本框架与典型分布 1.1概率 定义1.1记g={o:为一个基本事件,即随机试验的一个可能结果},它称 为样本空间.设7是Ω2的某些集合(称为事件)组成的类它如果满足 由AAn∈(n≥1)能推出∪A∩41,A=g-A∈? 就称为一个事件体(代数).如果在?上定义了一个非负函数P(A),VA∈?,满足 P(9)=1,而且对于任意A∈只(121),只要A1∩A≠⑧(≠j),就有 PUA)=∑P(4),则称P(4)为事件A的概率 1.2随机变量 定义1·2一个随机地取实数值的量称为随机变量,定义随机变量ξ的分布函数为 F(x)=P(≤x).我们用=表示5与n同分布 1.随机变量ξ的数值函数g()的数学期望(均值) 定义1.3离散随机变量ξ的概率函数(概率分布)定义为 p(x)=P(=x)(x=x1,x2),p(x)=P, (1.2) 其分布函数为F(x)=∑P,而数值函数8()的数学期望为 Eg()=∑8(x)P 如果5只取非负整数值P(5=n)=Pn,则有另一个计算公式 E5=∑P(>n,E2=∑P(>n,m) 证明:左=E(∑lms1lms)=∑E(lms;lms)=右) n,m20
1 龚光鲁,钱敏平著 应用随机过程教程及其在算法与智能计算中的应用 清华大学出版社,2003 第1章 概率论精要回顾与补充 1 基本框架与典型分布 1.1 概率 定义1.1 记W ={w :w为一个基本事件,即随机试验的一个可能结果},它称 为样本空间.设 F 是W 的某些集合(称为事件)组成的类, 它如果满足 由 A, An ÎF (n ³ 1)能推出 U I ¥ = ¥ = = - Î 1 1 , , n n n An A A W A D F , (1. 1) 就称为一个事件体(s 代数).如果在 F 上定义了一个非负函数 P(A),"AÎ F , 满足: P(W) = 1 , 而且对于任意 Ai Î F, (i ³ 1) , 只 要 Ai Ç Ai ¹ Æ (i ¹ j) , 就 有 U ¥ = ¥ = = å 1 1 ( ) ( ) i i P Ai P Ai ,则称 P(A) 为事件 A 的概率. 1. 2 随机变量 定义1.2 一个随机地取实数值的量称为随机变量, 定义随机变量x 的分布函数为 F( x) = P(x £ x) . 我们用x h d = 表示x 与h 同分布. 1. 随机变量x 的数值函数 g (x ) 的数学期望(均值) 定义1.3 离散随机变量x 的概率函数(概率分布)定义为 ( ) ( ) ( , ,...), ( ) , 1 2 i i p x = P = x x = x x p x = p D x (1. 2) 其分布函数为 å£ = x x i i F(x) p , 而数值函数 g (x ) 的数学期望为 = å, ( ) ( ) i i Eg x g x p . 如果x 只取非负整数值 P = n = pn (x ) , 则有另一个计算公式: =å > n Ex P(x n) , å³ = > , 0 2 ( , ) n m Ex P x n m . (1. 3) (证明: 左= å³ < < , 0 { } { } ( ) n m n m E I I x x = å³ < < , 0 { } { } ( ) n m n m E I I x x =右)
连续型随机变量占的分布密度为p(x),分布函数为F(x)=[p()t,数值函数g(5) 的期望为 8()=g(x)p( 如果ξ只取非负值,则有另一个计算公式 E5= 设5是以a(0<a<1的概率取一个分布函数为F(x)=∑p的一个离散随机变量,而 以1-a的概率取另一个分布函数为F(x)=[,p()的一个连续型随机变量,那么的 分布函数就应该为F(x)=aF4(x)+(1-a)F(x),而其数值函数g(5)的数学期望为 ()=a28(x),+(I-a)8(x)p(x)dx 对一般情形的随机变量5,设其分布函数为F(x),则与的函数g()的数学期望可粗略地定义为 Stilt jes积分 Eg(s)=lim ∑g(1")F(n)-(F(")j 此极限记为「g(x)dF(x),这里{t1"}是n的一个划分.这种积分的运算规律及近似计算与普 通积分类似 如果∑5k<∞5k20),则有E∑5)=∑E 这个等式说明了求无穷和与取期望可以交换次序的条件.鉴于此公式很直观,且很有用,所以我们引述于 此.而它的证明需要用到测度论的知识,故而从略 2.方差与矩母函数 定义1.4随机变量ξ的方差定义为 ar2=E(5-E2)2=E22-(E5) 矩母函数为 M()=Ee 如果它有限,它不仅包含了一切阶矩:{E(k阶矩)}的信息,而且此时的分布也可 由矩母函数唯一地确定(如果矩母函数不是有限,则人们用“纯虚的矩母函数”,即特征 函数 p(t=ee 2
2 连续型随机变量x 的分布密度为 p( x) ,分布函数为 ò-¥ = x F(x) p(t)dt ,数值函数 g (x ) 的期望为 ò +¥ -¥ Eg(x ) = g(x)p(x)dx . 如果x 只取非负值, 则有另一个计算公式 ò ¥ = > 0 Ex P(x x)dx . 设x 是以a(0 < a < 1) 的概率取一个分布函数为 å£ = x x d i i F (x) p 的一个离散随机变量,而 以1-a 的概率取另一个分布函数为 ò-¥ = x Fc (x) p(t)dt 的一个连续型随机变量, 那么x 的 分布函数就应该为 F(x) F (x) (1 )F (x) =a d + -a c , 而其数值函数g (x ) 的数学期望为 å ò +¥ -¥ Eg = g x p + - g x p x dx i i ( ) ( ) (1 ) ( ) ( ) , x a a . 对一般情形的随机变量x ,设其分布函数为 F( x) ,则x 的函数 g (x ) 的数学期望可粗略地定义为 Stieltjes 积分 ( ) lim ( )[ ( ) ( ( )], ( ) ( ) 1 ( ) max ( ) 0 ( ) ( ) 1 n i i n i n i t t n Eg g t F t F t n i n i i = å + - - ® ®¥ + x 此极限记为 ò +¥ -¥ g(x)dF(x) , 这里{ } (n) i t 是[-n, n]的一个划分.这种积分的运算规律及近似计算与普 通积分类似. 我们有 如果å < ¥,( ³ 0) k k k x x , 则有 å = å k k E k E k ( x ) x . 这个等式说明了求无穷和与取期望可以交换次序的条件. 鉴于此公式很直观, 且很有用, 所以我们引述于 此.而它的证明需要用到测度论的知识,故而从略. 2.方差与矩母函数 定义1.4 随机变量x 的方差定义为 2 2 2 Varx = E(x - Ex ) = Ex - (Ex ) . 矩母函数为 zx M (z) = Ee , 如果它有限, 它不仅包含了一切阶矩: { k Ex (k 阶矩)} 的信息, 而且此时x 的分布也可 由矩母函数唯一地确定. (如果矩母函数不是有限, 则人们用 “纯虚的矩母函数”, 即特征 函数 x j it (t) = Ee
来代替它) 1.3d-维随机向量 d维随机向量弓的分布函数为F(x)=P≤x),这里= 5≤x是指 51≤x1,5d≤x,而数学期望和方差阵分别为 Cov, n) (5n)的协方差为Cov(,n)=Em)-E1,相关系数为Pa-ar5 Tvar n 的矩母函数定义为 M(=)=Ee 其中z=(=1,-2),而()表示转置 的特征函数定义为 p(= ee 其中t=(12…,t4) 离散随机向量ξ的概率函数(概率分布)为 P(x)=P(=x),(x=x1,x2) 设连续型随机向量5的密度为p(x),则其分布函数为F(x)=p(n)dt。同样有 egt g(x)p(x)dx 1.4独立性 定义1.5随机变量组{15n}称为独立,如果 P(1≤x1…5n≤xn)=P(1≤x1)…P(5n≤xn) 随机变量组{515n}独立分M(2)=M1(=1)…Mn(n)(其中M(=;)是51的矩母函数 分0()=1(1)…9n(n)(其中φ,O,)是5的特征函数)
3 来代替它). 1.3 d-维随机向量 d 维随机向量x 的分布函数为 F(x) = P(x £ x) ,这里 ÷ ÷ ÷ ø ö ç ç ç è æ = d x x x M 1 , x £ x 是指 d d x £ x ,...,x £ x 1 1 , 而数学期望和方差阵分别为 Ex ÷ ÷ ÷ ø ö ç ç ç è æ = E d E x x M 1 , S = Cov i j i, j £d ( (x ,x ) x . (x,h) 的协方差为 Cov(x,h) = E(xh) - ExEh , 相关系数为 x h x h rxh var ( , ) Var Cov = . x 的矩母函数定义为 x T z M (z) = Ee , (1. 4) 其中 ( ,..., ) 1 d T z = z z ,而 T ( ) 表示转置. x 的特征函数定义为 x F T it (t) = Ee . (1. 5) 其中 ( ,..., ) 1 d T t = t t 离散随机向量x 的概率函数(概率分布)为 ( ) ( ), ( , ,...) 1 2 p x = P x = x x = x x D . 设连续型随机向量 x 的密度为 p(x), 则其分布函数为 ò-¥ = x F(x) p(t)dt 。同样有 ò Eg(x ) = g(x) p(x)d x . 1.4 独立性 定义1.5 随机变量组{ ,..., } 1 n x x 称为独立, 如果 ( ,. , ) ( ) ( ) 1 1 n n 1 1 n n P x £ x L x £ x = P x £ x LP x £ x . 随机变量组{ ,... } 1 n x x 独立 ( ) ( ) ( ) 1 1 n n Û M z = M z LM z (其中 ( ) i i M z 是 i x 的矩母函数 ( ) ( ) ( ) Û j l = j1 l1 Ljn l n (其中 ( ) ji l i 是 i x 的特征函数)
随机变量组{15n…}称为独立,如果对任意n,{51 都是独立的 两个随机向量,n称为独立,如果VA,B→5∈A与∈B都独立,这等价于 W g= Elf(g(= ef(eg(n 设随机变量ξη独立且分别具有密度∫(x),g(x),则其和ξ+n具有密度(称为f,g的 卷积) (*g)(x)= f(r-u)g(u)du=(g*f)(x) 特别地,如果在x<0时f(x)=g(x)=0,则上面的∫*g(或g*∫的积分表示化为 (*g(x)=lf(x-u)g(u)du (1.8) 1,5 Chebyshev不等式 设占为随机变量,amr5为其方差,则有 Chebyshev不等式P(5-B)s Chebysherⅴ不等式给出了用方差来估计随机变量与它的数学期望的偏差超过某个值的概 率的上界.它的优点是不依赖随机变量的分布.但是正因为如此,它就很粗糙.例如,如果 已知ξ服从正态分布,即ξ~N(μ,a2),那么下面的上界估计就更为精确 P(5-E50)=2(1-Φ(2) 其中(x)==ed是标准正态分布N(0.)的分布函数 1,6基本极限与基本极限定理(大数定律与中心极限定理) 定义1·6如果随机变量序列ξ与随机变量ξ间满足 VE>0→P(5n-5E)->0 则称随机变量序列ξn依概率收敛到随机变量ξ,记为5n—>5·此定义的含义为,如果 忽略一个小的概率E,那么5n可以近似5 又若对于任意的分量i≤d都有5→>E,则称为 5(其中 5=(51…5),5=(51…d) 对于连续函数f(x),我们有 5P>5→f()-P>f(5)
4 随机变量组{ ,... } x1 xn L 称为独立, 如果对任意 n, { ,..., } 1 n x x 都是独立的. 两个随机向量x ,h 称为独立, 如果 "A, B Þx Î A与h Î B 都独立, 这等价于 "f , g Þ E[ f (x )g(h)] = Ef (x )Eg(h). (1. 6) 设随机变量x ,h 独立且分别具有密度 f (x), g( x) , 则其和x +h 具有密度(称为 f , g 的 卷积) ò * = - = * D ( f g)(x) f (x u)g(u)du (g f )(x) . (1. 7) 特别地,如果在x < 0时 f (x) = g( x) = 0 , 则上面的 f * g (或 g * f 的积分表示化为 ò * = - D x f g x f x u g u du 0 ( )( ) ( ) ( ) . (1. 8) 1,5 Chebyshev 不等式 设x 为随机变量,Varx 为其方差,则有 Chebyshev 不等式 2 (| | ) d x x x d Var P - E ³ £ . Chebyshev 不等式给出了用方差来估计随机变量与它的数学期望的偏差超过某个值的概 率的上界. 它的优点是不依赖随机变量的分布. 但是正因为如此, 它就很粗糙. 例如, 如果 已知x 服从正态分布,即 ~ ( , ) 2 x N m s , 那么下面的上界估计就更为精确: (| | ) 2(1 ( )) 2 s d P x - Ex ³ d = - F , 其中 ò-¥ - F = x z x e dz 2 2 1 2 1 ( ) p 是标准正态分布 N(0,1) 的分布函数. 1, 6 基本极限与基本极限定理(大数定律与中心极限定理) 定义1.6 如果随机变量序列 n x 与随机变量x 间满足 " > 0 Þ (| - |³ ) ¾ ¾®0 n®¥ P n e x x e , (1. 9) 则称随机变量序列 n x 依概率收敛到随机变量x , 记为x ¾®x p n . 此定义的含义为, 如果 忽略一个小的概率e , 那么 n x 可以近似x . 又若 对于任意的分量i £ d 都有 i n p i x ¾®x ( ) , 则称为x ¾®x p (n) (其中 ( , , ) ( ) ( ) 1 ( ) n d n n x = x L x , ( , , ) 1 d x = x L x . 对于连续函数 f (x), 我们有 ( ) ( ) ( ) ( ) x x f x f x p n p n ¾® Þ ¾® . (1. 10)
概率论中最重要的定理之一,就是大数定律,它断定:若ξn为独立同分布的随机变量 序列,且EEn=4(n=1,2,…),则 注若ξn为非负的独立同分布的随机变量序列,而EEn=+∞(n=1,2,),则 →+∞,意即 vC>0→P(n≤C)-”>0 此结论可视为大数定律的推广 定义1.7如果随机变量序列ξ与随机变量ξ之间满足 E|5n-52 (1.11) 则称随机变量序列n均方收敛到随机变量ξ,记为5n一2→5 由 Chebysherⅴ不等式立刻可以得到均方收敛一定能推出依概率收敛 定义1.8如果随机变量序列ηn与随机变量η之间满足P(ηn-”-→>η)=1,即 7n→>n”是一个概率为1的事件,则称随机变量序列nn概率为1收敛到随机变量n,记 为nn—《>n.这里ae.是 almost everywhere的缩写 概率为1收敛一定可以推出概率收敛 (这个事实的证明需要用到一点测度论或实变函数的知识.其证明如下:事件{n→>n就是“任 给一>0,必存在n0只要n≥n0,就有|n-nk亠”.把它写成式子,就是 ∩∪∩n→nk}.故由P(n n)=1推出 m n =l eno P(U∩n→nk1)≥∩U∩an→nk2)=1 由此即能推出 lim P(nn-nk-)=1) 若随机变量序列E,独立同分布且期望有限,则5++5“E(m→),此结论 称为强大数定律 这个定理在非数学专业的概率论课程中,一般较少论及,主要因为”随机变量列的收
5 概率论中最重要的定理之一,就是大数定律, 它断定: 若 n x 为独立同分布的随机变量 序列, 且 Exn = m (n = 1,2,L) , 则 m x x ¾® + + n p n 1 L . 注 若 n x 为 非负的独 立同分布的随机变量序列 , 而 E = +¥(n = 1,2,L) n x , 则 ¾®+¥ + + n p n x L x 1 , 意即 " > 0 Þ (x £ ) ¾ ¾®0 n®¥ C P n C . 此结论可视为大数定律的推广. 定义1.7 如果随机变量序列 n x 与随机变量x 之间满足 | | 0 E x n - x 2® , (1. 11) 则称随机变量序列 n x 均方收敛到随机变量x , 记为x ¾¾®x 2 L n . 由 Chebyshev 不等式立刻可以得到均方收敛一定能推出依概率收敛. 定义1.8 如果随机变量序列hn与随机变量h 之间满足 ( ¾ ¾® ) = 1 ®¥ h h n P n , 即 “hn ®h ” 是一个概率为 1 的事件, 则称随机变量序列hn概率为1收敛到随机变量h ,记 为 h ¾¾®h a .e. n . 这里 a.e. 是 almost everywhere 的缩写. 概率为 1 收敛一定可以推出概率收敛 (这个事实的证明需要用到一点测度论或实变函数的知识. 其证明如下: 事件{h ®h} n 就是 “任 给 0 1 > m , 必存在 n0 只 要 n ³ n0 , 就 有 m n 1 |h -h |< ”. 把它写成式子 , 就 是 } 1 {| | 0 0 1 m n m n n n ® < ¥ = ¥ = IU I h h . 故由 ( ¾ ¾® ) = 1 ®¥ h h n P n 推出 }) 1 ( {| | 0 0 1 m P n n n n ® < ¥ = ¥ = U I h h }) 1 1 ( {| | 0 0 1 ³ ® < = ¥ = ¥ = m P n m n n n IU I h h . 由此即能推出 ) 1 1 lim ®¥ (| - |< = m n P hn h ). 若随机变量序列 n x 独立同分布且期望有限, 则 ( ) 1 . . 1 ® ® ¥ + + E n n a e n x x L x , 此结论 称为强大数定律.. 这个定理在非数学专业的概率论课程中,一般较少论及, 主要因为 ”随机变量列的收