量序列{Sn}与某人提供的观测随机变量序列{On}之间的条件概率计算的关系可以直观地写 S0,O12S1 其中在前面的一段随机变量序列取定值的条件下,继后的那个随机变量取值的条件概率就完全 确定了.而且在这3个模型下分别都有 P(SnIO, S,,O S)=P(Sn+ISn)=P(S,IS,), P(OO,S,,"Om-,Sm_,On, Sm)=P(onISm)=P(O2 IS,) 于是 P(So, O, SI,.Omi,Sm-l, Om, Sm) =P(SoP(O, I So)P(, ISo)P(O,IS)-P(Om Sm-pP(Sm I_) 具体地,我们有 在模型气下(把取到的球换色) P(O1,O2,O3O42O3)=(00,00.1)141)=0.9×0.89×0.88×0.87×0.13≈0.08 在模型2下(球的内容不变),O是独立同分布的随机变量序列,且On-1 22 所以 P(O,O2O3O4O3)=0,0.0,0.1)2)=()3≈0.03 在模型λ3下(取到红则不变,取到白则换为红球) P(O,O2,O2O4,O3)=00001)123)=0.4)4×06≈0.015 再用 Bayes公式分别得到(即取上面3个概率的归一化值) P(O1,O2,O3O4O)=(0.0.0,0,1)=0.64 P(A2O,O2,O3,O4,O3)=(0001)=0.2 P(A3(O1,O2,O3,O4,O3)=(00,0,1))=0.12 可见从第一盒抽出样本(红,红,红,红,白)的概率要比从其他两盒中抽出该样本的概率要 大得多 这个模型的意义绝对不在于游戏,从中可以抽象出一种能广泛应用的数学模型一隐 Markov 模型( Hidden markov model,简记为HMM).在这个例子中的不同盒的抽取方式可以抽象 为不同的编码方式.而这个例子正启示了用隐 Markov模型作模式识别的一种粗略梗概. 2.2隐 Markov模型的描述 定义10.13设{Xnn≥l是取值于有限状态{…,D}的随机变量列,称为状态 链,X1的分布称为其初始分布,记为μ·假定Xn是时齐的 Markov链.记 au=P(n=jIX,=i), A=(ai)ijsL (10.1) 为它的转移矩阵.假定Xn的取值,初始分布μ与转移矩阵A,都不能测量得到.而能测量到 的是另一个与它有联系的,且可以观测到的一个取值于与有限集{v1,…,VM}的随机变量序 列Y,称为观测链,它们合起来还要求满足如下的隐 Markov条件(HM条件) 270
270 量序列{ }n S 与某人提供的观测随机变量序列{ } On 之间的条件概率计算的关系可以直观地写 为: S O S Om i Sm Om Sm , , , , , , 0 1 1 L - -1 , 其中在前面的一段随机变量序列取定值的条件下,继后的那个随机变量取值的条件概率就完全 确定了.而且在这3个模型下分别都有 ( | , , , ) ( | ) ( | ) 1 1 1 1 2 1 P S O S O S P S S P S S n+ L n n = n+ n = , ( | , , , , , ) ( | ) ( | ) 1 1 1 1 1 2 1 P O O S O S O S P O S P O S n+ L m-i m- m m = n+ n = . 于是 ( , , , , , , ) P S0 O1 S1 LOm-i Sm-1 Om Sm ( ) ( | ) ( | ) ( | ) ( | ) ( | ) = 0 1 0 1 0 2 1 m m-1 m m-1 P S P O S P S S P O S LP O S P S S . 具体地,我们有 在模型 l1下(把取到的球换色) (( , , , , ) (0,0,0,0,1) | ) P O1 O2 O3 O4 O5 = l1 =0.9×0.89×0.88×0.87×0.13≈0.08. 在模型 l2 下(球的内容不变), On 是独立同分布的随机变量序列,且 ÷ ÷ ø ö ç ç è æ 2 1 2 1 0 1 On ~ , 所以 (( , , , , ) (0,0,0,0,1) | ) P O1 O2 O3 O4 O5 = l2 5 ) 2 1 = ( ≈0.03. 在模型 l3 下(取到红则不变,取到白则换为红球) (( , , , , ) (0,0,0,0,1) | ) P O1 O2 O3 O4 O5 = l3 = (0.4) ´ 0.6 » 4 0.015. 再用 Bayes 公式分别得到(即取上面3 个概率的归一化值) P(l1|(O1 ,O2 ,O3 ,O4 ,O5 ) = (0,0,0,0,1)) = 0.64, P(l2|(O1 ,O2 ,O3 ,O4 ,O5 ) = (0,0,0,0,1)) = 0.24 P(l3 | (O1 ,O2 ,O3 ,O4 ,O5 ) = (0,0,0,0,1)) = 0.12. 可见从第一盒抽出样本(红,红,红,红,白)的概率要比从其他两盒中抽出该样本的概率要 大得多. 这个模型的意义绝对不在于游戏,从中可以抽象出一种能广泛应用的数学模型-隐 Markov 模型 (Hidden Markov Model, 简记为 HMM).在这个例子中的不同盒的抽取方式可以抽象 为不同的编码方式. 而这个例子正启示了用隐 Markov 模型作模式识别的一种粗略梗概. 2.2 隐 Markov 模型的描述 定义10.13 设{X : n ³1} n 是取值于有限状态{1,L,L}的随机变量列, 称为状态 链,X1 的分布称为其初始分布,记为 m .假定 Xn 是时齐的 Markov 链.记 ( | ) 1 a P X j X i ij = n+ = n = , ij i j L A a = , £ ( ) . (10. 1) 为它的转移矩阵.假定 Xn 的取值,初始分布m 与转移矩阵 A , 都不能测量得到. 而能测量到 的是另一个与它有联系的,且可以观测到的一个取值于与有限集 {n1 ,L,n M }的随机变量序 列Yn , 称为观测链, 它们合起来还要求满足如下的隐 Markov 条件(HMM 条件):
P(Y=y,X=x)=b1a42…by,a、-、b (10.2) 其中 N为样本观测的时间长度 X=(X1,…XN),Y=(H1,…,Y),y=(y1;…,yx),x=(1,…,) yn∈{1,VM},1≤in≤L,1≤n≤N,初始概率向量(初始分布)为=(μ1…,).由 未知状态链与测量到的观测链一起(X,),就构成了隐 Markov模型,这里“隐”的含义是 说状态链是隐藏起来的 隐 Markov模型的基本假定是: 参数向量μ,参数矩阵A与B=(b1)(i∈{…,},l∈,…vM})都是未知 的,我们将它们合记为参数组λ=(μ,A,B).参数组λ=(μ,A,B)完全确定了状态链与观测连 的联合统计规律,所以,我们通常用一个λ表示一个隐 Markov模型,并称之为隐 Markov模型 λ(更确切地为隐 Markov链).在例 0.12中,3个不同的模型就对应了3个不同的参数组.只要令Xn=Sn,Y=On4,它们 满足HM条件,因而纳入了隐 Markov模型的框架 (10.2)是(X,Y)的联合分布通过参数表达的形式,它是计算各种边缘概率与条件概率的 出发点.而HM条件的含义是:状态链与观测链的联合分布是由一系列简单转移与条件概率的 乘积表达的 2.3隐 Markov模型的等价表述 由例10.12的启示,可以想到下面的等价条件 命题10.14 HM条件等价于:对于任意的i∈(1,…,L}以及l∈{v1,…,vM},有 P(Yn=v|Xn=i,Yn1=ln13Xm1=v,…H1=1,X1=v1)=P(Yn=v2|Xn=1)=bn, P(Xn1=j|Xn=in=Vn,Xn1=in…,X1=1,=v1)=P(xn1=川X,=D)=an 这两个等式的证明只需利用条件概率的定义.所以我们把它留给读者.它们的直观含义就是: n与Xn1相对于历史条件的统计规律只与时间上最接近的Xn有关,而与其它更早的历史无 关.在实际问题中,这是比较容易判断的 2.4非线性滤波作为隐 Markov模型的特例 设Xn是取值于状态空间S={12…,L}的 Markov链,其样本不能被实际测量得到.而 能测量到的是如下的Y的样本 8(Xn) 其中g是一个未知函数,{n}是独立同分布的随机干扰,只取有限个值,且与随机过程 Xn}独立.那么{Xn,Hn}就是一个(二维的)隐 Markov模型.这就把(10.5)的非线 性滤波放进了HM的框架 2.5在应用中研究隐 Markov模型的主要方面 (1)从一段观测序列{k,k≤m}及已知模型λ=(μ,A,B)出发,估计Xn的最佳值, 称为解码问题.这是状态估计问题
271 i i y i i iN yN iN iN iN yN P Y y X x b a b a b 1 1 1 1 2 1 1 1 ( , ) - - - = = = m L , (10. 2) 其 中 N 为样本观测的时间长度 , 而 ( , , ) X = X1 L X N , ( , , ) Y = Y1 L YN , ( , , ) 1 N y = y L y , ( , , ) 1 N x = i L i , y n Î{n1 ,Ln M },1 £ i n £ L,1 £ n £ N , 初始概率向量(初始分布)为 ( , , ) m = m1 L mL .由 未知状态链与测量到的观测链一起( , ) Xn Yn , 就构成了隐 Markov 模型 ,这里“隐”的含义是 说状态链是隐藏起来的. 隐 Markov 模型的基本假定是: 参数向量m ,参数矩阵 A 与 il L M B b ´ D =( ) ( {1, , }, { , , } 1 M i Î L L l Î n L n )都是未知 的,我们将它们合记为参数组 l (m, A,B) D = .参数组 l (m, A,B) D = 完全确定了状态链与观测连 的联合统计规律,所以,我们通常用一个l 表示一个隐 Markov 模型,并称之为隐 Markov 模型 l (更确切地为隐 Markov 链). 在例 10.12 中,3个不同的模型就对应了3个不同的参数组.只要令 1 , n = n Yn = On + X S ,它们 满足 HMM 条件,因而纳入了隐 Markov 模型的框架. (10.2)是(X ,Y) 的联合分布通过参数表达的形式, 它是计算各种边缘概率与条件概率的 出发点. 而 HMM 条件的含义是:状态链与观测链的联合分布是由一系列简单转移与条件概率的 乘积表达的. 2.3 隐 Markov 模型的等价表述 由例10.12的启示,可以想到下面的等价条件 命题10.14 HMM 条件等价于: 对于任意的i Î (1,L, L}以及 l Î{n1 ,L,n M },有 ( | , , , , , ) ( | ) , 1 1 1 1 1 1 1 1 n l n n n n l l n l n il P Y v X i Y i X Y i X P Y v X i b n D = = = =n = =n = = = = - - - - L (10. 3) ( | , , , , , ) ( | ) 1 1 1 1 1 1 1 1 P X j X i Y X i X i Y P X j X i n+ = n = n =nln n- = n- L = =nl = n+ = n = ij a D = , (10. 4) 这两个等式的证明只需利用条件概率的定义.所以我们把它留给读者.它们的直观含义就是: Yn 与 Xn+1 相对于历史条件的统计规律只与时间上最接近的 Xn 有关, 而与其它更早的历史无 关.在实际问题中, 这是比较容易判断的. 2.4 非线性滤波作为隐 Markov 模型的特例 设 Xn 是取值于状态空间S = {1,2,L, L} 的 Markov 链,其样本不能被实际测量得到.而 能测量到的是如下的Yn 的样本 n X n wn Y = g( ) + , (10. 5) 其中 g 是一个未知函数,{ } wn 是独立同分布的随机干扰, 只取有限个值, 且与随机过程 { } X n 独立.那么 { , } X n Yn 就是一个(二维的)隐 Markov 模型.这就把(10.5)的非线 性滤波放进了 HMM 的框架. 2. 5 在应用中研究隐 Markov 模型的主要方面 (1) 从一段观测序列{Y , k m} k £ 及已知模型l = (m, A,B) 出发, 估计 X n 的最佳值, 称为解码问题. 这是状态估计问题