当前位置：和泉文库 > 数学 > 浏览文档

《应用随机过程教程》教学资源（参考资料）与在算法和智能计算中的应用——第15章与数据建模有关的几个算法

文件格式：PDF，文件大小：131.2KB，售价：5.9元

文档详细内容（约20页）

419 龚光鲁, 钱敏平著应用随机过程教程 – 与在算法和智能计算中的应用清华大学出版社, 2003 第 15 章与数据建模有关的几个算法 1 EM 算法 – 隐状态变量分布中参数的最大似然估计 1. 1 EM 算法的基本想法在数据资料不全时，由已有的资料Y 估计缺失变量 X ，或在观测到的资料Y 并不是状态变量时,估计状态变量 X 时（或者估计其分布密度 f (J, x) 中的未知参数J ），就与古典统计很不相同，此时需要用观测到的资料Y ，同时估计 X 与未知参数J . 这样的估计将面临如下困难: 如果把在参数J 下的期望记为 EJ , 那么, 在估计状态变量 X 时，估值当然应该用条件期望 ( | ) ^ X = EJ X Y ( 如果在Y = y及J 的条件下, X 的 Bayes 分布密度 f (x | y,J) 为已知, 则也常用 Bayes 估计 ò X = x f (x | Y, )dx ^ J ). 然而这时就需要知道参数J 的值; 另一方面，为了知道J ，又必须先知道 X 的估值 ^ X (作为状态的已知样本值). 这样, 估计状态与估计未知参数之间是耦合的. 在统计中通常对付这类困难的解耦方法是: 假定一个已知，迭代地分别交替估计它们中的另一个, 直至稳定．此类算法通称为 EM 算法, 较为确切的表达是: (1) 设置初值 J0； (2) (E-步骤) 对n ³ 0, 令 ( | ) ^ ( ) X E X Y n n = J (或用 Bayes 估计 ò X = x f x Y dx n n ( | , ) ^ ( ) J )； (3)（M -步骤）（修正J 的估计）取Jn +1使之满足： log ( , ) log ( , ) ^ ( ) ^ ( ) 1 n n f Jn+ X = MaxJ f J X , 其中 E-步骤为取条件期望 ( Expectation ), 而 M-步骤为取最大（ Maximum ）. 这种交替迭代的方法, 称为简单的 EM 方法. 这个算法的构思很简单, 但计算量过大, 且一般很难看出是否稳定. 为了克服这个缺点, Dempster, Laird 和 Rubin 提出了直接递推估计J 的想法(仍旧称为 EM 方法), 这种经过本质改进后的方法, 至少在直观上看起来有稳定趋势. 1. 2 Rubin 算法假定(X,Y) 具有联合分布密度 f (J, x, y) Rubin 算法的核心构思为：直接使用状态变量Y 的分布密度 g(J, y) 代替(X,Y) 的分

所以,为了将9的较粗估计9,修改为较精的估计⑨n1,只需找9n1使 L(9n1)-L(9n)≥0.也就是只需要找n1使 Q(9n1|9n)-Q(9n|9n)≥0 (15.4) 于是我们就得到如下的 Dempster- Laird- Rubin的酬M算法,简称 Rub in算法或EM算法 (1)设置初值9 (2)(E步骤)对于n20,计算Q(|9,)=「g/(,xy)/(0,x1y)dx (3)(M-步骤)(修正9的估计)取⑨n+!使 Q(9m+1 9n)=Max @( 9n) (15.5) 由于将9n修正为9n时,Q(9n1|9)比Q(9n|9n)大,所以L(⑨n)是不减的,这就说明 9有收敛的趋势. Rubin证明了,在一定的条件下,9确实按概率收敛于某个9.于是我们可以合理地把9作为分布的参数9的较佳的估计注1L(9)是多峰函数的时候,9有可能是L(9)的局部最大值,甚至是鞍点,为了纠正这种不足,一般可以从多个初始值出发,找到多个9值进行比较注2所谓“缺失资料”可见之于两种情形:一种是观测资料的丢失,另一种是人为地设置一些“后台操作的”辅助随机变量,称之为潜变量,将他们视为缺失的资料,即将他们视为不能直接测量到的状态随机变量.这种潜变量的取法可以非常灵活,依赖于人们对于问题的认识,经验的积累与对于技术掌握的成熟程度.从数学处理的角度考虑,最好能选取潜变量X,使它与观测随机变量γ的联合分布是指数型分布(参见第1章),这时E-步骤就很容易计算. 注3在离散随机变量的情形,E一步骤中的积分应该相应的改为求和。以上算法也同样将隐马氏模型中的Baum- Welsh算法,纳入了EM算法的框架. 1.3EM算法的变通一广义EM算法在实际计算中,又因为E-步骤的计算量很大,人们常常并不真去计算条件期望,而是采用随机模拟.即:用在(9,})已知的条件下,用随机模拟得到X的 Bayes分布的若干独立随机数,代入log∫(φ,Ⅺ)后作样本平均,用来代替Q(φ|9n)·这就大大地减少了计算量.实践表明这样的简化,常可以得到相当满意的效果同样,也因为M步骤的计算量也很大,人们也常常并不去算最大,而是任意找一个 φ,只要满足Q(φ|9)-Q(9|9n)≥0,就取φ为⑨n1·这样简化了的算法,称为广义 421

421 所以 , 为了将 J 的较粗估计 Jn , 修改为较精的估计 Jn+1 , 只需找 Jn+1 使 L(Jn+1 ) - L(Jn ) ³ 0. 也就是只需要找Jn+1 使 Q(Jn+1 |Jn ) -Q(Jn | Jn ) ³ 0 . (15. 4) 于是我们就得到如下的 Dempster– Laird- Rubin 的 EM 算法, 简称 Rubin 算法或 EM 算法: (1) 设置初值 J0；（2）（E-步骤）对于n ³ 0, 计算 ( | ) Q j Jn f x y f x y d x X Y log ( , , ) ( , | ) | j q ò = ；（3）（M -步骤）（修正J 的估计）取Jn +1 使 ( | ) ( | ) Q Jn+1 Jn = Maxj Q j Jn . (15. 5) 由于将Jn修正为Jn+1时, ( | ) Q Jn+1 Jn 比 ( | ) Q Jn Jn 大, 所以 ( ) L Jn 是不减的, 这就说明 Jn有收敛的趋势. Rubin 证明了，在一定的条件下，Jn确实按概率收敛于某个 ^ J ．于是我们可以合理地把 ^ J 作为分布的参数J 的较佳的估计注 1 L(J) 是多峰函数的时候， ^ J 有可能是 L(J) 的局部最大值，甚至是鞍点，为了纠正这种不足，一般可以从多个初始值出发，找到多个 ^ J 值进行比较．注 2 所谓“ 缺失资料”可见之于两种情形：一种是观测资料的丢失，另一种是人为地设置一些“后台操作的”辅助随机变量，称之为潜变量，将他们视为缺失的资料，即将他们视为不能直接测量到的状态随机变量. 这种潜变量的取法可以非常灵活, 依赖于人们对于问题的认识, 经验的积累与对于技术掌握的成熟程度. 从数学处理的角度考虑, 最好能选取潜变量 X ,使它与观测随机变量Y 的联合分布是指数型分布 (参见第 1 章), 这时 E-步骤就很容易计算. 注 3 在离散随机变量的情形，E－步骤中的积分应该相应的改为求和。以上算法也同样将隐马氏模型中的 Baum-Welsh 算法, 纳入了 EM 算法的框架．１．３ EM 算法的变通 – 广义 EM 算法在实际计算中, 又因为 E-步骤的计算量很大, 人们常常并不真去计算条件期望, 而是采用随机模拟. 即: 用在( ,Y) Jn 已知的条件下, 用随机模拟得到 X 的 Bayes 分布的若干独立随机数, 代入 log f (j, X) 后作样本平均, 用来代替 ( | ) Q j Jn . 这就大大地减少了计算量. 实践表明这样的简化, 常可以得到相当满意的效果. 同样, 也因为 M-步骤的计算量也很大, 人们也常常并不去算最大, 而是任意找一个 j , 只要满足Q(j |Jn ) - Q(Jn |Jn ) ³ 0, 就取j 为 Jn+1 . 这样简化了的算法, 称为广义

EM算法,常称为GEM算法注]在应用EM方法时,为了避免M-步骤中求最大值的复杂计算,还可以采取其它的灵活的替代方法.例如有 ECM算法〔 conditional max imum,cM),在多个参数的时候,例如9=(91,92)的情形,如下的交替地求条件极值的最大化的方法,也常被用来代替M-步骤: (1)先取92满足 Q(9),92|9)=maxQ(91",92)9") (2)再取91满足 Q(9),92m)1(91",92")= maxi. o(9',92")1(9",92") 称之为ECM算法。一般地,ECM算法比M算法达到稳定的时间长另有一种ECME算法(混合算法),它就是交替地使用FCM算法和M算法 2.在数据不完全时,用增补潜在数据,对参数的 Bayes分布作估计- Tanner-Wong的潜变量法基本想法一估计后验分布在数据资料不全(缺失数据),或观测到的资料Y并不是状态变量时,估计状态变量X的分布密度 f(9,x)中的未知参数9,与古典统计不同处是只能用观测到的资料Y,这时可以通过后验分布密度 p(9|Y)得到参数9的 Bayes估计.然而,后验分布p(9|Y)一般并不知道,就需要用观测到的资料y 对后验分布p(9|y)进行估计,这就是本段的目的 Tanner-Wong的想法是:在某些情形下,由观测数据Y可以通过条件分布取样的机制,来构造某种”增补数据”(记为Z,称为潜变量, L atent Variable)的样本值.于是Z的这些样本值取自条件分布密度P(=|y,9).P(=|y)称为预测分布.而在Y=y已知的条件下,潜变量的各个样本值彼此是条件独立的潜变量Z是观测不到的,如何选好它,最为重要.最简单的情形是:观测数据Y=Y1,2…,YN 为N个时刻的历史资料,其中Y1是一个m维向量,如果它的第1个分量是缺失的,而其它m-1维就是状态变量.这时候潜变量就可取为那个缺失的一维变量然而,一般情形远非如此简单.潜变量的选取是关系到能否有效地计算的关键, Tanner-wong选取 z的原则是,同时满足以下两个条件(注意在上面所提到最简单情形,下面的条件是满足的) 422

422 EM 算法, 常称为 GEM 算法. [注] 在应用 EM 方法时, 为了避免M-步骤中求最大值的复杂计算, 还可以采取其它的灵活的替代方法．例如有 ECM 算法(Conditional Maximum, CM), 在多个参数的时候，例如 ( , ) J = J1 J2 的情形，如下的交替地求条件极值的最大化的方法，也常被用来代替 M-步骤： (1) 先取 ( 1) 2 n+ J 满足 = + (( , ' | ) ( 1) ( ) 2 ( ) 1 n n n Q J J J max (( , ' ) | ) ( ) 2 ( ) 2 ' 1 n n J Q J J J ; (2) 再取 ( 1) 1 n+ J 满足 (( , ) | ( , )) ( 1) 2 ( ) 1 ( 1) 2 ( 1) 1 n+ n+ n n + Q J J J J max (( ', )| ( , )) ( 1) 2 ( ) 1 ( 1) 1 ' 1 2 + + = n n n J Q J J J J ，称之为 ECM 算法。一般地，ECM 算法比 EM 算法达到稳定的时间长. 另有一种 ECME 算法 (混合算法)，它就是交替地使用 ECM 算法和 EM 算法． * 2. 在数据不完全时，用增补潜在数据，对参数的 Bayes 分布作估计 – Tanner–Wong 的潜变量法２．１基本想法－估计后验分布在数据资料不全（缺失数据）, 或观测到的资料 Y 并不是状态变量时, 估计状态变量 X 的分布密度 f (J, x) 中的未知参数J , 与古典统计不同处是只能用观测到的资料Y ，这时可以通过后验分布密度 p(J | Y) 得到参数J 的 Bayes 估计．然而，后验分布 p(J | Y) 一般并不知道，就需要用观测到的资料Y 对后验分布 p(J | Y) 进行估计，这就是本段的目的． Tanner – Wong 的想法是：在某些情形下，由观测数据Y 可以通过条件分布取样的机制，来构造某种＂增补数据＂ (记为 Z ，称为潜变量，Latent Variable)的样本值．于是 Z 的这些样本值取自条件分布密度 p(z | y,J) ． p(z | y) 称为预测分布．而在Y = y 已知的条件下, 潜变量的各个样本值彼此是条件独立的．潜变量 Z 是观测不到的, 如何选好它, 最为重要．最简单的情形是：观测数据Y Y Y YN , , , = 1 2 L 为 N 个时刻的历史资料，其中Yi 是一个m 维向量，如果它的第１个分量是缺失的，而其它m -1维就是状态变量．这时候潜变量就可取为那个缺失的一维变量．然而，一般情形远非如此简单．潜变量的选取是关系到能否有效地计算的关键． Tanner-Wong选取 Z 的原则是，同时满足以下两个条件（注意在上面所提到最简单情形，下面的条件是满足的）：

点击进入文档下载页（PDF格式）

共20页，可试读7页，点击继续阅读 ↓↓

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录