当前位置：和泉文库 > 信息系统 > 浏览文档

中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）数据挖掘经典算法概述

文件格式：PDF，文件大小：3.85MB，售价：23.52元

文档详细内容（约120页）

信息检索与数据挖掘 2019/5/516 EM算法：迭代逼近最优解过程分析 p(X;θ)=∑zp(X,Z;)←从联合概率计算边缘概率 p0=∑9 p(,Z;0) ←q(Z)=p(Z1X;),构造的先验分布 q(Z) p(X,Z ;0) q(Z) -Jensen's inequality logp(X:0)≥∑92；6r1og (x,Z;0) q(2;0t) 1ogpX;)≥∑n(2Ix;0)1og (X,Z;0) (ZX;0) wx,6=∑ax:6ew的时 p(x,z;0)p(Zx;0) gw:≥∑a6的+∑t09 logp(XI0)≥c(q,0)+KL(q‖p)

信息检索与数据挖掘 2019/5/5 16 𝑝 𝑋 ; 𝜃 = σ𝑍 𝑝 𝑋, 𝑍 ; 𝜃 ←从联合概率计算边缘概率 𝑝(𝑋 ; 𝜃) = ෍ 𝑍 𝑞 𝑍 𝑝 𝑋, 𝑍 ; 𝜃 𝑞(𝑍) , ← 𝑞 𝑍 = 𝑝(𝑍|𝑋 ; 𝜃෠𝑡 )，构造的先验分布 log 𝑝(𝑋 ; 𝜃) = log෍ 𝑍 𝑞 𝑍 𝑝 𝑋, 𝑍 ; 𝜃 𝑞(𝑍) ≥ ෍ 𝑍 𝑞 𝑍 log 𝑝 𝑋, 𝑍 ; 𝜃 𝑞 𝑍 ← 𝐽𝑒𝑛𝑠𝑒𝑛 ′ 𝑠 𝑖𝑛𝑒𝑞𝑢𝑎𝑙𝑖𝑡𝑦 log 𝑝(𝑋 ; 𝜃) ≥ ෍ 𝑍 𝑞 𝑍 ; 𝜃መ 𝑡 log 𝑝 𝑋, 𝑍 ; 𝜃መ 𝑡 𝑞 𝑍; 𝜃መ 𝑡 log 𝑝(𝑋 ; 𝜃) ≥ ෍ 𝑍 𝑝 𝑍|𝑋 ; 𝜃መ 𝑡 log 𝑝 𝑋, 𝑍 ; 𝜃መ 𝑡 𝑝 𝑍|𝑋 ; 𝜃መ 𝑡 log 𝑝(𝑋 ; 𝜃) ≥ ෍ 𝑍 𝑝 𝑍|𝑋 ; 𝜃መ 𝑡 log 𝑝 𝑋, 𝑍 ; 𝜃መ 𝑡 𝑝 𝑍|𝑋 ; 𝜃መ ∗ 𝑝 𝑍|𝑋 ; 𝜃መ ∗ 𝑝 𝑍|𝑋 ; 𝜃መ 𝑡 log 𝑝(𝑋 ; 𝜃) ≥ ෍ 𝑍 𝑝 𝑍|𝑋 ; 𝜃መ 𝑡 log 𝑝 𝑋, 𝑍 ; 𝜃መ 𝑡 𝑝 𝑍|𝑋 ; 𝜃መ ∗ + ෍ 𝑍 𝑝 𝑍|𝑋 ; 𝜃መ 𝑡 log 𝑝 𝑍|𝑋 ; 𝜃መ ∗ 𝑝 𝑍|𝑋 ; 𝜃መ 𝑡 → 𝒍𝒐𝒈𝒑 𝑿 𝜽 ≥ 𝓛 𝒒, 𝜽 + 𝑲𝑳(𝒒 ∥ 𝒑) EM算法：迭代逼近最优解过程分析

信息检索与数据挖掘 2019/5/517 EM算法：迭代逼近最优解过程示意 logp(Xl0)=L(q,0)+KL(q ll p) Expectation:参数0=t固定，使KL(q‖p)最小化，即更新后验概率p(ZIX;) Maximization:使C(g,0)最大化，即更新参数t+1=0t new log likelihood Inp(y8(1)) KL )(xy()) E step makes the new lower bound lower bound tight F(Q),0()) log likelihood In p(ye(t)) Inp(y (t)) (f).o(t)) KL [K)p(x1y.0())]=0 KL [)p(xy() ow台bound LF(),()) “=5三15 E step M step 关于EM算法的九层境界的浅薄介绍http://www.elecfans.com/d/604076.html

信息检索与数据挖掘 2019/5/5 17 EM算法：迭代逼近最优解过程示意 log 𝑝 𝑋 𝜃 ≥ ℒ 𝑞, 𝜃 + 𝐾𝐿 𝑞 ∥ 𝑝 Expectation：参数𝜃 = 𝜃መ 𝑡固定，使𝐾𝐿 𝑞 ∥ 𝑝 最小化，即更新后验概率𝑝 𝑍|𝑋 ; 𝜃መ 𝑡 Maximization：使ℒ 𝑞, 𝜃 最大化，即更新参数𝜃መ 𝑡+1=𝜃መ 𝑡 关于EM算法的九层境界的浅薄介绍 http://www.elecfans.com/d/604076.html

信息检索与数据挖掘 2019/5/519 K-means?算法是一种Hard EM算法 RSS=RSS ，RSS=∑|元-（ω）月 k=1 x∈Ok 拟聚类文档随机选择两个种子(K=2) 分配（第1次） 222 22 1 1 分配结果重新计算质心向量再重新分配（第2次）

信息检索与数据挖掘 2019/5/5 19 K-means算法是一种Hard EM算法分配结果重新计算质心向量再重新分配(第2次) 拟聚类文档随机选择两个种子(K=2) 分配(第1次)

信息检索与数据挖掘 2019/5/520 K-neans算法是一种Hard EM2算法 X=(x1,X2,…,xN),X为第i个文档 Z=(Z1,Z2,…,zN),2E{ω1，ω2，…，ωK}Z为隐变量，代表文档x所属的类参数0=(O1,02,,0K)∈{u(ω1)4（ω2），…，4（ωK)}，代表类的质心 w:o=oz,09n202 3q(Z,0) gminxi0 Expectation:q(z;)=p(zX;)= →P(Z=zlX=x;0) p(x,z;6t)= 四pK=2=:的 Maximization: 上述形式化韬述受如下文献的启发导出，与该文并不相同，仅供参考关于EM算法的九层境界的浅薄介绍http.ww.elecfans.com/d/604076.html

信息检索与数据挖掘 2019/5/5 20 K-means算法是一种Hard EM算法 𝑥 = 𝑥1, 𝑥2, … , 𝑥𝑁 , xi为第i个文档 𝑧 = 𝑧1, 𝑧2, … , 𝑧𝑁 , 𝑧𝑖 ∈ {𝜔1, 𝜔2, … , 𝜔𝐾} zi为隐变量，代表文档xi所属的类参数𝜃 = (𝜃1, 𝜃2, … , 𝜃𝐾) ∈ {𝜇(𝜔1), 𝜇(𝜔2), … , 𝜇(𝜔𝐾)} ，代表类的质心 ℒ(𝑋 ; 𝜃) = ෍ 𝑍 𝑞 𝑍 ; 𝜃መ 𝑡 log 𝑝 𝑋, 𝑍 ; 𝜃መ 𝑡 𝑞 𝑍; 𝜃መ 𝑡 Expectation：𝑞 𝑍 ; 𝜃መ 𝑡 = 𝑝(𝑍|𝑋 ; 𝜃መ 𝑡 ) argmin 𝑗 𝑥𝑖−𝜃෡ 𝑗 𝑡 𝑃(𝑍 = 𝑧𝑗 |𝑋 = 𝑥𝑖 ; 𝜃መ 𝑡 ) 𝑝 𝑋, 𝑍 ; 𝜃መ 𝑡 argmin 𝑗 𝑥𝑖−𝜃෡ 𝑗 𝑡 𝑃 𝑋 = 𝑥𝑖 , 𝑍 = 𝑧𝑗 ; 𝜃መ 𝑡 Maximization：𝜃መ 𝑗 𝑡+1 = 1 |𝜔𝑗 | σ𝑧𝑖∈𝜔𝑗 𝑥𝑖 上述形式化描述受如下文献的启发导出，与该文并不相同，仅供参考关于EM算法的九层境界的浅薄介绍 http://www.elecfans.com/d/604076.html

信息检索与数据挖掘 1 01r*2 小结：EM log P(x;0) (Expectation Maximization) 0*1 80 ·参数估计的两种情形 ·完全信息下的MLE估计 ·不完全信息下的参数估计 9: ·EM算法是一种解决存在隐含变量优化问题的方法 ·E-Step:根据已经估计的参数计算隐藏变量的后验概率 ( 即根据参数计算似然函数的期望) ·M-Step:根据已经计算的后验概率更新参数（选择参数使似然最大化) •特点 KL(qllp) 。通过不断构造下界逐步向最优逼近 ·K-means2算法是一种Hard EM.算法 c(q,8) Inp(X 0) ·估计参数的初值影响到是否落入局部最优点 C.B.Do and S.Batzoglou,"What is the expectation maximization algorithm?,"Nature Biotechnology,vol.26,p.897,08/01/online 2008. 关于EM算法的九层境界的浅薄介绍http:wwMw.elecfans.com/d/604076.html

信息检索与数据挖掘 2019/5/5 21 小结：EM (Expectation Maximization) • 参数估计的两种情形 • 完全信息下的MLE估计 • 不完全信息下的参数估计 • EM算法是一种解决存在隐含变量优化问题的方法 • E-Step：根据已经估计的参数计算隐藏变量的后验概率（即根据参数计算似然函数的期望） • M-Step：根据已经计算的后验概率更新参数（选择参数使似然最大化） • 特点 • 通过不断构造下界逐步向最优逼近 • K-means算法是一种Hard EM算法 • 估计参数的初值影响到是否落入局部最优点 C. B. Do and S. Batzoglou, "What is the expectation maximization algorithm?," Nature Biotechnology, vol. 26, p. 897, 08/01/online 2008. 关于EM算法的九层境界的浅薄介绍 http://www.elecfans.com/d/604076.html

点击进入文档下载页（PDF格式）

共120页，可试读30页，点击继续阅读 ↓↓

您可能感兴趣的文档

中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）图像分类的算法思想
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第11章文本聚类
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）概率图及主题模型 Probabilistic Graphical Models Topic Model
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（支持向量机及机器学习方法）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（基于向量空间的文本分类）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（文本分类及朴素贝叶斯方法）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）矩阵分解在信息检索中的应用
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）课程要求（论文阅读&研讨）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第9章基于语言建模的检索模型
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第8章概率模型
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第7章相关反馈和查询扩展
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第6章检索的评价
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第12章 Web搜索
长沙医学院：信息工程学院课程简介
南京大学：《信息与计算科学导论》课程教学资源（课件讲稿）集合与关系 Sets-and-Relations
南京大学：《信息与计算科学导论》课程教学资源（课件讲稿）递归算法与递归方程 Recursive Algorithm and Recurrence Relations
《管理信息系统》课程教学资源（书籍教材）第2章管理信息系统的技术基础
国家中医药管理局：中医医院信息系统基本功能规范（修订，征求意见稿，2019年3月）
北京中医药大学：《数据科学导论》课程教学资源（PPT课件）第1章绪论 Introduction to Data Science（主讲：韩爱庆）
北京中医药大学：《数据科学导论》课程教学资源（PPT课件）第2章计算机基础
北京中医药大学：《数据科学导论》课程教学资源（PPT课件）第3章计算机网络
北京中医药大学：《数据科学导论》课程教学资源（PPT课件）第4章数据科学理论基础
北京中医药大学：《数据科学导论》课程教学资源（课件讲稿）大数据与卫生管理（主讲：李瑞锋）
北京中医药大学：《数据科学导论》课程教学资源（PPT课件）大数据概述（主讲：唐燕）

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录