内容安排 介绍贝叶斯理论 定义极大似然假设和极大后验概率假设 将此概率框架应用于分析前面章节的相关问题 和学习算法 介绍几种直接操作概率的学习算法 贝叶斯最优分类器 Gibbs算法 朴素贝叶斯分类器 ·讨论贝叶斯信念网,这是存在未知变量时被广 泛使用的学习算法 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-贝叶斯学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 6 内容安排 • 介绍贝叶斯理论 • 定义极大似然假设和极大后验概率假设 • 将此概率框架应用于分析前面章节的相关问题 和学习算法 • 介绍几种直接操作概率的学习算法 – 贝叶斯最优分类器 – Gibbs算法 – 朴素贝叶斯分类器 • 讨论贝叶斯信念网,这是存在未知变量时被广 泛使用的学习算法
贝叶斯法则 ·机器学习的任务:在给定训练数据D时,确定 假设空间H中的最佳假设 最佳假设:一种方法是把它定义为在给定数据 D以及H中不同假设的先验概率的有关知识下 的最可能假设 贝叶斯理论提供了一种计算假设概率的方法, 基于假设的先验概率、给定假设下观察到不同 数据的概率以及观察到的数据本身 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-贝叶斯学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 7 贝叶斯法则 • 机器学习的任务:在给定训练数据D时,确定 假设空间H中的最佳假设。 • 最佳假设:一种方法是把它定义为在给定数据 D以及H中不同假设的先验概率的有关知识下 的最可能假设 • 贝叶斯理论提供了一种计算假设概率的方法, 基于假设的先验概率、给定假设下观察到不同 数据的概率以及观察到的数据本身
先验概率和后验概率 用P(h)表示在没有训练数据前假设h拥有的初始 概率。P(h)被称为h的先验概率, 先验概率反映了关于h是一正确假设的机会的 背景知识 如果没有这一先验知识,可以简单地将每一候 选假设赋予相同的先验概率 类似地,P(D)表示训练数据D的先验概率, PDh)表示偎设h成立时D的概率 机器学习中,我们关心的是P(hD),即给定D时 h的成立的概率,称为h的后验概率 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-贝叶斯学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 8 先验概率和后验概率 • 用P(h)表示在没有训练数据前假设h拥有的初始 概率。P(h)被称为h的先验概率。 • 先验概率反映了关于h是一正确假设的机会的 背景知识 • 如果没有这一先验知识,可以简单地将每一候 选假设赋予相同的先验概率 • 类似地,P(D)表示训练数据D的先验概率, P(D|h)表示假设h成立时D的概率 • 机器学习中,我们关心的是P(h|D),即给定D时 h的成立的概率,称为h的后验概率
贝叶斯公式 贝叶斯公式提供了从先验概率Ph)、P(D) 和P(Dh)计算后验概率P(hD)的方法 P(hID- P(DIh)P(h) P(D) P(hD随着P(h)和P(Dh)的增长而增长, 随着P(D)的增长而减少,即如果D独立于 h时被观察到的可能性越大,那么D对h的 支持度越小 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-贝叶斯学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 9 贝叶斯公式 • 贝叶斯公式提供了从先验概率P(h)、P(D) 和P(D|h)计算后验概率P(h|D)的方法 • P(h|D)随着P(h)和P(D|h)的增长而增长, 随着P(D)的增长而减少,即如果D独立于 h时被观察到的可能性越大,那么D对h的 支持度越小 ( ) ( | ) ( ) ( | ) P D P D h P h P h D =
极大后验假设 学习器在候选假设集合H中寻找给定数据 D时可能性最大的假设h,h被称为极大后 验假设(MAP 确定MAP的方法是用贝叶斯公式计算每 个候选假设的后验概率,计算式如下 hMp =arg max P(h D)=arg mar (d)P(h)=arg max P(D h)P(h) P(D 最后一步,去掉了P(D),因为它是不依 赖于h的常量 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-贝叶斯学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 10 极大后验假设 • 学习器在候选假设集合H中寻找给定数据 D时可能性最大的假设h,h被称为极大后 验假设(MAP) • 确定MAP的方法是用贝叶斯公式计算每 个候选假设的后验概率,计算式如下 最后一步,去掉了P(D),因为它是不依 赖于h的常量 arg max ( | ) ( ) ( ) ( | ) ( ) arg max ( | ) arg max P D h P h P D P D h P h h P h D h H h H h H MAP = = =