贝叶斯决策中的参数估计 解决方案 ·假设类条件概率密度为某种含参数的概率密度分布函数 ,通过训练数据来估计该函数中未知的参数 ·将参数估计后的概率密度函数作为类条件概率密度,利 用贝叶斯决策进行分类 ·有监督学习 ·训练集中每个样本的真实类别已知
贝叶斯决策中的参数估计 • 解决方案 • 假设类条件概率密度为某种含参数的概率密度分布函数 ,通过训练数据来估计该函数中未知的参数 • 将参数估计后的概率密度函数作为类条件概率密度,利 用贝叶斯决策进行分类 • 有监督学习 • 训练集中每个样本的真实类别已知
参数估计方法 ·最大似然估计(ML估计) ·假设 将待估计的参数看作确定的量,只是值未知 ·估计方式 将使得产生训练样本的概率最大的参数值作为这些参数的最佳估计 贝叶斯估计(贝叶斯学习) ·假设 将待估计的参数看作符合某种先验概率分布的随机变量 ·估计方式 ·通过观察样本,将先验概率密度通过贝叶斯规则转化为后验概率密度
参数估计方法 • 最大似然估计(ML估计) • 假设 • 将待估计的参数看作确定的量,只是值未知 • 估计方式 • 将使得产生训练样本的概率最大的参数值作为这些参数的最佳估计 • 贝叶斯估计(贝叶斯学习) • 假设 • 将待估计的参数看作符合某种先验概率分布的随机变量 • 估计方式 • 通过观察样本,将先验概率密度通过贝叶斯规则转化为后验概率密度
参数估计方法 ML估计与贝叶斯估计的关系 ·ML估计通常比贝叶斯估计简单 ·ML估计给出参数的值,而贝叶斯估计给出所有可能的 参数值的分布 ·当可用数据很多以至于减轻了先验知识的作用时,贝叶 斯估计可以退化为ML估计
参数估计方法 • ML估计与贝叶斯估计的关系 • ML估计通常比贝叶斯估计简单 • ML估计给出参数的值,而贝叶斯估计给出所有可能的 参数值的分布 • 当可用数据很多以至于减轻了先验知识的作用时,贝叶 斯估计可以退化为ML估计
最大似然估计 给定c个类:o1,2,…2 ·假设所有的类条件概率密度函数p(x|o),i=1…,C都具有已知的 参数化形式 假设每个参数向量1对它所属的类别起的作用都是相互独立的 例如:p(xX|0,0)~NμΣ)whee1=(μΣ) ·给定c个数据集(每个数据集对应一个类别):D,D2,…D 每个数据集D中的样本为独立同分布( independent and identically distributed,缩写为id.)的随机变量,这些随机变量 均从某个概率密度函数pXωθ)独立抽取 由于不同类的参数相互独立,D1无法为,≠的估计提供任何信 ·因此,可以对每个类别分别估计参数,类别下标可以省略 p(X|,6)p(X|0)D→D
最大似然估计 • 给定c个类: • 假设所有的类条件概率密度函数 都具有已知的 参数化形式 • 假设每个参数向量 对它所属的类别起的作用都是相互独立的 • 例如: • 给定c个数据集(每个数据集对应一个类别): • 每个数据集 中的样本为独立同分布(independent and identically distributed,缩写为i.i.d.)的随机变量,这些随机变量 均从某个概率密度函数 独立抽取 • 由于不同类的参数相互独立, 无法为 , 的估计提供任何信 息 • 因此,可以对每个类别分别估计参数,类别下标可以省略
最大似然估计 6相对于数据集D={x,x,…,x}的似然函数 (D|) p(xk a) k=1 对e的ML估计即使得似然函数p(D|6)最大的值en OML=arg max p(D 8) 直观上讲,θM是使得观察到D中样本的可能性最大化的值 p(x|6) ML estimation
最大似然估计 • 相对于数据集 的似然函数 • 对 的ML估计即使得似然函数 最大的值 直观上讲, 是使得观察到D中样本的可能性最大化的值