最大似然估计 完成ML估计后,概率密度函数p(x|o,8完全已知 ,即其参数的形式和值都已知 ·类α的后验概率可由贝叶斯公式计算 P(o/x)p(x|0, 0, )P(o) p(x|01,e)P(a) 基于后验概率可做出贝叶斯决策 显式表示数据集D在参数估计中的作用: P(GIx, D-1)=C p(x|0,D)P(0) p(x|0,D)P(0)
最大似然估计 • 完成ML估计后,概率密度函数 完全已知 ,即其参数的形式和值都已知 • 类 的后验概率可由贝叶斯公式计算 基于后验概率可做出贝叶斯决策 • 显式表示数据集 在参数估计中的作用:
似然函数和对数似然数 给定数据集D,定义似然函数L()为: L(6)≡p(D|)=p(xk|6) k=1 L(θ)也可写为L(θ;D),以强调其依赖于数据集D 对数似然函数0) A0)=log p(D 0)=log L(0)=>log p(xk 1 8) 对数似然函数的计算常常较似然函数更为简单 ·最大似然估计 BML =arg max p(D 8)=arg max L(e)=arg max A8) e log(x)是单调递增函数
似然函数和对数似然函数 • 给定数据集D,定义似然函数 为: 也可写为 ,以强调其依赖于数据集D • 对数似然函数 对数似然函数的计算常常较似然函数更为简单 • 最大似然估计 log(x)是单调递增函数
最大化问题 ML估计的解通过最大化似然函数或对数似然函数 实现 P(DB) 1.2X10 0.8×10 0.4xl0 2 l(0 20 -40 80 -100
最大化问题 • ML估计的解通过最大化似然函数或对数似然函数 实现
最大化问题 记θ表示p维参数向量(1灬,V表示梯度算子 61 全局最大值的必要条件(似然方程) 06 0或veL=0=(0,,0) 等价的(对数似然方程) Blog=0=(0,…,0) ·似然方程或对数似然方程的解并不是获得全局最大值的充 分条件 ·可能为: gradient =0 全局最大最小、局部最大/最小、拐点 极值
最大化问题 • 记 表示p维参数向量 , 表示梯度算子 • 全局最大值的必要条件(似然方程) 或 等价的(对数似然方程) • 似然方程或对数似然方程的解并不是获得全局最大值的充 分条件 • 可能为: 全局最大/最小、局部最大/最小、拐点 极值
ML估计-高斯情况:μ未知 p(x)N①pE) μ在x下的对数似然 log p(xk I H)=-1 log [(2r)dz-1(xx-Hytz1(xK ·对数似然方程 gp(xk1p)=∑xx-p)=0 μ的ML估计 pML 数据集D的样本均值
ML估计-高斯情况: 未知 • • 在 下的对数似然 • 对数似然方程 • 的ML估计 μ 数据集D的样本均值