设x1,x2,,xw是从概率密度函数P(x;)中抽取的样本, X={x1,2,,xw},假定样本之间具有统计独立性,则 p(X9)=p(x1,x2,,xw;0)=Π=p(xk;) 是关于0的似然函数。用最大似然法估计参数9: 0Mu=arg maxΠ1p(xk;). 即使得 ∂I=1p(xk; 2=0 08 5/56
设 x1, x2, ..., xN 是从概率密度函数 P(x; θ) 中抽取的样本, X = {x1, x2, ..., xN} ,假定样本之间具有统计独立性,则: p(X; θ) = p(x1, x2, ..., xN; θ) = ΠN k=1p(xk ; θ) 是关于 θ 的似然函数。用最大似然法估计参数 θ: ˆθML = arg max θ Π N k=1 p(xk ; θ). 即使得 ∂ΠN k=1 p(xk ; θ) ∂θ = 0 5 / 56
利用对数函数的单调性,定义对数似然函数为: L(e)=lnΠ1p(xk;) 则上式等价于: OIIp(xx:0) aL( 2= 1 p(xx;0) 00 :) 00 以上解可能为全局或局部的最大或最小,或者是鞍部,有 时需要进一步确认。 6/56
利用对数函数的单调性,定义对数似然函数为: L(θ) = ln Π N k=1p(xk ; θ) 则上式等价于: ∂ΠN k=1p(xk ; θ) ∂θ = 0 ⇔ ∂L(θ) ∂θ = X N k=1 1 p(xk ; θ) ∂p(xk ; θ) ∂θ = 0 以上解可能为全局或局部的最大或最小,或者是鞍部,有 时需要进一步确认。 6 / 56
8.2.1.例1 例1:假设均值μ和方差σ2未知的一维高斯概率密度函数, 生成N个样本点x1,x2,,w,求出均值,方差的最大似然 估计。 对数似然函数定义为: 的=nae的=n2am(吗 或: u=-2-2aa- 7/56
8.2.1. 例 1 例 1:假设均值 µ 和方差 σ 2 未知的一维高斯概率密度函数, 生成 N 个样本点 x1, x2, ..., xN,求出均值,方差的最大似然 估计。 对数似然函数定义为: L(µ, σ2 ) = lnY N k=1 p(xk ; µ, σ2 ) = lnY N k=1 1 √ 2π √ σ 2 exp(− (xk − µ) 2 2σ 2 ) 或: L(µ, σ2 ) = − N 2 ln(2πσ2 ) − 1 2σ 2 X N k=1 (xk − µ) 2 7 / 56
)对“求导,并令导数为0,可得:立=官 (2)对σ2求导,可得解: N 0+-=0 可以得到: 品-∑- 8/56
(1) 对 µ 求导,并令导数为 0,可得:µˆ = 1 N P N k=1 xk (2) 对 σ 2 求导, 可得解: − N 2σ 2 + 1 2σ 4 X N k=1 (xk − µ) 2 = 0 可以得到: σˆ 2 ML = 1 N X N k=1 (xk − µˆ) 2 8 / 56
8.2.2.均值和方差的无偏与有偏估计 对于有限的N来讲, (1)上面的均值估计是均值的无偏估计: (2)上面的方差估计是方差的有偏估计: =呢∑-明]=∑-的-",2 当N值很大的时候:(1一)o2≈σ2 9/56
8.2.2. 均值和方差的无偏与有偏估计 对于有限的 N 来讲, (1) 上面的均值估计是均值的无偏估计: E[ˆµ] = E " 1 N X N k=1 xk # = 1 N X N k=1 E [xk ] = µ (2) 上面的方差估计是方差的有偏估计: E[ˆσ 2 ML] = E[ 1 N X N k=1 (xk − µˆ) 2 ] = 1 N X N k=1 E[(xk − µˆ) 2 ] = N − 1 N σ 2 当 N 值很大的时候:(1 − 1 N )σ 2 ≈ σ 2 9 / 56