对求导,并令它为0: O ∑lgP(Xk|O)=0 O P(X/0) ogP(Xk8=0 k=1 a0 N、oW9(XA10)=0 00 0. 8.86.6e 6 利用上式求出O的估值9,即为=0 有时上式是多解的,上图有5个解,只有一个解最大即O
对θ i求导,并令它为0: 有时上式是多解的, 上图有5个解,只有一个解最大即. ... log ( | ) 0 1 1 = = N k i k p P X = = = = log ( | ) 0 ......... ......... log ( | ) 0 1 1 1 i k N k p i k N k P X P X P(Xi /θi ) 利用上式求出 的估值,即为 = i i
2.多维正态分布情况 ①∑已知,μ未知,估计μ P( X)服从正态分NogP(Xk|)=0 待估参数为0=91=120μ 所以在正态分布时 P(Xk4)=-bog(2x)Σ-( ∑(Xk-) 代入上式得 ∑∑(Xk-4)=0 ∑(Xk-4)=0 k=1
2. 多维正态分布情况 ① ∑已知, μ未知,估计μ 服从正态分布 所以在正态分布时 ( | ) i i P X log ( | ) 0 1 = = P X k N k ( ) ( ) ( ) − = − − − − 1 2 1 log[ 2 | |] 2 1 P(X | ) X k X k n T k ( ) = − − = N k X k 1 1 0 ( ) = − − = N k X k 1 1 0 =1 = 待估参数为 i 代入上式得
所以∑∑Xk-N)=0 ∧ ∑ⅹk k=1 这说明未知均值的最大似然估计正好是训练样本的算术 平均
所以 这说明未知均值的最大似然估计正好是训练样本的算术 平均。 − = − = 1 1 ( ) 0 N k X k N = = = N k X k N 1 1
②2∑,p均未知 A.一维情况:n=1对于每个学习样本只有一个特征的简单 情况 O1 2 1162=Gi lgP(kk)=-bogp22b,(Xk-)(n=1)由上式得 代入∑。kogP(Xk0)=∑(Xk-6)=0 k=1 61 k=162 gP(Xk|0)=∑ (Xk-) k02 k=1 2202 ∧ b1=1 M之Xk即学习样本的算术平均 ∑(xk 样本方差 N
② ∑, μ均未知 A. 一维情况:n=1对于每个学习样本只有一个特征的简单 情况: (n=1)由上式得 即学习样本的算术平均 样本方差 2 1 1 2 1 = , = ( ) 1 2 2 2 2 1 log 2 2 1 log P(X | ) = − − X k− i k ( ) 0 1 log ( | ) 1 1 1 1 2 = − = = = P X X k N k i k N k 代入 ] 0 2 ( ) 2 1 log ( | ) [ 1 2 2 1 2 1 2 2 = − = − + = = N k i k k N k X P X = = = N k X k N 1 1 1 1 ( ) = = = − N k N X k 1 2 2 2 1 1
讨论 1.正态总体均值的最大似然估计即为学习样本的算术平均 2正态总体方差的最大似然估计与样本的方差不同,当N较 大的时候,二者的差别不大 B.多维情况:n个特征(学生可以自行推出下式) 估计值:1== 之YkB2=1 N Xk-UIX 结论:①μ的估计即为学习样本的算术平均 ②估计的协方差矩阵是矩阵(Xk-4Xk-m的算术 平均(nxn阵列,nxn个值)
• 讨论: 1.正态总体均值的最大似然估计即为学习样本的算术平均 2.正态总体方差的最大似然估计与样本的方差不同,当N较 大的时候,二者的差别不大。 B.多维情况:n个特征(学生可以自行推出下式) 估计值: 结论:①μ的估计即为学习样本的算术平均 ②估计的协方差矩阵是矩阵 的算术 平均(nⅹn阵列, nⅹn个值) = = = N k X k N 1 1 1 ( ) ( ) = = = − X − T X N k N k k 1 2 1 ( )( ) X − X k − T k