主成分分析(PcA) 用一维向量表示d维样本 ·用通过样本均值m的直线(单位向量为e)上的点表示 样本 ak唯一决定了xk 最小化平方重构误差 J(an…,an2e)=∑km+ae-x)=∑|age-(x-m) ∑ale-2∑ae(xkm)+∑|x-m k=1 a.e 2a4-2e(x-m)=0 C av=e(xr-m) (x-m)在e上的投影
主成分分析(PCA) • 用一维向量表示d维样本 • 用通过样本均值m的直线(单位向量为e)上的点表示 样本 • 最小化平方重构误差 ( ) t k k a = − e x m ˆ k k x m e = + a 2 2 1 1 1 1 2 2 2 1 1 1 ( , , , ) ( ) ( ( )) 2 ( ) n n n k k k k k k n n n t k k k k k k k J a a a a a a = = = = = = + − = − − = − − + − e m e x e x m e e x m x m k x ak 唯一决定了 ˆ k x 1 1 ( , , , ) 2 2 ( ) 0 n t k k k J a a a a = − − = e e x m (xk -m)在e上的投影
主成分分析(PcA) 用一维向量表示d维样本 Q
主成分分析(PCA) • 用一维向量表示d维样本 e ak xk m
主成分分析(PcA) 寻找e的最优方向 a=e(x4-m)J(a…,an,e)=∑alr-2ae(x4-m)+∑|4-m k=l J(e)∑a2-2∑+∑|x-m ∑e(x4-m)2+∑|x-m k=1 ∑e(x4-m)x-m)e+∑|;-m k=1 -eS+2xm s=∑(x-m)x-m) 散布矩阵( scatter matrix)
主成分分析(PCA) • 寻找e的最优方向 ( ) t k k a = − e x m 2 2 2 1 1 1 1 1 ( , , , ) 2 ( ) n n n t n k k k k k k k J a a a a = = = e e e x m x m = − − + − 2 2 2 1 1 1 1 2 2 1 1 2 1 1 2 1 ( ) 2 [ ( )] ( )( ) n n n k k k k k k n n t k k k k n n t t k k k k k n t k k J a a = = = = = = = = = − + − = − − + − = − − − + − = − + − e x m e x m x m e x m x m e x m e Se x m1 ( )( ) n t k k k= S x m x m = − − 散布矩阵(scatter matrix) = − ( 1) n C
主成分分析(PcA) 使J(e)最小的e最大化eSe 拉格朗日乘子法(约束条件ee=1) u=e'se-Ne'e-D) =2Se-2e=0 λ是S的本征值( eigenvalue) Se=he e是S的本征向量( eigenvector) e' se=dee 》最大本征值λ对应eSe的最大值 结论:e为散布矩阵最大的本征值对应的本征向量
主成分分析(PCA) • 使 最小的e最大化 • 拉格朗日乘子法(约束条件 ) • 结论:e为散布矩阵最大的本征值对应的本征向量 ( 1) t t u = − − e Se e e 1 J ( )e t e Se 2 2 0 u = − = Se e e 1 t e e = Se e = 是S的本征值(eigenvalue) e是S的本征向量(eigenvector) t t e Se e e = = 最大本征值 对应 e Se t 的最大值
主成分分析(PcA) 将一维的a扩展到d'(d≤d)维空间 用y=:2来表示x d x,=m+∑ake 最小化平方误差 Jg(e) ∑ m+>akeI-x k=1
主成分分析(PCA) • 将一维的 扩展到 维空间 • 用 来表示 • 最小化平方误差 1 ˆ d k ki i i a = x m e = + k a d d d ( ) 1 2 k k k kd a a a = y k x 2 1 1 ( ) n d d ki i k k i J a = = = + − e m e x