主成分分析(PcA) 将一维的a扩展到d(d'≤d)维空间 结论: ·使得平方误差最小的向量e1,e2,e分别为散布矩阵S的d个 最大本征值对应的本征向量 ·S为实对称矩阵,所以e1,e2;eφ相互正交 e;e2…ed可被视为特征空间的一个子空间的单位向量基 aa为x对应于基e的系数,或在e,上的投影 dk称为主成分( principal com ponent) ·几何意义 1,e2…ea为沿数据云团方差最大的方向的直线 ·利用PCA,可以将d维数据降维到d"(d'≤d)维,同时使得降维后 的数据与源数据的平方误差最小
主成分分析(PCA) • 将一维的 扩展到 维空间 • 结论: • 使得平方误差最小的向量 分别为散布矩阵S的 个 最大本征值对应的本征向量 • S为实对称矩阵,所以 相互正交 • 可被视为特征空间的一个子空间的单位向量基 • 为 对应于基 的系数,或在 上的投影 • 称为主成分(principal component) • 几何意义 为沿数据云团方差最大的方向的直线 • 利用PCA,可以将d维数据降维到 维,同时使得降维后 的数据与源数据的平方误差最小 k a d d d ( ) 1 2 , , d e e e d 1 2 , , d e e e 1 2 , , d e e e ki a k x i e i e ki a 1 2 , , d e e e d d d ( )
主成分分析(PcA) 主成分分析步骤(d维降为d(d'≤d维) 1.计算散布矩阵S S=∑(xk-m)x 2.计算S的本征值和本证向量 Se=he 3.将本征向量按相应的本征值从大到小排序 4.选择最大的d个本征向量作为投影向量e1e2…e构成 投影dxd"矩阵W,其中第i列为e; 5.对任意d维样本x,其用PCA降维后的d维向量为 =Wx
主成分分析(PCA) • 主成分分析步骤(d维降为 维) 1. 计算散布矩阵S 2. 计算S的本征值和本证向量 3. 将本征向量按相应的本征值从大到小排序 4. 选择最大的d’个本征向量作为投影向量 ,构成 投影 矩阵W,其中第i列为 5. 对任意d维样本x,其用PCA降维后的d’维向量为 d d d ( ) 1 ( )( ) n t k k k= S x m x m = − − Se e = 1 2 , , d e e e i e t y W x = d d
主成分分析(PcA) 通常,最大的几个本征值占据了所有本征值之和 的绝大部分 少数几个最大本征 值对应的本征向量 即可表示原数据中 的绝大部分信息, 而剩下的小部分(g 即对应较小的本征 值的本征向量所表品 示的信息),通常 可以认为是数据噪 声而丢掉 Component Num bel
主成分分析(PCA) • 通常,最大的几个本征值占据了所有本征值之和 的绝大部分 • 少数几个最大本征 值对应的本征向量 即可表示原数据中 的绝大部分信息, 而剩下的小部分( 即对应较小的本征 值的本征向量所表 示的信息),通常 可以认为是数据噪 声而丢掉
主成分分析(PcA) Scatter plot and the principal 0 Histo
主成分分析(PCA)
主成分分析(PcA) Scatter plot of Iris data 是 ?乎 ·数据集:Iris 原维度:4 搜 10 4682460510024
主成分分析(PCA) • 数据集:Iris • 原维度:4