cho6特征降维和选择 Part1特征降维
Ch 06.特征降维和选择 Part 1 特征降维
误差与维数 例子 p(x|O,)~N(μ2∑),j=1,2 P(O=P(O,) 贝叶斯误差概率 P(e)= 到μ2的马氏距离 (p1-卩2)∑(1 r增加,误差概率P(e)减小引入新的特征可使增大, 进而降低误差概率P(e) F→>∞,P(e)→0 ·假设各特征独立: x=dgn…,a)G∑
误差与维数 • 例子 • 贝叶斯误差概率 • r增加,误差概率 减小 • , • 假设各特征独立: ( | ) ( , ), 1, 2 j i p N j x μ Σ = 1 2 P P ( ) ( ) = 2 / 2 / 2 1 ( ) u r P e e du − = 2 1 1 2 1 2 ( ) ( ) t r − = − − μ μ Σ μ μ μ1 到 μ2 的马氏距离 P e( ) r → P e( ) 0 → 1 2 ( , , , ) d Σ = diag 2 2 1 2 1 d i i i i r = − = 引入新的特征可使r增大, 进而降低误差概率 P e( )
维度灾难 在实际应用中 ·当特征个数增加到某一个临界点后,继续增加反而会导 致分类器的性能变差—“维度灾难”( curse of dimensionality) 原因? ·假设的概率模型与真实模型不匹配 ·训练样本个数有限,导致概率分布的估计不准 对于高维数据,“维度灾难”使解决模式识别问 题非常困难,此时,往往要求首先降低特征向量 的维度
维度灾难 • 在实际应用中 • 当特征个数增加到某一个临界点后,继续增加反而会导 致分类器的性能变差——“维度灾难”(curse of dimensionality) • 原因? • 假设的概率模型与真实模型不匹配 • 训练样本个数有限,导致概率分布的估计不准 • …… • 对于高维数据,“维度灾难”使解决模式识别问 题非常困难,此时,往往要求首先降低特征向量 的维度
降维 降低特征向量维度的可行性 特征向量往往是包含冗余信息的! 有些特征可能与分类问题无关 特征之间存在着很强的相关性 降低维度的方法 特征组合 把几个特征组合在一起,形成新的特征 特征选择 选择现有特征集的一个子集
降维 • 降低特征向量维度的可行性 特征向量往往是包含冗余信息的! • 有些特征可能与分类问题无关 • 特征之间存在着很强的相关性 • 降低维度的方法 • 特征组合 把几个特征组合在一起,形成新的特征 • 特征选择 选择现有特征集的一个子集
降维 降维问题 线性变换s.非线性变换 ·利用类别标记(有监督)Vs.不用类别标记(无监督) ·不同的训练目标 ·最小化重构误差(主成分分析,PCA) ·最大化类别可分性(线性判别分析,LDA) 最小化分类误差(判别训练, discriminative training) 保留最多细节的投影(投影寻踪, projection pursuit) 最大限度的使各特征之间独立(独立成分分析,CA)
降维 • 降维问题 • 线性变换 vs. 非线性变换 • 利用类别标记(有监督) vs. 不用类别标记(无监督) • 不同的训练目标 • 最小化重构误差(主成分分析,PCA) • 最大化类别可分性(线性判别分析,LDA) • 最小化分类误差(判别训练,discriminative training) • 保留最多细节的投影(投影寻踪,projection pursuit) • 最大限度的使各特征之间独立(独立成分分析,ICA)