特征选择与提取的两个基本途径 966 (1)直接选择法:当实际用于分类识别的特征数目 确定后,直接从已获得的n个原始特征中选出d 个特征x1,x2,…,x使可分性判据J的值满足下 式: (x,x,,xa)=maJ,x2,…,xa】 式中x1,x2,…,Xa是n个原始特征中的任意d个特 征,上式表示直接寻找n维特征空间中的d维子空间 主要方法有:统计检验法、分枝定界法、遗传算 法等方法
特征选择与提取的两个基本途径 (1)直接选择法:当实际用于分类识别的特征数目d 确定后,直接从已获得的n 个原始特征中选出d 个特征 ,使可分性判据J 的值满足下 式: d x , x , , x 1 2 Jx1, x2 ,, xd max Jxi1, xi2 ,, xid 式中 是n 个原始特征中的任意d 个特 征,上式表示直接寻找n 维特征空间中的d 维子空间。 i i id x , x , , x 1 2 主要方法有:统计检验法、分枝定界法、遗传算 法等方法
特征选择与提取的两个基本途径 /96 (2)变换法,在使判据J取最大的目标下,对n 个原始特征进行变换降维,即对原n维特征空 间进行坐标变换,然后再取子空间。 主要方法有:基于可分性判据的特征选择、基于 误判概率的特征选择、离散K-L变换法(DKLT)、 基于决策界的特征选择等方法
(2)变换法,在使判据J 取最大的目标下,对n 个原始特征进行变换降维,即对原n 维特征空 间进行坐标变换,然后再取子空间。 主要方法有:基于可分性判据的特征选择、基于 误判概率的特征选择、离散K-L变换法(DKLT)、 基于决策界的特征选择等方法。 特征选择与提取的两个基本途径
预处理 /96 数据归一化 口各维特征存在度量单位等方面的差异 口常用方法是限制到0,1川或者[-1,1川 剔除离群值(outlier) 口与随机变量的平均值距离很远的点,通常是检测 或者测量手段导致的误差 缺失数据处理 口检测或者采样过程中的不完全数据 口补0,平均值
预处理 数据归一化 各维特征存在度量单位等方面的差异 常用方法是限制到[0,1]或者[-1,1] 剔除离群值(outlier) 与随机变量的平均值距离很远的点,通常是检测 或者测量手段导致的误差 缺失数据处理 检测或者采样过程中的不完全数据 补0,平均值…
类别可分性判据 J966 为确立特征提取和选择的准则:引入类别可分性 判据,来刻划特征对分类的贡献。为此希望所构造 的可分性判据满足下列要求: (1)与误判概率(或误分概率的上界、下界)有单调关系。 (2)当特征相互独立时,判据有可加性,即: J(x1,x2,…,xa)=∑J,() k=1 式中,x1,x2,…,x是对不同种类特征的测量值,J() 表示使用括号中特征时第类与第类可分性判据函数
类别可分性判据 为确立特征提取和选择的准则:引入类别可分性 判据,来刻划特征对分类的贡献。为此希望所构造 的可分性判据满足下列要求: (1) 与误判概率(或误分概率的上界、下界)有单调关系。 (2) 当特征相互独立时,判据有可加性,即 : J x x x J x i j d i j k d k ( , , , ) ( ) 1 2 1 式中,x x x 1 2 d , ,, 是对不同种类特征的测量值,Ji j() 表示使用括号中特征时第i 类与第j类可分性判据函数
类别可分性判据 /96 (3) 判据具有“距离”的某些特性,即: J>0,当i≠j时; J=0,当i=j时; Ju=Jn (4) 对特征数目是单调不减,即加入新的特征后, 判据值不减。 Ji(x1,X2,,Xa)≤Ji(X1,X2,…,xaxa+)
(3) 判据具有“距离”的某些特性,即 : Ji j 0 ,当 i j 时; Ji j 0 ,当 i j 时; J J i j j i (4) 对特征数目是单调不减,即加入新的特征后, 判据值不减。 J x x x J x x x x i j d i j d d ( , , , ) ( , , , , ) 1 2 1 2 +1 类别可分性判据