5.1.1特征选择 从一组特征中挑选出一些最有效的特征(最具有鉴别信息的特征)以达到降低特 征空间维数的目的,这个过程叫做特征选择。 1.特征选择的方法 依据特征选择的特点。其方法大体可分两大类: Filter方法:根据独立于分类器的指标来评价所选择的特征子集,然后在所有可 能的特征子集中搜索出使得该指标最大的特征子集作为最优特征子集。不考虑所使 用的学习算法。 Wrapper7方法:将特征选择和分类器结合在一起,在学习过程中表现优异的的 特征子集会被选中
5.1.1 特征选择 1.特征选择的方法 从一组特征中挑选出一些最有效的特征(最具有鉴别信息的特征)以达到降低特 征空间维数的目的,这个过程叫做特征选择。 依据特征选择的特点。其方法大体可分两大类: ➢ Filter方法:根据独立于分类器的指标来评价所选择的特征子集,然后在所有可 能的特征子集中搜索出使得该指标最大的特征子集作为最优特征子集。不考虑所使 用的学习算法。 ➢ Wrapper方法:将特征选择和分类器结合在一起,在学习过程中表现优异的的 特征子集会被选中
5.1.1特征选择 2.特征选择算法 多数的特征选择算法都力求解决搜索问题,经典算法主要有:单独最优特征 组合法、顺序后退法、顺序前进法、模拟退火法和遗传算法等。 (1)单独最优特征组合法 单独最优特征组合法依靠计算各特征单独使用时的可分性判据对特征加以排 队。取前个特征作为满足条件的特征组。 这种方法仅当单个特征的可分性判据值满足加和性或乘性条件的时候才能选 择出一组最优的特征。在很大程度上可以很快地缩减特征选择的范围,是一种较 好的特征预选方法
5.1.1 特征选择 2.特征选择算法 多数的特征选择算法都力求解决搜索问题,经典算法主要有:单独最优特征 组合法、顺序后退法、顺序前进法、模拟退火法和遗传算法等。 (1)单独最优特征组合法 单独最优特征组合法依靠计算各特征单独使用时的可分性判据对特征加以排 队。取前d个特征作为满足条件的特征组。 这种方法仅当单个特征的可分性判据值满足加和性或乘性条件的时候才能选 择出一组最优的特征。在很大程度上可以很快地缩减特征选择的范围,是一种较 好的特征预选方法
5.1.1特征选择 2.特征选择算法 (2)顺序前进法 顺序前进法是一种自下而上的搜索算法,先把所需要的特征集合初始化为一 个空集,每次向特征集合中增加一个特征,当所需要的特征集合达到要求时就把 所得到的特征集合作为算法运行的结果。 实际上,在算法的每一步,都选择一个特征加入到当前集合,使得特征选择 准则最大。当最佳改进使特征集性能变坏或达到最大允许的特征个数的时候,该 算法认为已经选择出最佳特征子集
5.1.1 特征选择 2.特征选择算法 (2)顺序前进法 顺序前进法是一种自下而上的搜索算法,先把所需要的特征集合初始化为一 个空集,每次向特征集合中增加一个特征,当所需要的特征集合达到要求时就把 所得到的特征集合作为算法运行的结果。 实际上,在算法的每一步,都选择一个特征加入到当前集合,使得特征选择 准则最大。当最佳改进使特征集性能变坏或达到最大允许的特征个数的时候,该 算法认为已经选择出最佳特征子集
5.1.1特征选择 2.特征选择算法 (3)顺序后退法 顺序后退法是一种自上而下的搜索算法,在运行之初假定整个特征集合就是 所需要的优化特征集,然后在算法的每步运行过程中逐次剔除一个对准则函数无 贡献的特征,直到剩余特征个数符合集合基数的要求。 该方法在一个较大的变量集上计算准则函数」,相对于上面提到的顺序前进法 其计算量要大,但其优势在于充分考虑特征之间的统计相关特性,因而其计算性 能和算法的鲁棒性要大大优于顺序前进法
5.1.1 特征选择 2.特征选择算法 (3)顺序后退法 顺序后退法是一种自上而下的搜索算法,在运行之初假定整个特征集合就是 所需要的优化特征集,然后在算法的每步运行过程中逐次剔除一个对准则函数无 贡献的特征,直到剩余特征个数符合集合基数的要求。 该方法在一个较大的变量集上计算准则函数J,相对于上面提到的顺序前进法 其计算量要大,但其优势在于充分考虑特征之间的统计相关特性,因而其计算性 能和算法的鲁棒性要大大优于顺序前进法
5.1.1特征选择 2.特征选择算法 (4)模拟退火法 模拟退火法来源于统计力学,假设材料粒子从高温开始,非常缓慢地降温 (退火),则粒子就可在每个温度下达到热平衡,从理论上来讲,能够找到全局 最优解,但在初始温度的选取和邻域的选取上要怡当。 (5)遗传算法 遗传算法是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程 的计算模型,是一种通过模拟自然进化过程搜索最优解的方法
5.1.1 特征选择 2.特征选择算法 (4)模拟退火法 模拟退火法来源于统计力学,假设材料粒子从高温开始,非常缓慢地降温 (退火),则粒子就可在每个温度下达到热平衡 ,从理论上来讲,能够找到全局 最优解,但在初始温度的选取和邻域的选取上要恰当 。 (5)遗传算法 遗传算法是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程 的计算模型,是一种通过模拟自然进化过程搜索最优解的方法