第16卷第4期 智能系统学报 Vol.16 No.4 2021年7月 CAAI Transactions on Intelligent Systems Jul.2021 D0:10.11992/tis.202009016 网络出版地址:https:/ns.cnki.net/kcms/detail/23.1538.TP.20210406.0853.002.html 一种新的最大相关最小冗余特征选择算法 李顺勇,王改变 (山西大学数学科学学院,山西太原030006) 摘要:传统的基于特征选择的分类算法中,由于其采用的冗余度和相关度评价标准单一,从而使得此类算法 应用范围受限。针对这个问题,本文提出一种新的最大相关最小冗余特征选择算法,该算法在度量特征之间冗 余度的评价准则中引入了两种不同的评价准则:在度量特征与类别之间的相关度中引入了4种不同的评价准 则,衍生出8种不同的特征选择算法,从而使得该算法应用范围增大。此外,由于传统的最大相关最小冗余特 征选择算法不能根据用户实际需求的数据维度进行特征选择。所以,引入了指示向量入来刻画用户实际的数 据维度需求,提出了一种新的目标函数来求解最优特征子集,利用支持向量机对4个UCI数据集的特征子集进 行了实验,最后,利用分类正确率、成对单边T检验充分验证了该算法的有效性。 关键词:特征选择;冗余度;相关度:降维;分类;分类正确率;支持向量机;T检验 中图分类号:TP181文献标志码:A文章编号:1673-4785(2021)04-0649-13 中文引用格式:李顺勇,王改变.一种新的最大相关最小冗余特征选择算法.智能系统学报,2021,16(4):649-661. 英文引用格式:LI Shunyong,WANG Gaibian.New MRMR feature selection algorithm[Jl.CAAI transactions on intelligent sys- tems,2021,16(4:649-661. New MRMR feature selection algorithm LI Shunyong,WANG Gaibian (School of Mathematical Sciences,Shanxi University,Taiyuan 030006,China) Abstract:The application scopes of traditional classification algorithms based on feature selection are limited due to the single evaluation criteria of redundancy and relevance adopted.To solve this problem,this paper proposes a new max- imum relevance,minimum redundancy(MRMR)feature selection algorithm,which enlarges its application scope by in- troducing two different evaluation criteria to measure the redundancy between features of measurement,measuring the correlation between features and categories,and deriving eight different feature selection algorithms.In addition,be- cause the traditional MRMR feature selection algorithms cannot realize feature selection according to the data dimen- sion of users'actual demand,the study also applies an indicator vector A to achieve that,proposes a new objective func- tion to obtain the optimal feature subset,and conducts experiments on four feature subsets of UCI using a support vec- tor machine.Finally,the study verifies the effectiveness of the algorithm using classification accuracy and pairs of uni- lateral T-tests. Keywords:feature selection;redundancy;relevance;dimension reduction;classification;classification accuracy;sup- port vector machines;T-test 特征选择是数据挖掘、机器学习和模式识别 中的一项重要技术,是当前信息领域的研究热点 收稿日期:2020-09-11.网络出版日期:202104-06 之一。它在数据分析和预处理过程中起着非 基金项目:山西省留学人员科技活动择优资助项目(201913: 山西省基础研究计划项目(201901D111320):太原市 常重要的作用。特征选择在不改变特征原始表达 科技计划研发项目(2018140105000084):山西省高等 的基础上,仅从特征集中筛选最能代表数据特点 学校精品共享课程项目(K2020022). 通信作者:李顺勇.E-mail:lisy75@sxu.edu.cn. 的最优特征子集。因此,不仅可以去除不相关和
DOI: 10.11992/tis.202009016 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210406.0853.002.html 一种新的最大相关最小冗余特征选择算法 李顺勇,王改变 (山西大学 数学科学学院,山西 太原 030006) λ 摘 要:传统的基于特征选择的分类算法中,由于其采用的冗余度和相关度评价标准单一,从而使得此类算法 应用范围受限。针对这个问题,本文提出一种新的最大相关最小冗余特征选择算法,该算法在度量特征之间冗 余度的评价准则中引入了两种不同的评价准则;在度量特征与类别之间的相关度中引入了 4 种不同的评价准 则,衍生出 8 种不同的特征选择算法,从而使得该算法应用范围增大。此外,由于传统的最大相关最小冗余特 征选择算法不能根据用户实际需求的数据维度进行特征选择。所以,引入了指示向量 来刻画用户实际的数 据维度需求,提出了一种新的目标函数来求解最优特征子集,利用支持向量机对 4 个 UCI 数据集的特征子集进 行了实验,最后,利用分类正确率、成对单边 T 检验充分验证了该算法的有效性。 关键词:特征选择;冗余度;相关度;降维;分类;分类正确率;支持向量机;T 检验 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2021)04−0649−13 中文引用格式:李顺勇, 王改变. 一种新的最大相关最小冗余特征选择算法 [J]. 智能系统学报, 2021, 16(4): 649–661. 英文引用格式:LI Shunyong, WANG Gaibian. New MRMR feature selection algorithm[J]. CAAI transactions on intelligent systems, 2021, 16(4): 649–661. New MRMR feature selection algorithm LI Shunyong,WANG Gaibian (School of Mathematical Sciences, Shanxi University, Taiyuan 030006, China) ¸ Abstract: The application scopes of traditional classification algorithms based on feature selection are limited due to the single evaluation criteria of redundancy and relevance adopted. To solve this problem, this paper proposes a new maximum relevance, minimum redundancy (MRMR) feature selection algorithm, which enlarges its application scope by introducing two different evaluation criteria to measure the redundancy between features of measurement, measuring the correlation between features and categories, and deriving eight different feature selection algorithms. In addition, because the traditional MRMR feature selection algorithms cannot realize feature selection according to the data dimension of users’ actual demand, the study also applies an indicator vector to achieve that, proposes a new objective function to obtain the optimal feature subset, and conducts experiments on four feature subsets of UCI using a support vector machine. Finally, the study verifies the effectiveness of the algorithm using classification accuracy and pairs of unilateral T-tests. Keywords: feature selection; redundancy; relevance; dimension reduction; classification; classification accuracy; support vector machines; T-test 特征选择是数据挖掘、机器学习和模式识别 中的一项重要技术,是当前信息领域的研究热点 之一[1-3]。它在数据分析和预处理过程中起着非 常重要的作用。特征选择在不改变特征原始表达 的基础上,仅从特征集中筛选最能代表数据特点 的最优特征子集。因此,不仅可以去除不相关和 收稿日期:2020−09−11. 网络出版日期:2021−04−06. 基金项目:山西省留学人员科技活动择优资助项目 (2019-13); 山西省基础研究计划项目 (201901D111320);太原市 科技计划研发项目 (2018140105000084);山西省高等 学校精品共享课程项目 (K2020022). 通信作者:李顺勇. E-mail:lisy75@sxu.edu.cn. 第 16 卷第 4 期 智 能 系 统 学 报 Vol.16 No.4 2021 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2021
·650· 智能系统学报 第16卷 冗余信息,降低训练样本的维度和分类样本的复 余度。2020年,周传华等m提出的最大相关与独 杂度,而且能很好地保持原始特征包含的信息, 立分类信息最大化特征选择算法,用互信息度量 对于人们理解和判断观测来说更加容易。特征选 特征与类别之间的相关性,用独立分类信息综合 择根据其是否与后续学习算法独立可以分为过滤 衡量新分类信息和特征冗余,尽管在特征选择过 式和封装式两种。过滤式特征选择方法独立于后 程中综合考虑了特征与类别的相关性、特征之间 续的学习算法,通过数据的本质属性对所有特征 的冗余性,以及特征包含的新分类信息,并结合最 进行评分,在此评价过程中不会借用分类模型来 大最小准则对特征的重要性进行了非线性评价, 完成1。其中具有代表性的方法有T检验(T 但其目标函数与传统的MRMR算法的目标函数 test)l、Fisher score、信息增益(information gain, 类似,依然不能根据客户的实际需求进行特征 IG)⑧等。但是,过滤式特征选择方法往往会忽略 选择。 特征之间的相关性。封装式特征选择算法与后续 针对上述特征选择算法中存在的冗余度和相 学习算法相关,利用学习算法的性能评价所选特 关度的度量准则单一以及评价函数问题,提出了 征子集的好坏,因此在精度方面要优于过滤式特 新方案。在冗余度度量准则方面引入了2种不同 征选择以。基于特征选择的目的,已经有部分学 的方法,在相关度度量准则方面引入了4种不同 者做了相关研究。例如,传统的基于空间搜索的 的方法,从而组合衍生出8种特征选择算法,提出 最大相关最小冗余(minimal redundancy maximal 了新的目标函数。 relevance,.MRMR)1算法,使用互信息来度量特 征之间的冗余度以及与类别之间的相关度,并且 1新的特征选择算法 利用信息嫡和信息差两个函数来选取最优特征子 MRMR算法是最常用、最典型的基于空间搜 集。但是,由于冗余度和相关度的评价准则单一, 索的特征选择算法。其中,最大相关即特征与类 所以使得该特征选择算法的使用范围较窄。 别间的相关度要最大,最小冗余即特征与特征之 2018年,郭凯文等提出了基于特征选择和聚类 间的相关度要最小8,该算法中,冗余度和相关 的分类算法,特征选择标准采用的是传统的基于 度均是利用互信息作为度量准则,就效能而言, 空间搜索的最大相关最小冗余准则,将信息差作 比只考虑特征与类别之间的相关度,或者只考虑 为目标函数来求解最优特征子集。虽然该算法在 特征之间冗余度的特征选择算法要好。但是,在 目标函数中增加了相关度和冗余度的权重因子, 现实生活中,我们面临的数据往往纷繁复杂,面 但是,在求解最优特征子集的过程中需要对权重 对不同的数据,MRMR算法呈现出的效果有较大 因子不断地赋值以寻求最优子集,计算量较大; 差异,从而降低了该算法的适用范围。 2020年,李纯果等提出的基于排序互信息的无 针对MRMR算法存在的问题,提出一种新的 监督特征选择,是基于排序互信息反应的两属性 最大相关最小冗余特征选择算法(new algorithm 之间的单调关系,用每个属性与其他属性之间的 for feature selection with maximum relation and min- 平均互信息,来衡量每个属性与排序学习的相关 imum redundancy,New-MRMR)。这里New- 度,平均互信息最高的视为排序最相关的属性。 MRMR算法仅是新提出的一个特征选择的框架, 但是,该算法忽略了特征与特征之间的冗余度, 在度量特征与特征之间冗余度时选用了2种评价 只在低维度且样本量较少的模拟数据集上进行了 准则,在度量特征与特征之间相似度时选用了 有效性验证,对真实数据集的特征选择效果不明 4种评价准则,从而衍生出8种特征选择算法,当 了;2020年,刘云等16提出了混合蒙特卡罗搜索 面对不同的用户需求时,选用不同特征选择算 的特征选择算法的优化,根据蒙特卡罗树搜索方 法,使得新提算法的适用范围更广。具体的特征 法生成了一个初始特征子集,然后利用ReliefF算 选择流程见图1。 法选择前k个特征组成候选特征集,最后,用 图1可以看出,特征选择算法的基本流程为: KNN分类器的分类精度评估候选特征,选择高精 先对原始数据集进行预处理,将原始数据集分为 度的候选特征作为最佳特征子集。然而,Re- 测试集和训练集,然后,在训练集上选择不同的 liefF算法是从同类和不同类中各选取k个近邻样 冗余度和相关度评价准则来训练模型,进行特征 本,求平均值得到各个特性权值,即特征与类别 选择,得到最优特征子集,最后,利用测试集来验 之间的相关性,并没有考虑特征与特征之间的冗 证模型的有效性
冗余信息,降低训练样本的维度和分类样本的复 杂度,而且能很好地保持原始特征包含的信息, 对于人们理解和判断观测来说更加容易。特征选 择根据其是否与后续学习算法独立可以分为过滤 式和封装式两种。过滤式特征选择方法独立于后 续的学习算法,通过数据的本质属性对所有特征 进行评分,在此评价过程中不会借用分类模型来 完成[4-5]。其中具有代表性的方法有 T 检验 (Ttest)[6] 、Fisher score[7] 、信息增益 (information gain, IG)[8] 等。但是,过滤式特征选择方法往往会忽略 特征之间的相关性。封装式特征选择算法与后续 学习算法相关,利用学习算法的性能评价所选特 征子集的好坏,因此在精度方面要优于过滤式特 征选择[8-12]。基于特征选择的目的,已经有部分学 者做了相关研究。例如,传统的基于空间搜索的 最大相关最小冗余 (minimal redundancy maximal relevance,MRMR)[13] 算法,使用互信息来度量特 征之间的冗余度以及与类别之间的相关度,并且 利用信息熵和信息差两个函数来选取最优特征子 集。但是,由于冗余度和相关度的评价准则单一, 所以使得该特征选择算法的使用范围较窄。 2018 年,郭凯文等[14] 提出了基于特征选择和聚类 的分类算法,特征选择标准采用的是传统的基于 空间搜索的最大相关最小冗余准则,将信息差作 为目标函数来求解最优特征子集。虽然该算法在 目标函数中增加了相关度和冗余度的权重因子, 但是,在求解最优特征子集的过程中需要对权重 因子不断地赋值以寻求最优子集,计算量较大; 2020 年,李纯果等[15] 提出的基于排序互信息的无 监督特征选择,是基于排序互信息反应的两属性 之间的单调关系,用每个属性与其他属性之间的 平均互信息,来衡量每个属性与排序学习的相关 度,平均互信息最高的视为排序最相关的属性。 但是,该算法忽略了特征与特征之间的冗余度, 只在低维度且样本量较少的模拟数据集上进行了 有效性验证,对真实数据集的特征选择效果不明 了;2020 年,刘云等[16] 提出了混合蒙特卡罗搜索 的特征选择算法的优化,根据蒙特卡罗树搜索方 法生成了一个初始特征子集,然后利用 ReliefF 算 法选择前 k 个特征组成候选特征集,最后,用 KNN 分类器的分类精度评估候选特征, 选择高精 度的候选特征作为最佳特征子集。然而,ReliefF 算法是从同类和不同类中各选取 k 个近邻样 本,求平均值得到各个特性权值,即特征与类别 之间的相关性,并没有考虑特征与特征之间的冗 余度。2020 年,周传华等[17] 提出的最大相关与独 立分类信息最大化特征选择算法,用互信息度量 特征与类别之间的相关性,用独立分类信息综合 衡量新分类信息和特征冗余,尽管在特征选择过 程中综合考虑了特征与类别的相关性、特征之间 的冗余性,以及特征包含的新分类信息,并结合最 大最小准则对特征的重要性进行了非线性评价, 但其目标函数与传统的 MRMR 算法的目标函数 类似,依然不能根据客户的实际需求进行特征 选择。 针对上述特征选择算法中存在的冗余度和相 关度的度量准则单一以及评价函数问题,提出了 新方案。在冗余度度量准则方面引入了 2 种不同 的方法,在相关度度量准则方面引入了 4 种不同 的方法,从而组合衍生出 8 种特征选择算法,提出 了新的目标函数。 1 新的特征选择算法 MRMR 算法是最常用、最典型的基于空间搜 索的特征选择算法。其中,最大相关即特征与类 别间的相关度要最大,最小冗余即特征与特征之 间的相关度要最小[18-19] ,该算法中,冗余度和相关 度均是利用互信息作为度量准则,就效能而言, 比只考虑特征与类别之间的相关度,或者只考虑 特征之间冗余度的特征选择算法要好。但是,在 现实生活中,我们面临的数据往往纷繁复杂,面 对不同的数据,MRMR 算法呈现出的效果有较大 差异,从而降低了该算法的适用范围。 针对 MRMR 算法存在的问题,提出一种新的 最大相关最小冗余特征选择算法 (new algorithm for feature selection with maximum relation and minimum redundancy,New-MRMR)。这里 NewMRMR 算法仅是新提出的一个特征选择的框架, 在度量特征与特征之间冗余度时选用了 2 种评价 准则,在度量特征与特征之间相似度时选用了 4 种评价准则,从而衍生出 8 种特征选择算法,当 面对不同的用户需求时,选用不同特征选择算 法,使得新提算法的适用范围更广。具体的特征 选择流程见图 1。 图 1 可以看出,特征选择算法的基本流程为: 先对原始数据集进行预处理,将原始数据集分为 测试集和训练集,然后,在训练集上选择不同的 冗余度和相关度评价准则来训练模型,进行特征 选择,得到最优特征子集,最后,利用测试集来验 证模型的有效性。 ·650· 智 能 系 统 学 报 第 16 卷
第4期 李顺勇,等:一种新的最大相关最小冗余特征选择算法 ·651· 原始数据集 为相关度的度量准则。 1.3目标函数 数据预处理 基于特征选择和聚类的众多分类算法中,目 标函数常采用加权的信息差方式,并且通过对权 训练集 测试集 重信息不断赋值来求解最优特征子集,不能根据 不同用户实际需求的维度求解最优特征子集。因 冗余度评价函数 相关度评价函数 此,本文提出了一种新的目标函数,引入了一个 指示向量1以及参数k来表示所选的特征维度。 Fisher Score pearson相关系数 NHWN-MON 具体目标函数如下: Information Gain 互信息 Chi-square Test (AD ACA Laplacian Score mk依-)st∑=k4e0,山 式中:k为用户需求的实际数据维度;D为冗余度 带有指示向量的 用户需求维度的 矩阵;C为特征与类别之间的相关性矩阵。 目标函数 特征子集 A=12…J',n为原始特征集的特征数。当 取值为0时,说明对应的特征不会被选择进最终 最优特征子集 的特征子集,取值越大时,表明其对应的特征越 图1New-MRMR特征选择流程 容易被选进最终的特征子集。 Fig.1 New-MRMR feature selection flow 对于该目标函数的求解,与最优化标准二次 1.1冗余度评价准则 规划问题21相似,本文采用成对更新方法网来求 特征选择是为了去除原始特征集中的冗余特 解以上目标函数的最优解。 征,达到降维目的。因此,利用冗余度评价可以 2实验结果与分析 作为New-MRMR特征选择算法的一部分,其基 本思想是:两个特征的相关度越大,则这两个特 2.1数据集信息及评价指标 征冗余度也越高。但是,由于评价特征之间冗余 为验证New-MRMR算法的有效性,本文使用 度以及特征与类别之间相关度的准则众多,且目 了4个真实的UCI数据集。先利用新提出的算法 前缺乏相关研究给出具体哪种方法更适用于哪种 处理原始特征,进而使用支持向量机对所得到的 数据类型。所以,本文新提出的算法仅采用了 特征子集进行分类实验,最后比较各种算法在测 Pearson相关系数4以及互信息两种准则来度 试集上的分类准确率(classification precision, 量特征之间的冗余度。 CP)。相关定义如下: 1.2相关度评价准则 CC CP= ×100% 在特征选择过程中,通常优先选择与类别相 Num 关度较大的特征,而特征的重要度在一定程度上 式中:CC(correct classification,CC)为正确分类的 反映了与类别的相关度大小,因此,相关度的度 样本数量;Num为样本数量总数。 量准则就转化成了特征重要度的衡量。衡量特征 表1为4个UC2数据集的具体信息: 重要度的评价准则有很多,例如:Fisher scorem、信 表1实验数据集 息增益((information gain,IG)、Laplacian Scor Table 1 Experimental data set Chi--squar Test-2等。Fisher score主要是按照类 数据集 特征数样本数 测试集 训练集 内距离小,类间距离大的原则,选出包含鉴别信 isolet 617 7797 2599 5198 息比较多的特征,其值越大,说明该特征越重要, waveform 40 5000 1666 3334 与类别的相关度越大;信息增益是通过计算某特 clean 168 476 158 318 征被使用前后的信息嫡来为该特征进行打分,信 Parkinson's Disease 754 756 252 504 息增益越大,说明该特征越重要,与类别的相关 度越大;Laplacian Score是根据拉普拉斯特征映射 实验中,与新提算法进行对比的特征选择算 等对单个特征评分,然后选出方差和局部几何结 法分别是:Fisher Score、基于Information Gain的 构保持能力较强的特征,其分值越高,特征越重 方法、基于Laplacian Score的方法、基于Chi-squar 要。New-MRMR算法也采用这4种评价准则作 Test的方法、基于MRMR的方法。表2列出了以
原始数据集 数据预处理 训练集 测试集 冗余度评价函数 相关度评价函数 Fisher Score Information Gain Chi-square Test Laplacian Score pearson 相关系数 互信息 带有指示向量的 目标函数 用户需求维度的 特征子集 最优特征子集 New-MRMR 图 1 New-MRMR 特征选择流程 Fig. 1 New-MRMR feature selection flow 1.1 冗余度评价准则 特征选择是为了去除原始特征集中的冗余特 征,达到降维目的。因此,利用冗余度评价可以 作为 New-MRMR 特征选择算法的一部分,其基 本思想是:两个特征的相关度越大,则这两个特 征冗余度也越高。但是,由于评价特征之间冗余 度以及特征与类别之间相关度的准则众多,且目 前缺乏相关研究给出具体哪种方法更适用于哪种 数据类型。所以,本文新提出的算法仅采用了 Pearson 相关系数[14] 以及互信息[14] 两种准则来度 量特征之间的冗余度。 1.2 相关度评价准则 在特征选择过程中,通常优先选择与类别相 关度较大的特征,而特征的重要度在一定程度上 反映了与类别的相关度大小,因此,相关度的度 量准则就转化成了特征重要度的衡量。衡量特征 重要度的评价准则有很多,例如:Fisher score[7] 、信 息增益 (information gain,IG)[8] 、Laplacian Score[20] 、 Chi-squar Test[21-22] 等。Fisher score 主要是按照类 内距离小,类间距离大的原则,选出包含鉴别信 息比较多的特征,其值越大,说明该特征越重要, 与类别的相关度越大;信息增益是通过计算某特 征被使用前后的信息熵来为该特征进行打分,信 息增益越大,说明该特征越重要,与类别的相关 度越大;Laplacian Score 是根据拉普拉斯特征映射 等对单个特征评分,然后选出方差和局部几何结 构保持能力较强的特征,其分值越高,特征越重 要。New-MRMR 算法也采用这 4 种评价准则作 为相关度的度量准则。 1.3 目标函数 λ 基于特征选择和聚类的众多分类算法中,目 标函数常采用加权的信息差方式,并且通过对权 重信息不断赋值来求解最优特征子集,不能根据 不同用户实际需求的维度求解最优特征子集。因 此,本文提出了一种新的目标函数,引入了一个 指示向量 以及参数 k 来表示所选的特征维度。 具体目标函数如下: max λ ( λ T D k − λ TCλ k(k−1)) ,s.t. ∑ λi = k, λi ∈ [0,1] λ =[λ1 λ2 ··· λn] T λi λi 式中:k 为用户需求的实际数据维度;D 为冗余度 矩阵; C 为特征与类别之间的相关性矩阵。 ,n 为原始特征集的特征数。当 取值为 0 时,说明对应的特征不会被选择进最终 的特征子集, 取值越大时,表明其对应的特征越 容易被选进最终的特征子集。 对于该目标函数的求解,与最优化标准二次 规划问题[23] 相似,本文采用成对更新方法[24] 来求 解以上目标函数的最优解。 2 实验结果与分析 2.1 数据集信息及评价指标 为验证 New-MRMR 算法的有效性,本文使用 了 4 个真实的 UCI 数据集。先利用新提出的算法 处理原始特征,进而使用支持向量机对所得到的 特征子集进行分类实验,最后比较各种算法在测 试集上的分类准确率 (classification precision, CP)。相关定义如下: CP = CC Num ×100% 式中:CC(correct classification,CC) 为正确分类的 样本数量;Num 为样本数量总数。 表 1 为 4 个 UCI[25] 数据集的具体信息: 表 1 实验数据集 Table 1 Experimental data set 数据集 特征数 样本数 测试集 训练集 isolet 617 7797 2 599 5 198 waveform 40 5000 1 666 3 334 clean 168 476 158 318 Parkinson's Disease 754 756 252 504 实验中,与新提算法进行对比的特征选择算 法分别是:Fisher Score、基于 Information Gain 的 方法、基于 Laplacian Score 的方法、基于 Chi-squar Test 的方法、基于 MRMR 的方法。表 2 列出了以 第 4 期 李顺勇,等:一种新的最大相关最小冗余特征选择算法 ·651·
·652· 智能系统学报 第16卷 上方法。 各种算法在数据降维和用支持向量机分类后的分 2.2实验结果对比分析 类准确率,表3给出了以上各种算法在数据集isolet 特征选择过程是剔除原始数据集中的不相关 上的实验结果,即经支持向量机分类后,计算得 以及冗余特征,达到数据降维目的。为验证以上 到的分类准确率达到最大时所选择的特征数。 表2新提出的8种特征选择算法与其他算法对比 Table 2 Comparison of 8 newly proposed feature selection algorithms with other algorithms 对比算法 特征选择算法 冗余度评价准则 相关度评价准则 New-MRMR-F-P Pearson相关系数 Fisher Score New-MRMR-F-NI 互信息 Fisher Score New-MRMR-L-P Pearson相关系数 Laplacian Score New-MRMR-L-NI 互信息 Laplacian Score 本文新提出的8种算法 New-MRMR-K-P Pearson相关系数 Chi-squar Test New-MRMR-K-NI 互信息 Chi-squar Test New-MRMR-IG-P Pearson相关系数 Information Gian New-MRMR-IG-NI 互信息 Information Gian MRMR 互信息 互信息 Fisher Score Fisher Score Fisher Score 传统算法 Laplacian Score Laplacian Score Laplacian Score Chi-squar Test Chi-squar Test Chi-squar Test Information Gian Information Gian Information Gian 表3分类准确率最大时,数据集isolet上各种算法分别所选择的特征数 Table 3 Number of features selected by various algorithms when the Classification precision is maximum on the isolet data- set 对比算法 特征选择算法 所选特征数 分类准确率 New-MRMR-F-P 340 0.9583 New-MRMR-F-NI 341 0.9405 New-MRMR-IG-P 343 0.9635 New-MRMR-IG-NI 387 0.9583 本文新提出的8种算法 New-MRMR-K-P 289 0.9558 New-MRMR-K-NI 332 0.9557 New-MRMR-L-P 342 0.9457 New-MRMR-L-NI 288 0.9453 MRMR 391 0.9088 Fisher Score 389 0.8857 传统算法 Laplacian Score 487 0.9184 Chi-square Test 542 0.9335 Information Gain 489 0.9161 由表3可以看出,由以上各种算法对数据集 法,尤其是新提出的算法New-MRMR-IG-P,其分 isolet进行特征选择后,利用支持向量机对所选特 类准确率达到了0.9635,远高于传统的5种特征 征子集进行分类,本文新提出的8种特征选择算 选择算法。在保证准确率的情况下,其所选的特征 法的分类准确率,均高于传统的5种特征选择算 数也均小于传统的5种特征选择算法。可见,本文
上方法。 2.2 实验结果对比分析 特征选择过程是剔除原始数据集中的不相关 以及冗余特征,达到数据降维目的。为验证以上 各种算法在数据降维和用支持向量机分类后的分 类准确率,表 3 给出了以上各种算法在数据集 isolet 上的实验结果,即经支持向量机分类后,计算得 到的分类准确率达到最大时所选择的特征数。 表 2 新提出的 8 种特征选择算法与其他算法对比 Table 2 Comparison of 8 newly proposed feature selection algorithms with other algorithms 对比算法 特征选择算法 冗余度评价准则 相关度评价准则 本文新提出的8种算法 New-MRMR-F-P Pearson相关系数 Fisher Score New-MRMR-F-NI 互信息 Fisher Score New-MRMR-L-P Pearson相关系数 Laplacian Score New-MRMR-L-NI 互信息 Laplacian Score New-MRMR-K-P Pearson相关系数 Chi-squar Test New-MRMR-K-NI 互信息 Chi-squar Test New-MRMR-IG-P Pearson相关系数 Information Gian New-MRMR-IG-NI 互信息 Information Gian 传统算法 MRMR 互信息 互信息 Fisher Score Fisher Score Fisher Score Laplacian Score Laplacian Score Laplacian Score Chi-squar Test Chi-squar Test Chi-squar Test Information Gian Information Gian Information Gian 表 3 分类准确率最大时,数据集 isolet 上各种算法分别所选择的特征数 Table 3 Number of features selected by various algorithms when the Classification precision is maximum on the isolet dataset 对比算法 特征选择算法 所选特征数 分类准确率 本文新提出的8种算法 New-MRMR-F-P 340 0.958 3 New-MRMR-F-NI 341 0.940 5 New-MRMR-IG-P 343 0.963 5 New-MRMR-IG-NI 387 0.958 3 New-MRMR-K-P 289 0.955 8 New-MRMR-K-NI 332 0.955 7 New-MRMR-L-P 342 0.945 7 New-MRMR-L-NI 288 0.945 3 传统算法 MRMR 391 0.908 8 Fisher Score 389 0.885 7 Laplacian Score 487 0.918 4 Chi-square Test 542 0.933 5 Information Gain 489 0.916 1 由表 3 可以看出,由以上各种算法对数据集 isolet 进行特征选择后,利用支持向量机对所选特 征子集进行分类,本文新提出的 8 种特征选择算 法的分类准确率,均高于传统的 5 种特征选择算 法,尤其是新提出的算法 New-MRMR-IG-P,其分 类准确率达到了 0.963 5,远高于传统的 5 种特征 选择算法。在保证准确率的情况下,其所选的特征 数也均小于传统的 5 种特征选择算法。可见,本文 ·652· 智 能 系 统 学 报 第 16 卷
第4期 李顺勇,等:一种新的最大相关最小冗余特征选择算法 ·653· 新提出的特征选择算法在数据降维方面效果更佳。 且,在所选特征子集数为289时,其分类准确率达 图2是在数据集isolet上,本文新提出的特征 到了最高,既很好地去除了原始特征集中的冗余 选择算法New-MRMR-F-NI、New-MRMR-F-P,传 和不相关特征,又保证了分类准确率。此外,算 统特征选择算法MRMR、Fisher Score在不同维度 法New-MRMR-K-P除了在维度为195时的分类 下的分类准确率变化趋势。 准确率与传统算法MRMR相近之外,在其他维度 1.0 上的分类准确率均高于Chi-Square-Test、MRMR。 可见,本文新提出的特征选择算法效果更佳。 0.9 不同维度下,新提出的特征选择算法New- 0.8 MRMR-L-NI、New-MRMR-L-P,传统特征选择算 0.7 法MRMR、Laplacian-Score的分类准确率变化趋 0.6 -Fisher-Score 势见图4。 二Ne-MiRMR-F-N 1.0 0.5 +New-MRMR-F-P 0.4 0 200 400 600 数据维度K 0.8 图2 New-MRMR-F-NI、New-MRMR-F-P、Fisher-Score、 MRMR在数据集isolet上分类准确率的变化趋势 ◆Laplacian-Score Fig.2 Correct classification trend of New-MRMR-F-NI, -MRMR New-MRMR-F-P,Fisher-Score,MRMR on the New-MRMR-L-NI dataset isolet 0.4 -New-MRMR-L-P 从图2可以看出,对于在不同维度下的分类 200 400 600 准确率,新提出的特征选择算法New-MRMR-F 数据维度K NI、New-MRMR-F-P明显高于传统算法Fisher 图4 New-MRMR-L-NI、New-MRMR-L-P、Laplacian- Score、MRMR。所以,对于减少原始特征集中的 Score、MRMR在数据集isolet上,分类正确的变化 趋势 冗余和不相关特征,New-MRMR-F-NI、New- Fig.4 Correct classification trend of New-MRMR-L-NI, MRMR-F-P有更好的优势。 New-MRMR-L-P,Laplacian-Score,MRMR on the 不同维度下,本文新提算法New-MRMR-K- dataset isolet NI、New-MRMR-K-P,传统算法MRMR、Chi- 图4显示,在特征维度为342的时候,算法 Square-Test在数据集isolet上的分类准确率变化 New-MRMR-L-P的分类准确率就已经达到了最 趋势见图3。 高,并且大于传统算法Laplacian-Score、MRMR的 1.0 最大分类准确率。此外,在分类准确率达到最高 时,算法New-MRMR-L-NI所选的特征子集数仅 0.9 为288,远小于传统算法Laplacian-Score、 0.8 MRMR所选的特征子集数。因此,新提出的算法 0.7 New-MRMR-L-NI、New-MRMR-L-P对于特征选择 -Chi-square-Test 0.6 效果更好。 -MRMR .New-MRMR-K-NI 不同维度下,新提出的特征选择算法New- 0.5 -New-MRMR-K-P MRMR-IG-NI、New-MRMR-IG-P,传统特征选择 0.4 0 200 400 600 算法MRMR、Laplacian-Score的分类准确率变化 数据维度K 趋势见图5。 图3New-MRMR-K-NI、New-MRMR-K-P、Chi-Square- 由图5可以看出,在不同维度下,算法New: Test、MRMR在数据集isolet上分类准确率的变化 MRMR-IG-NI、New-MRMR-IG-P分类准确率的曲 趋势 Fig.3 Correct classification trend of New-MRMR-K-NI, 线,均高于传统的两种特征选择算法Information- New-MRMR-K-P、Chi-Square-.Test、MRMR on the Gain、MRMR所代表的曲线。分类准确率越高, dataset isolet 表明所选特征子集越好。可见,新出的算法New- 图3显示,不同维度下,New-MRMR-K-P的 MRMR-IG-NI以及New-MRMR-IG-P在特征选择 分类准确率曲线明显高于传统特征选择算法,并 方面更加有效
新提出的特征选择算法在数据降维方面效果更佳。 图 2 是在数据集 isolet 上,本文新提出的特征 选择算法 New-MRMR-F-NI、New-MRMR-F-P,传 统特征选择算法 MRMR、Fisher Score 在不同维度 下的分类准确率变化趋势。 0.9 1.0 0.8 0.7 0.6 0.5 0.4 分类准确率 0 400 600 200 数据维度 K MRMR Fisher-Score New-MRMR-F-NI New-MRMR-F-P 图 2 New-MRMR-F-NI、New-MRMR-F-P、Fisher-Score、 MRMR 在数据集 isolet 上分类准确率的变化趋势 Fig. 2 Correct classification trend of New-MRMR- F-NI, New-MRMR-F-P, Fisher-Score, MRMR on the dataset isolet 从图 2 可以看出,对于在不同维度下的分类 准确率,新提出的特征选择算法 New-MRMR-FNI、New-MRMR-F-P 明显高于传统算法 Fisher Score、MRMR。所以,对于减少原始特征集中的 冗余和不相关特征,New-MRMR-F-NI、NewMRMR-F-P 有更好的优势。 不同维度下,本文新提算法 New-MRMR-KNI、New-MRMR-K-P,传统算法 MRMR、ChiSquare-Test 在数据集 isolet 上的分类准确率变化 趋势见图 3。 MRMR Chi-square-Test New-MRMR-K-NI New-MRMR-K-P 0.9 1.0 0.8 0.7 0.6 0.5 0.4 分类准确率 0 400 600 200 数据维度 K 图 3 New-MRMR-K-NI、New-MRMR-K-P、Chi-SquareTest、MRMR 在数据集 isolet 上分类准确率的变化 趋势 Fig. 3 Correct classification trend of New-MRMR-K-NI、 New-MRMR-K-P、Chi-Square-Test、MRMR on the dataset isolet 图 3 显示,不同维度下,New-MRMR-K-P 的 分类准确率曲线明显高于传统特征选择算法,并 且,在所选特征子集数为 289 时,其分类准确率达 到了最高,既很好地去除了原始特征集中的冗余 和不相关特征,又保证了分类准确率。此外,算 法 New-MRMR-K-P 除了在维度为 195 时的分类 准确率与传统算法 MRMR 相近之外,在其他维度 上的分类准确率均高于 Chi-Square-Test、MRMR。 可见,本文新提出的特征选择算法效果更佳。 不同维度下,新提出的特征选择算法 NewMRMR-L-NI、New-MRMR-L-P,传统特征选择算 法 MRMR、Laplacian-Score 的分类准确率变化趋 势见图 4。 0.8 1.0 0.6 0.4 分类准确率 0 400 600 200 数据维度 K MRMR Laplacian-Score New-MRMR-L-NI New-MRMR-L-P 图 4 New-MRMR-L-NI、New-MRMR-L-P、LaplacianScore、MRMR 在数据集 isolet 上,分类正确的变化 趋势 Fig. 4 Correct classification trend of New-MRMR-L-NI、 New-MRMR-L-P, Laplacian-Score, MRMR on the dataset isolet 图 4 显示,在特征维度为 342 的时候,算法 New-MRMR-L-P 的分类准确率就已经达到了最 高,并且大于传统算法 Laplacian-Score、MRMR 的 最大分类准确率。此外,在分类准确率达到最高 时,算法 New-MRMR-L-NI 所选的特征子集数仅 为 288 ,远小于传统算 法 Laplacian-Score、 MRMR 所选的特征子集数。因此,新提出的算法 New-MRMR-L-NI、New-MRMR-L-P 对于特征选择 效果更好。 不同维度下,新提出的特征选择算法 NewMRMR-IG-NI、New-MRMR-IG-P,传统特征选择 算法 MRMR、Laplacian-Score 的分类准确率变化 趋势见图 5。 由图 5 可以看出,在不同维度下,算法 NewMRMR-IG-NI、New-MRMR-IG-P 分类准确率的曲 线,均高于传统的两种特征选择算法 InformationGain、MRMR 所代表的曲线。分类准确率越高, 表明所选特征子集越好。可见,新出的算法 NewMRMR-IG-NI 以及 New-MRMR-IG-P 在特征选择 方面更加有效。 第 4 期 李顺勇,等:一种新的最大相关最小冗余特征选择算法 ·653·