工程科学学报 Chinese Journal of Engineering 基于群体智能优化的MKL-SVM算法及肺结节识别 李阳常佳乐王宇阳 MKL-SVM algorithm for pulmonary nodule recognition based on swarm intelligence optimization LI Yang.CHANG Jia-yue,WANG Yu-yang 引用本文: 李阳,常佳乐,王宇阳.基于群体智能优化的MKL-SVM算法及肺结节识别.工程科学学报,2021,43(9%:1157-1165.doi: 10.13374j.issn2095-9389.2021.01.14.004 LI Yang,CHANG Jia-yue,WANG Yu-yang.MKL-SVM algorithm for pulmonary nodule recognition based on swarm intelligence optimization[J].Chinese Journal of Engineering.2021,43(9):1157-1165.doi:10.13374/j.issn2095-9389.2021.01.14.004 在线阅读View online::htps:/ldoi.org10.13374.issn2095-9389.2021.01.14.004 您可能感兴趣的其他文章 Articles you may be interested in 基于多目标支持向量机的ADHD分类 ADHD classification based on a multi-objective support vector machine 工程科学学报.2020,42(4:441 https:/1doi.org10.13374.issn2095-9389.2019.09.12.007 基于全局优化支持向量机的多类别高炉故障诊断 Multi-class fault diagnosis of BF based on global optimization LS-SVM 工程科学学报.2017,391)39 https:ldoi.org/10.13374.issn2095-9389.2017.01.005 基于逐层演化的群体智能算法优化 Optimization for swarm intelligence based on layer-by-layer evolution 工程科学学报.2017,393)462 https::/1doi.org/10.13374j.issn2095-9389.2017.03.020 无数学模型的非线性约束单目标系统优化方法改进 Optimization method improvement for nonlinear constrained single objective system without mathematical models 工程科学学报.2018,40(11:1402htps:oi.org10.13374.issn2095-9389.2018.11.014 基于改进的支持向量回归机算法的磁记忆定量化缺陷反演 Metal magnetic memory quantitative inversion of defects based onoptimized support vector machine regression 工程科学学报.2018,40(9外1123 https:oi.org10.13374j.issn2095-9389.2018.09.014 函数型数据分析与优化极限学习机结合的弹药传输机械臂参数辨识 Parameter identification of a shell transfer arm using FDA and optimized ELM 工程科学学报.2017,39(4:611htps:/doi.org10.13374issn2095-9389.2017.04.017
基于群体智能优化的MKL-SVM算法及肺结节识别 李阳 常佳乐 王宇阳 MKL-SVM algorithm for pulmonary nodule recognition based on swarm intelligence optimization LI Yang, CHANG Jia-yue, WANG Yu-yang 引用本文: 李阳, 常佳乐, 王宇阳. 基于群体智能优化的MKL-SVM算法及肺结节识别[J]. 工程科学学报, 2021, 43(9): 1157-1165. doi: 10.13374/j.issn2095-9389.2021.01.14.004 LI Yang, CHANG Jia-yue, WANG Yu-yang. MKL-SVM algorithm for pulmonary nodule recognition based on swarm intelligence optimization[J]. Chinese Journal of Engineering, 2021, 43(9): 1157-1165. doi: 10.13374/j.issn2095-9389.2021.01.14.004 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2021.01.14.004 您可能感兴趣的其他文章 Articles you may be interested in 基于多目标支持向量机的ADHD分类 ADHD classification based on a multi-objective support vector machine 工程科学学报. 2020, 42(4): 441 https://doi.org/10.13374/j.issn2095-9389.2019.09.12.007 基于全局优化支持向量机的多类别高炉故障诊断 Multi-class fault diagnosis of BF based on global optimization LS-SVM 工程科学学报. 2017, 39(1): 39 https://doi.org/10.13374/j.issn2095-9389.2017.01.005 基于逐层演化的群体智能算法优化 Optimization for swarm intelligence based on layer-by-layer evolution 工程科学学报. 2017, 39(3): 462 https://doi.org/10.13374/j.issn2095-9389.2017.03.020 无数学模型的非线性约束单目标系统优化方法改进 Optimization method improvement for nonlinear constrained single objective system without mathematical models 工程科学学报. 2018, 40(11): 1402 https://doi.org/10.13374/j.issn2095-9389.2018.11.014 基于改进的支持向量回归机算法的磁记忆定量化缺陷反演 Metal magnetic memory quantitative inversion of defects based onoptimized support vector machine regression 工程科学学报. 2018, 40(9): 1123 https://doi.org/10.13374/j.issn2095-9389.2018.09.014 函数型数据分析与优化极限学习机结合的弹药传输机械臂参数辨识 Parameter identification of a shell transfer arm using FDA and optimized ELM 工程科学学报. 2017, 39(4): 611 https://doi.org/10.13374/j.issn2095-9389.2017.04.017
工程科学学报.第43卷,第9期:1157-1165.2021年9月 Chinese Journal of Engineering,Vol.43,No.9:1157-1165,September 2021 https://doi.org/10.13374/j.issn2095-9389.2021.01.14.004;http://cje.ustb.edu.cn 基于群体智能优化的MKL-SVM算法及肺结节识别 李阳,常佳乐,王宇阳网 长春工业大学计算机科学与工程学院,长春130012 ☒通信作者,E-mail:liyangyaya1979@sina.com 摘要针对单核学习支持向量机无法兼顾学习能力与泛化能力以及多核函数参数寻优问题,提出了一种基于群体智能优 化的多核学习支持向量机算法.首先,研究了五种单核函数对支持向量机分类性能的影响,进一步提出具有全局性质的多项 式核和局部性质的拉普拉斯核凸组合形式的多核学习支持向量机算法;其次,为增加粒子多样性及快速寻优,将粒子群优化 算法引入了遗传算法中的杂交操作,并用此改进的群体智能优化算法对多核学习支持向量机进行参数寻优。最后,分别采用 深度特征与手工特征作为识别算法的输入,研究表明采用深度特征优于手工特征.故本文采用深度特征作为多核学习支持 向量机的输入,以交叉遗传与粒子群混合智能优化算法作为其寻优方式。实验选取合作医院数据集对所提算法进行训练并 初步测试,进一步为了验证所提算法的泛化能力,选取公开数据集LUN16进行测试.实验结果表明,本文算法易于跳出局 部最优解,提升了算法的学习能力与泛化能力,具有较优的分类性能 关键词核函数:支持向量机:交叉遗传:粒子群优化:深度特征 分类号TP391.4 MKL-SVM algorithm for pulmonary nodule recognition based on swarm intelligence optimization LI Yang,CHANG Jia-yue,WANG Yu-yang School of Computer Science and Engineering,Changchun University of Technology,Changchun 130012,China Corresponding author,E-mail:liyangyayal979@sina.com ABSTRACT To solve the problem that a single kernel learning support vector machine (SVM)cannot consider the learning and generalization abilities and parameter optimization of the multiple kemnel function,a multiple kernel learning support vector machine (MKL-SVM)algorithm based on swarm intelligence optimization was proposed.First,the impact of five single kemnel functions on the classification indexes of SVM was discussed.These kernel functions include two global kernel functions-the polynomial and sigmoid kernel functions-and three local kernel functions-the radial basis function,exponential kernel function,and Laplacian kernel function.Next,an MKL-SVM algorithm with a convex combination of a polynomial kernel having global properties and a Laplacian kernel having local properties was proposed.Then,to improve particle diversity to avoid falling into local optimal solutions during the iteration,and to reduce the model's training time,the crossover operation in the genetic algorithm was introduced into the particle swarm optimization(PSO)algorithm.This improved swarm intelligence optimization was used to optimize the parameters of the MKL-SVM. Finally,deep learning features based on the classical model VGG16 and handcrafted features according to doctors'suggestions were used as inputs for the recognition algorithm.In this algorithm,transfer learning was used to extract deep learning features and principal component analysis was used to reduce computational complexity through dimensionality reduction.The results show that using deep 收稿日期:2021-01-14 基金项目:国家自然科学基金资助项目(61806024吉林省教育厅十三五科研规划项目(KH20181041KJ,JJKH20200680KJ):吉林省科技 发展计划项目(20200401103GX)
基于群体智能优化的 MKL-SVM 算法及肺结节识别 李 阳,常佳乐,王宇阳苣 长春工业大学计算机科学与工程学院,长春 130012 苣通信作者,E-mail:liyangyaya1979@sina.com 摘 要 针对单核学习支持向量机无法兼顾学习能力与泛化能力以及多核函数参数寻优问题,提出了一种基于群体智能优 化的多核学习支持向量机算法. 首先,研究了五种单核函数对支持向量机分类性能的影响,进一步提出具有全局性质的多项 式核和局部性质的拉普拉斯核凸组合形式的多核学习支持向量机算法;其次,为增加粒子多样性及快速寻优,将粒子群优化 算法引入了遗传算法中的杂交操作,并用此改进的群体智能优化算法对多核学习支持向量机进行参数寻优. 最后,分别采用 深度特征与手工特征作为识别算法的输入,研究表明采用深度特征优于手工特征. 故本文采用深度特征作为多核学习支持 向量机的输入,以交叉遗传与粒子群混合智能优化算法作为其寻优方式. 实验选取合作医院数据集对所提算法进行训练并 初步测试,进一步为了验证所提算法的泛化能力,选取公开数据集 LUNA16 进行测试. 实验结果表明,本文算法易于跳出局 部最优解,提升了算法的学习能力与泛化能力,具有较优的分类性能. 关键词 核函数;支持向量机;交叉遗传;粒子群优化;深度特征 分类号 TP391.4 MKL-SVM algorithm for pulmonary nodule recognition based on swarm intelligence optimization LI Yang,CHANG Jia-yue,WANG Yu-yang苣 School of Computer Science and Engineering, Changchun University of Technology, Changchun 130012, China 苣 Corresponding author, E-mail: liyangyaya1979@sina.com ABSTRACT To solve the problem that a single kernel learning support vector machine (SVM) cannot consider the learning and generalization abilities and parameter optimization of the multiple kernel function, a multiple kernel learning support vector machine (MKL-SVM) algorithm based on swarm intelligence optimization was proposed. First, the impact of five single kernel functions on the classification indexes of SVM was discussed. These kernel functions include two global kernel functions — the polynomial and sigmoid kernel functions — and three local kernel functions —the radial basis function, exponential kernel function, and Laplacian kernel function. Next, an MKL-SVM algorithm with a convex combination of a polynomial kernel having global properties and a Laplacian kernel having local properties was proposed. Then, to improve particle diversity to avoid falling into local optimal solutions during the iteration, and to reduce the model’s training time, the crossover operation in the genetic algorithm was introduced into the particle swarm optimization (PSO) algorithm. This improved swarm intelligence optimization was used to optimize the parameters of the MKL-SVM. Finally, deep learning features based on the classical model VGG16 and handcrafted features according to doctors ’ suggestions were used as inputs for the recognition algorithm. In this algorithm, transfer learning was used to extract deep learning features and principal component analysis was used to reduce computational complexity through dimensionality reduction. The results show that using deep 收稿日期: 2021−01−14 基金项目: 国家自然科学基金资助项目 ( 61806024); 吉林省教育厅十三五科研规划项目 (JJKH20181041KJ, JJKH20200680KJ); 吉林省科技 发展计划项目 (20200401103GX) 工程科学学报,第 43 卷,第 9 期:1157−1165,2021 年 9 月 Chinese Journal of Engineering, Vol. 43, No. 9: 1157−1165, September 2021 https://doi.org/10.13374/j.issn2095-9389.2021.01.14.004; http://cje.ustb.edu.cn
·1158 工程科学学报,第43卷,第9期 learning features is better than handcrafted features.Therefore,this paper adopts the deep learning features as input for the MKL-SVM algorithm and the hybrid swarm intelligent optimization algorithm of crossover genetic and the PSO algorithm as the optimization method.To verify the generalization ability of the proposed algorithm,the public dataset LUNA16 was selected for testing.The experimental results show that the proposed algorithm is easy to jump out of the local optimal solution,improves the learning ability and generalization ability of the algorithm,and has a better classification performance. KEY WORDS kernel function;support vector machine;crossover genetic;particle swarm optimization:deep learning features 肺癌被认为是一种侵入性疾病,对人类生命健 本文分别采用根据医生建议设计的手工特征 康具有重大威胁,是癌症死亡的主要原因-)计算 和深度网络提取的深度特征作为所提识别算法的 机断层扫描成像(Computed tomography,CT)技术是 输入,以确定最终的特征输入方式.为了提高肺结 检测早期肺癌的重要手段.在CT图像上,早期肺癌 节识别算法的准确度,首先研究了五种单核函数 表现为直径小于30mm的圆形或类圆形致密影,即 对SVM分类性能的影响,进一步为兼顾学习能力 肺结节,因此,肺结节的早期识别可以有效地提高 与泛化能力的提升且避免算法陷入局部最优的情 肺癌患者的生存率,避免错过最佳治疗机会) 况,提出了一种基于群体智能优化的MKL-SVM 机器学习算法被广泛应用于医学图像处理 算法,多核函数加权了具有全局性质的多项式核 中,主要分为传统的机器学习算法及深度学习算 和局部性质的拉普拉斯核,从而达到模型快速寻 法.传统机器学习算法中,包括支持向量机(Support 优、准确识别的目的 vector machine,SVM)算法、随机森林(Random forest, 1MKL-SVM算法 RF)算法等,其中SVM应用最为广泛46核函数 是SVM的必要理论工具,能将原始数据映射到高 L.1SVM算法 维特征空间,实现非线性变换,构造适合给定问题 SVM算法是一种以统计理论为基础的传统机 的核函数可以提升分类器的性能.Shankar等)为 器学习方法,可以最小化结构误差和最大化几何边 解决甲状腺疾病的健康诊断问题,采用线性核和 缘,常用于分类任务和回归分析.SVM以结构风险 高斯核组合形式的多核学习支持向量机(Multiple 最小化为准则,在经验风险最小化的同时,兼顾了期 kernel learning support vector machine,MKL-SVM) 望风险最小化6在二分类情况中,SVM模型的原 法对甲状腺数据进行分类,多核函数较单一使用线 问题可以通过拉格朗日乘子法转化为对偶问题: 性核函数或高斯核函数的结果更优,准确度达到 97.49%.Peng等提出一种线性核、多项式核和高 mia∑∑ (xi,xi)- 斯核混合的MKL-SVM算法识别抑郁症,与单核 (1) s.t. SVM、朴素贝叶斯、决策树等方法相比错误率更 y1=0 低,可降低到16.54%.核函数的改进在一定程度上 0≤≤C,i=1,2.…,l 可以提高SVM的分类性能,但SVM模型参数选 构造决策函数为 择的影响也不容忽视.群体智能优化思想因其效 f(x)=sgn(g(x)); 率高、适应性强等特点被广泛应用于经典机器学 g()= ∑yKx,x)+b (2) 习算法模型的参数寻优.常用的群体智能优化算 法包括粒子群优化算法(Particle swarm optimization,. 偏置b的求解如式(3)所示: PSO)、遗传算法(Genetic algorithm,GA)、人工鱼群 算法(Artificial fish swarm algorithm,AFSA)等) b=y-∑yaK,x) (3) 近年来,深度学习被广泛应用于医学领域☒ i=l 传统的机器学习方法有着深厚的理论基础,但对 式中,和x为第i和j个样本输入的特征变量, 于大规模数据集仍存在挑战.深度学习算法具有 y和y为第i和j个样本对应的标签,a,和a,为拉 更高效的处理能力,但缺乏可解释性,且对于计算 格朗日乘子,K(,x)为核函数,C为正则化系数, 设备的要求较高,因此,对传统机器学习算法的研 描述了对错分样本的惩罚程度.很多情况下,训练 究仍然存有意义,将深度学习算法与传统机器学 数据集是线性不可分的,通过核函数映射至高维 习算法相结合也备受关注 特征空间,转换为高维空间中的线性问题,在这个
learning features is better than handcrafted features. Therefore, this paper adopts the deep learning features as input for the MKL-SVM algorithm and the hybrid swarm intelligent optimization algorithm of crossover genetic and the PSO algorithm as the optimization method. To verify the generalization ability of the proposed algorithm, the public dataset LUNA16 was selected for testing. The experimental results show that the proposed algorithm is easy to jump out of the local optimal solution, improves the learning ability and generalization ability of the algorithm, and has a better classification performance. KEY WORDS kernel function;support vector machine;crossover genetic;particle swarm optimization;deep learning features 肺癌被认为是一种侵入性疾病,对人类生命健 康具有重大威胁,是癌症死亡的主要原因[1–2] . 计算 机断层扫描成像 (Computed tomography, CT) 技术是 检测早期肺癌的重要手段. 在 CT 图像上,早期肺癌 表现为直径小于 30 mm 的圆形或类圆形致密影,即 肺结节. 因此,肺结节的早期识别可以有效地提高 肺癌患者的生存率,避免错过最佳治疗机会[3] . 机器学习算法被广泛应用于医学图像处理 中,主要分为传统的机器学习算法及深度学习算 法. 传统机器学习算法中,包括支持向量机 (Support vector machine, SVM) 算法、随机森林 (Random forest, RF) 算法等,其中 SVM 应用最为广泛[4–6] . 核函数 是 SVM 的必要理论工具,能将原始数据映射到高 维特征空间,实现非线性变换,构造适合给定问题 的核函数可以提升分类器的性能. Shankar 等[7] 为 解决甲状腺疾病的健康诊断问题,采用线性核和 高斯核组合形式的多核学习支持向量机 (Multiple kernel learning support vector machine, MKL-SVM) 算 法对甲状腺数据进行分类,多核函数较单一使用线 性核函数或高斯核函数的结果更优,准确度达到 97.49%. Peng 等[8] 提出一种线性核、多项式核和高 斯核混合的 MKL-SVM 算法识别抑郁症,与单核 SVM、朴素贝叶斯、决策树等方法相比错误率更 低,可降低到 16.54%. 核函数的改进在一定程度上 可以提高 SVM 的分类性能,但 SVM 模型参数选 择的影响也不容忽视. 群体智能优化思想因其效 率高、适应性强等特点被广泛应用于经典机器学 习算法模型的参数寻优. 常用的群体智能优化算 法包括粒子群优化算法 (Particle swarm optimization, PSO)、遗传算法 (Genetic algorithm, GA)、人工鱼群 算法 (Artificial fish swarm algorithm, AFSA) 等[9–11] . 近年来,深度学习被广泛应用于医学领域[12] . 传统的机器学习方法有着深厚的理论基础,但对 于大规模数据集仍存在挑战. 深度学习算法具有 更高效的处理能力,但缺乏可解释性,且对于计算 设备的要求较高. 因此,对传统机器学习算法的研 究仍然存有意义,将深度学习算法与传统机器学 习算法相结合也备受关注[13–15] . 本文分别采用根据医生建议设计的手工特征 和深度网络提取的深度特征作为所提识别算法的 输入,以确定最终的特征输入方式. 为了提高肺结 节识别算法的准确度,首先研究了五种单核函数 对 SVM 分类性能的影响,进一步为兼顾学习能力 与泛化能力的提升且避免算法陷入局部最优的情 况,提出了一种基于群体智能优化的 MKL-SVM 算法,多核函数加权了具有全局性质的多项式核 和局部性质的拉普拉斯核,从而达到模型快速寻 优、准确识别的目的. 1 MKL-SVM 算法 1.1 SVM 算法 SVM 算法是一种以统计理论为基础的传统机 器学习方法,可以最小化结构误差和最大化几何边 缘,常用于分类任务和回归分析. SVM 以结构风险 最小化为准则,在经验风险最小化的同时,兼顾了期 望风险最小化[16] . 在二分类情况中,SVM 模型的原 问题可以通过拉格朗日乘子法转化为对偶问题: min α 1 2 ∑ l i=1 ∑ l j=1 yiyjαiαjK(xi , xj)− ∑ l j=1 αj ; s.t. ∑ l i=1 yiαi = 0; 0 ⩽ αi ⩽ C,i = 1,2,··· ,l. (1) 构造决策函数为 f (x) = sgn(g(x)); g(x) = ∑ l i=1 αiyiK(xi , xj)+b (2) 偏置 b 的求解如式(3)所示: b = yj − ∑ l i=1 yiαiK(xi , xj) (3) K(xi , xj) 式中,xi 和 xj 为第 i 和 j 个样本输入的特征变量, yi 和 yj 为第 i 和 j 个样本对应的标签,αi 和 αj 为拉 格朗日乘子, 为核函数,C 为正则化系数, 描述了对错分样本的惩罚程度. 很多情况下,训练 数据集是线性不可分的,通过核函数映射至高维 特征空间,转换为高维空间中的线性问题,在这个 · 1158 · 工程科学学报,第 43 卷,第 9 期
李阳等:基于群体智能优化的MKL-SVM算法及肺结节识别 1159 高维空间中寻找最优分类面 超过此范围,数据的作用就会减弱.RBF核是一种 1.2核函数 经典的径向基核,也称为高斯核(Gaussian kernel), 核函数直接决定了特征空间的结构,核函数 取值仅依赖于特定点距离. 的选择是SVM的关键.核函数有诸多形式,但必 (4)指数核(Exponential kernel). 须满足Mercer定理.核函数分为线性核和非线性 Kexponent (x,)=exp -l 2g2 (8) 核,线性核一般应用于线性可分的情况,其特征空 间到输入空间的维度是一致的,如式(4)所示: 指数核也是一种径向基核,将向量之间的 K(x,x)=(x,x) (4) L2距离调整为L1距离,降低了对参数的依赖性, 实际问题大多是非线性的,故非线性核更为 但是适用范围较小 常用,包括多项式核函数、感知机核函数和径向基核 (5)拉普拉斯核(Laplacian kernel) 函数等,本文讨论的几种单核函数的具体表示如下: KLaplacian (x)=expg (-x (9) (1)多项式核(Polynomial kernel). Kpoly(x.x)=((x,x)+1)d (5) 拉普拉斯核也是一种径向基核,与指数核相类似 图1给出不同核函数全局性与局部性分析的 式中,d为多项式阶数,取大于1的正整数,随着参数 d的增大,泛化能力增强,但是当特征空间维数很高 仿真曲线.局部性核函数仅对样本中心点附近的 点有较大影响,影响会随距离的增大而减弱,具有 时,d值会很大,使得计算量激增,甚至对某些情况无 较好的拟合效果与较强的学习能力:全局性核函 法得到正确结果.故实际应用中d一般取值2~3. 数对与样本中心点距离较远的点也产生影响,有 (2)感知机核(Sigmoid kernel). 较好的泛化能力.如图1所示,图中横轴X表示 Ksigmoid(x,x)=tanh(a(x,x)+r) (6) x-x,纵轴Y表示K(x,x),当x→X时,K(,x)→1 式中,a为斜率,r为截距常数.Sigmoid核来源于 即x与x越接近,核函数的作用越明显.通过仿真 神经网络,常用作深度学习中的激活函数,使用 结果分析,多项式核是一种经典的全局性核函数, Sigmoid核的SVM相当于一个两层的感知机网络. 允许对多项式级的特征连接进行建模.Sigmoid核 (3)径向基核函数(Radial basis function,RBF). 也是一种全局性核函数.RBF核、指数核与拉普 Krbr(x,x')=exp Ix-xI2 (7) 拉斯核均为径向基核函数,是典型的局部性核函 2g2 数.与全局性核函数相比,局部性核函数学习能力 式中,g为RBF核的宽度,决定了函数作用范围, 较强,而泛化能力较弱. 2.5 0.4 (a) (b) 2.0 0.2 1.5 0 --0.2 1.0 -0.4 0.5 a03 -3 -0.6 a=0.5 0X0 0.5 0 0.5 10 -0.8 .0 -0.5 0 0.5 1.0 1.0 1.0 =0.2 1.0 (c) (d) =0.2 (e) =02 0.8 =05 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.4 02 0.2 0.2 0 -0.5 0.5 1.0 -1.0 -0.5 0 0.5 1.0 -1.0 0.5 0 0.5 1.0 图1不同核函数的全局性与局部性分析.(a)多项式核:(b)感知机核;(c)高斯核:(d)指数核:(e)拉普拉斯核 Fig.1 Global and local analyses of various kemel functions:(a)polynomial kernel;(b)sigmoid kemel;(c)Gaussian kernel;(d)exponential kernel; (e)Laplacian kemel
高维空间中寻找最优分类面. 1.2 核函数 核函数直接决定了特征空间的结构,核函数 的选择是 SVM 的关键. 核函数有诸多形式,但必 须满足 Mercer 定理. 核函数分为线性核和非线性 核,线性核一般应用于线性可分的情况,其特征空 间到输入空间的维度是一致的,如式(4)所示: K(x, x ′ ) = (x, x ′ ) (4) 实际问题大多是非线性的,故非线性核更为 常用,包括多项式核函数、感知机核函数和径向基核 函数等,本文讨论的几种单核函数的具体表示如下: (1)多项式核 (Polynomial kernel). Kpoly ( x, x ′ ) = ((x, x ′ ) + 1 )d (5) 式中,d 为多项式阶数,取大于 1 的正整数,随着参数 d 的增大,泛化能力增强,但是当特征空间维数很高 时,d 值会很大,使得计算量激增,甚至对某些情况无 法得到正确结果. 故实际应用中 d 一般取值 2~3. (2)感知机核 (Sigmoid kernel). Ksigmoid ( x, x ′ ) = tanh( a ( x, x ′ ) +r ) (6) 式中,a 为斜率,r 为截距常数. Sigmoid 核来源于 神经网络,常用作深度学习中的激活函数,使用 Sigmoid 核的 SVM 相当于一个两层的感知机网络. (3)径向基核函数 (Radial basis function, RBF). Krbf ( x, x ′ ) = exp( − ||x− x ′ ||2 2g 2 ) (7) 式中,g 为 RBF 核的宽度,决定了函数作用范围, 超过此范围,数据的作用就会减弱. RBF 核是一种 经典的径向基核,也称为高斯核 (Gaussian kernel), 取值仅依赖于特定点距离. (4)指数核 (Exponential kernel). Kexponent( x, x ′ ) = exp( − ||x− x ′ || 2g 2 ) (8) 指数核也是一种径向基核 ,将向量之间 的 L2 距离调整为 L1 距离,降低了对参数的依赖性, 但是适用范围较小. (5)拉普拉斯核 (Laplacian kernel). KLaplacian ( x, x ′ ) = exp( − ||x− x ′ || g ) (9) 拉普拉斯核也是一种径向基核,与指数核相类似. x− x ′ K(x, x ′ ) x → x ′ K(x, x ′ ) → 1 x ′ 图 1 给出不同核函数全局性与局部性分析的 仿真曲线. 局部性核函数仅对样本中心点附近的 点有较大影响,影响会随距离的增大而减弱,具有 较好的拟合效果与较强的学习能力;全局性核函 数对与样本中心点距离较远的点也产生影响,有 较好的泛化能力. 如图 1 所示,图中横轴 X 表示 ,纵轴 Y 表示 ,当 时 , , 即 x 与 越接近,核函数的作用越明显. 通过仿真 结果分析,多项式核是一种经典的全局性核函数, 允许对多项式级的特征连接进行建模. Sigmoid 核 也是一种全局性核函数. RBF 核、指数核与拉普 拉斯核均为径向基核函数,是典型的局部性核函 数. 与全局性核函数相比,局部性核函数学习能力 较强,而泛化能力较弱. 2.5 2.0 1.5 1.0 0.5 0 d=1 d=2 d=3 a=0.2 a=0.3 a=0.5 g=0.2 g=0.3 g=0.5 g=0.2 g=0.3 g=0.5 g=0.2 g=0.3 g=0.5 −1.0 −0.5 0 0.5 1.0 X −1.0 −0.5 0 0.5 1.0 X −1.0 −0.5 0 0.5 1.0 X Y Y Y 0.4 0.2 0 −0.2 −0.4 −0.6 −0.8 1.0 0.8 0.6 0.4 0.2 0 −1.0 −0.5 0 0.5 1.0 X Y 1.0 0.8 0.6 0.4 0.2 0 −1.0 −0.5 0 0.5 1.0 X Y 1.0 0.8 0.6 0.4 0.2 0 (a) (b) (c) (d) (e) 图 1 不同核函数的全局性与局部性分析. (a)多项式核;(b)感知机核;(c)高斯核;(d)指数核;(e)拉普拉斯核 Fig.1 Global and local analyses of various kernel functions: (a) polynomial kernel; (b) sigmoid kernel; (c) Gaussian kernel; (d) exponential kernel; (e) Laplacian kernel 李 阳等: 基于群体智能优化的 MKL-SVM 算法及肺结节识别 · 1159 ·
.1160 工程科学学报,第43卷,第9期 1.3MKL-SVM算法 究了PSO和GA的混合算法,利用GA算法中的遗 MKL-SVM通过选择合适的核函数或不同单 传变异算子来避免粒子出现早熟收敛现象,实验 核函数的加权组合形式,能够充分利用单个核函 结果表明混合算法在最优解、均值、计算时间等 数的特性.经证明核函数的加权凸组合形式满足 指标上均表现优异.Koessler等pu为提高算法的 Mercer定理,仍为核函数,可用于SVM模型,如 鲁棒性,提出了模式搜索和PSO混合的优化算法, 式(10)所示: 先运行PSO寻求最佳位置后,再利用模式搜索方 法以进一步最小化适应度函数,实验结果表明混 Kmultiple(x,x= ∑mKa(kx 合算法在提高精度和鲁棒性方面取得了成功, =1 (10) 之m=l0<m%<1,a=1,…,W 本文借鉴GA算法中的杂交操作,以增加PSO 算法中粒子的多样性,即在PSO算法每次迭代过 程中根据杂交概率选取一定数量的粒子放入杂交 式中,m是每种基本内核在多核函数中所占的权 重,多核函数共采用N种基本内核函数,其权重之 池,用两两杂交产生相同数目的子代粒子替换亲 和取为1 代粒子.子代粒子的位置和速度计算公式如式 (11)所示: 2基于群体智能优化的MKL-SVM识别 Cx=BP1(x)+(1-B)·P2(x) 算法 P1(v)+P2(v (11) Cy= P1(v川 IP1(v)+P2(v)川 2.1群体智能优化算法 式中,C代表子代粒子的位置,C代表子代粒子的 群体智能优化是一种启发式算法,主要模拟 速度,P和P2代表亲代粒子,x代表粒子位置, 自然界中各种生物的生活行为,如昆虫、鱼群、鸟 v代表粒子速度,B为0到1之间的随机数,代表杂 群等,它们通过一种合作的方式觅食,群体中的各 交概率.提出的基于交叉遗传与粒子群混合的群 个生物通过累积经验不断更新搜索方向刀群体 体智能优化(GAPSO)算法的过程如图2所示 智能优化算法灵活、高效、适应性强且易于实现, 广泛应用于各种问题 GA算法由Holland于1975年提出,是一种借 Start Find individual extremum and group extremum 鉴生物界自然选择与进化机制而发展的全局优化 算法.GA算法随机产生初始解,通过一定的选 Initialize the particle Generate offspring particles velocity and position according to the probability of 择、交叉、变异操作,逐步迭代产生解.GA算法的 crossover to replace parent The calculation of fitness particles 适应性广泛,不依赖于问题的具体领域,隐含并行 value 搜索特性,减少了陷入局部最优解的情况.PSO算 The calculation of fitness value Update the particle 法最早由Kennedy和Eberhart于I955年提出,从 velocity and position 鸟群觅食行为特征中得到启发,并应用于求解优 Update individlual extremum and group extremum 化问题中,算法中每个粒子代表问题的一个潜在 Yes Within the scope 解,且对应于一个适应度值,粒子的速度决定其移 No of limits? 动方向和距离,速度随粒子的变换经验进行调整, The maximum number of iterations? 从而达到寻优的目的.与网格搜索算法相比, No Replace with the PSO算法无需遍历所有组合参数,能节约模型的 maximum or minimum Yes value 训练时间:PSO算法与GA算法相比,无需进行选 End 择、交叉、变异的操作,通过粒子在解空间追踪最 优的粒子进行搜索.虽然PSO算法能够更快地得 图2 GAPSO的算法流程图 Fig.2 Flowchart of the GAPSO algorithm 到最优解,但其缺点是随着迭代次数的增加,种群 多样性减少,易引起粒子早熟现象,从而易陷入局 2.2群体智能优化的MKL-SVM算法 部最优,为提高PSO算法的整体性能,可以从参 本文进一步提出了一种改进的MKL-SVM算 数设置、收敛性及与其他算法结合等方面进行改 法,基本内核采用具有较强泛化能力的多项式核 进Choudhary等I2oI为声表面波工艺参数优化研 函数和具有较强学习能力的拉普拉斯核函数进行
1.3 MKL-SVM 算法 MKL-SVM 通过选择合适的核函数或不同单 核函数的加权组合形式,能够充分利用单个核函 数的特性. 经证明核函数的加权凸组合形式满足 Mercer 定理,仍为核函数,可用于 SVM 模型[4] ,如 式(10)所示: Kmultiple (x, x ′ ) = ∑ N α=1 mαKα ( x, x ′ ) ; ∑ N α=1 mα = 1, 0 < mα < 1, α = 1,··· ,N (10) 式中,mα是每种基本内核在多核函数中所占的权 重,多核函数共采用 N 种基本内核函数,其权重之 和取为 1. 2 基于群体智能优化的 MKL-SVM 识别 算法 2.1 群体智能优化算法 群体智能优化是一种启发式算法,主要模拟 自然界中各种生物的生活行为,如昆虫、鱼群、鸟 群等,它们通过一种合作的方式觅食,群体中的各 个生物通过累积经验不断更新搜索方向[17] . 群体 智能优化算法灵活、高效、适应性强且易于实现, 广泛应用于各种问题. GA 算法由 Holland 于 1975 年提出,是一种借 鉴生物界自然选择与进化机制而发展的全局优化 算法. GA 算法随机产生初始解,通过一定的选 择、交叉、变异操作,逐步迭代产生解. GA 算法的 适应性广泛,不依赖于问题的具体领域,隐含并行 搜索特性,减少了陷入局部最优解的情况. PSO 算 法最早由 Kennedy 和 Eberhart 于 1955 年提出,从 鸟群觅食行为特征中得到启发,并应用于求解优 化问题中. 算法中每个粒子代表问题的一个潜在 解,且对应于一个适应度值,粒子的速度决定其移 动方向和距离,速度随粒子的变换经验进行调整, 从而达到寻优的目的. 与网格搜索算法相比 , PSO 算法无需遍历所有组合参数,能节约模型的 训练时间;PSO 算法与 GA 算法相比,无需进行选 择、交叉、变异的操作,通过粒子在解空间追踪最 优的粒子进行搜索. 虽然 PSO 算法能够更快地得 到最优解,但其缺点是随着迭代次数的增加,种群 多样性减少,易引起粒子早熟现象,从而易陷入局 部最优[18] . 为提高 PSO 算法的整体性能,可以从参 数设置、收敛性及与其他算法结合等方面进行改 进[19] . Choudhary 等[20] 为声表面波工艺参数优化研 究了 PSO 和 GA 的混合算法,利用 GA 算法中的遗 传变异算子来避免粒子出现早熟收敛现象,实验 结果表明混合算法在最优解、均值、计算时间等 指标上均表现优异. Koessler 等[21] 为提高算法的 鲁棒性,提出了模式搜索和 PSO 混合的优化算法, 先运行 PSO 寻求最佳位置后,再利用模式搜索方 法以进一步最小化适应度函数,实验结果表明混 合算法在提高精度和鲁棒性方面取得了成功. 本文借鉴 GA 算法中的杂交操作,以增加 PSO 算法中粒子的多样性,即在 PSO 算法每次迭代过 程中根据杂交概率选取一定数量的粒子放入杂交 池,用两两杂交产生相同数目的子代粒子替换亲 代粒子. 子代粒子的位置和速度计算公式如式 (11)所示: Cx = β · P1(x)+(1−β)· P2(x) Cv = P1(v)+ P2(v) |P1(v)+ P2(v)| · |P1(v)| (11) Cx Cv β 式中, 代表子代粒子的位置, 代表子代粒子的 速度 , P1 和 P2 代表亲代粒子 , x 代表粒子位置 , v 代表粒子速度, 为 0 到 1 之间的随机数,代表杂 交概率. 提出的基于交叉遗传与粒子群混合的群 体智能优化 (GAPSO) 算法的过程如图 2 所示. Start Initialize the particle velocity and position The calculation of fitness value Update the particle velocity and position Yes Within the scope of limits? No Replace with the maximum or minimum value Find individual extremum and group extremum Generate offspring particles according to the probability of crossover to replace parent particles The calculation of fitness value Update individlual extremum and group extremum No The maximum number of iterations? Yes End 图 2 GAPSO 的算法流程图 Fig.2 Flowchart of the GAPSO algorithm 2.2 群体智能优化的 MKL-SVM 算法 本文进一步提出了一种改进的 MKL-SVM 算 法,基本内核采用具有较强泛化能力的多项式核 函数和具有较强学习能力的拉普拉斯核函数进行 · 1160 · 工程科学学报,第 43 卷,第 9 期