第13卷第6期 智能系统学报 Vol.13 No.6 2018年12月 CAAI Transactions on Intelligent Systems Dec.2018 D0:10.11992/tis.201705021 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180410.0939.004html 一种具有迁移学习能力的RBF-NN算法及其应用 许敏2,史荧中2,葛洪伟,黄能耿2 (1.江南大学物联网技术学院,江苏无锡214122:2.无锡职业技术学院物联网技术学院,江苏无锡214121) 摘要:经典的径向基人工神经网络学习能逼近任意函数,因而应用广泛。但其存在的一个重要缺陷是,在已 标签样本过少、不能反映数据集整体分布情况下,容易产生过拟合现象,从而导致泛化性能严重下降。针对上 述问题,探讨具有迁移学习能力的径向基人工神经网络学习算法,该算法在引入ε不敏感损失函数和结构风险 项的同时,学习源领域径向基函数的中心向量及核宽和源领域模型参数,通过充分学习历史源领域知识来弥 补当前领域因已标签样本少而导致泛化能力下降的不足。将该算法应用于人造数据集和真实发酵数据集进 行验证,和传统的RBF神经网络算法相比,所提算法在已标签样本少而存在数据缺失的场景下,具有更好的适 应性。 关键词:径向基函数神经网络;迁移学习;径向基函数中心向量:ε不敏感损失函数;信息缺失 中图分类号:TP391文献标志码:A文章编号:1673-4785(2018)06-0959-08 中文引用格式:许敏,史荧中,葛洪伟,等.一种具有迁移学习能力的RBF-NN算法及其应用引J.智能系统学报,2018,13(6): 959-966. 英文引用格式:XU Min,SHI Yingzhong,GE Hongwei,etaL.ARBF-NN algorithm with transfer learning ability and its applica- tionJ.CAAI transactions on intelligent systems,2018,13(6):959-966. A RBF-NN algorithm with transfer learning ability and its application XU Min2,SHI Yingzhong',GE Hongwei',HUANG Nenggeng (1.School of Internet of things technology,Jiangnan University,Wuxi 214122,China;2.School of Internet of things technology, Wuxi Institute of Technology,Wuxi 214121,China) Abstract:The classical radial basis function neural network(RBF-NN)is widely used as it can approximate any func- tion.However,one of its main defects is that overfitting is likely to occur when there are too few labeled samples to re- flect the overall distribution of datasets;this leads to a serious decline in its generalization ability.To solve the above problem,an artificial RBF-NN learning algorithm with transfer learning ability is discussed.The algorithm introduces the e-insensitive loss function and the structural risk term and also learns the center vector and kernel width of the radial basis function as well as the parameters of the source domain model.The algorithm fully learns the knowledge in the historical source domain to compensate for its decline in generalization ability caused by the lack of labeled samples in the current field.To verify the algorithm,it is applied to an artificial dataset and real fermentation dataset.Compared with the traditional RBF-NN algorithm,the proposed algorithm has a better adaptability as regards less labeled samples and missing data. Keywords:radial basis function neural network,transfer learning;radial basis function vector,s-insensitive loss func- tion:missing information 收稿日期:2017-05-17.网络出版日期:201804-10. 1985年,Powell提出多变量插值的径向基函 基金项目:国家自然科学基金项目(61572236):江苏省高等学 校自然科学研究项目(18KJB520048):江苏高校“青 数(radical basic function,RBF)方法。l988年, 蓝工程”项目(苏教师〔2016〕15号):江苏省“333 高层次人才培养工程”项目(苏人才〔2016)7号). Moody和Darken提出了一种神经网络结构,即 通信作者:许敏.E-mail:applexu9027@126.com. RBF神经网络。该网络能够以任意精度逼近任意
DOI: 10.11992/tis.201705021 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180410.0939.004.html 一种具有迁移学习能力的 RBF-NN 算法及其应用 许敏1,2,史荧中2 ,葛洪伟1 ,黄能耿2 (1. 江南大学 物联网技术学院,江苏 无锡 214122; 2. 无锡职业技术学院 物联网技术学院,江苏 无锡 214121) ε 摘 要:经典的径向基人工神经网络学习能逼近任意函数,因而应用广泛。但其存在的一个重要缺陷是,在已 标签样本过少、不能反映数据集整体分布情况下,容易产生过拟合现象,从而导致泛化性能严重下降。针对上 述问题,探讨具有迁移学习能力的径向基人工神经网络学习算法,该算法在引入 不敏感损失函数和结构风险 项的同时,学习源领域径向基函数的中心向量及核宽和源领域模型参数,通过充分学习历史源领域知识来弥 补当前领域因已标签样本少而导致泛化能力下降的不足。将该算法应用于人造数据集和真实发酵数据集进 行验证,和传统的 RBF 神经网络算法相比,所提算法在已标签样本少而存在数据缺失的场景下,具有更好的适 应性。 关键词:径向基函数神经网络;迁移学习;径向基函数中心向量;ε 不敏感损失函数;信息缺失 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2018)06−0959−08 中文引用格式:许敏, 史荧中, 葛洪伟, 等. 一种具有迁移学习能力的 RBF-NN 算法及其应用[J]. 智能系统学报, 2018, 13(6): 959–966. 英文引用格式:XU Min, SHI Yingzhong, GE Hongwei, et al. A RBF-NN algorithm with transfer learning ability and its application[J]. CAAI transactions on intelligent systems, 2018, 13(6): 959–966. A RBF-NN algorithm with transfer learning ability and its application XU Min1,2 ,SHI Yingzhong2 ,GE Hongwei1 ,HUANG Nenggeng2 (1. School of Internet of things technology, Jiangnan University, Wuxi 214122, China; 2. School of Internet of things technology, Wuxi Institute of Technology, Wuxi 214121, China) " Abstract: The classical radial basis function neural network (RBF-NN) is widely used as it can approximate any function. However, one of its main defects is that overfitting is likely to occur when there are too few labeled samples to reflect the overall distribution of datasets; this leads to a serious decline in its generalization ability. To solve the above problem, an artificial RBF-NN learning algorithm with transfer learning ability is discussed. The algorithm introduces the -insensitive loss function and the structural risk term and also learns the center vector and kernel width of the radial basis function as well as the parameters of the source domain model. The algorithm fully learns the knowledge in the historical source domain to compensate for its decline in generalization ability caused by the lack of labeled samples in the current field. To verify the algorithm, it is applied to an artificial dataset and real fermentation dataset. Compared with the traditional RBF-NN algorithm, the proposed algorithm has a better adaptability as regards less labeled samples and missing data. Keywords: radial basis function neural network; transfer learning; radial basis function vector; ε-insensitive loss function; missing information 1985 年,Powell 提出多变量插值的径向基函 数 (radical basic function, RBF) 方法。1988 年, Moody 和 Darken[1]提出了一种神经网络结构,即 RBF 神经网络。该网络能够以任意精度逼近任意 收稿日期:2017−05−17. 网络出版日期:2018−04−10. 基金项目:国家自然科学基金项目 (61572236);江苏省高等学 校自然科学研究项目(18KJB520048);江苏高校“青 蓝工程”项目 (苏教师〔2016〕15 号);江苏省“333 高层次人才培养工程”项目 (苏人才〔2016〕7 号). 通信作者:许敏. E-mail:applexu9027@126.com. 第 13 卷第 6 期 智 能 系 统 学 报 Vol.13 No.6 2018 年 12 月 CAAI Transactions on Intelligent Systems Dec. 2018
·960· 智能系统学报 第13卷 连续函数,非线性拟合能力强,具有很强的鲁棒 (c-RBF with transfer learning ability,s-TLRBF) 性,因此应用广泛,如海洋表面温度预测、网络 算法,通过引入ε不敏感损失函数和学习源领域径 安全态势预测、智能轮椅自适应控制、失业率 向基函数的中心向量及核宽和源领域模型参数, 预测阿、电力系统的可用输电能力在线估计6、在 帮助目标领域建立模型。 线恶意垃圾邮件检测等。随着应用范围的推 1RBF神经网络 广,研究者们发现RBF神经网络仍存在一些不 足,制约其进一步的发展和应用,故许多专家学 RBF神经网络由输入层、隐含层和输出层组 者提出了一些改进算法,如有学者提出对神经网 成,由图1所示。其中,x:∈,y∈R,隐含层节点 络的结构进行优化,相关学习算法主要有两大 数为M,RBF神经网络完成f:R→R的非线性映射。 类:1)先构造复杂的网络结构,再通过训练精简 网络结构,如韩敏等提出了一种改进的RAN算 法,该方法采用样本的输入输出信息对网络进行 初始化,再根据FPE剪枝策略对网络结构进行简 化:2)先采用精简的网络结构,再通过训练增大 网络规模,直至达到泛化要求,如Plat等例提出了 种资源分配网络,该方法首先创建一个精简网 图1RBF神经网络模型 络,当网络出现异常模式时,通过分配新单元和 Fig.1 The model of RBF neural network 修改已有单元参数来进行学习,直至网络稳定 在RBF神经网络中,输入层接收训练样本; 基于聚类的RBF神经网络隐含层数据中心一般 隐含层节点通过径向基函数执行一种非线性变 通过K-means聚类算法获得,故有学者提出对该 化,将输入空间映射到一个新的空间,若该径向 聚类方法进行优化以提高算法泛化性能-12。 基函数定义为高斯函数,设c:∈R表示高斯函数的 此外,还有一些学者研究各种基于进化算法的 中心,6,表示高斯函数的核宽,该函数可表示为 RBF神经网络31。如Lacerda等到提出使用遗 (lIx-cill)exp -cl2 (1) 传算法优化学习参数:Shekhar等提出使用模拟 6 退火算法确定神经网络的连接权值;Alexandridis 输出层节点在该新空间实现线性加权组合。 等提出使用粒子群算法和模糊均值法确定隐含 设w,为隐含层与输出层的连接权值,(©)为径向基 层的中心,改进网络的结构等。 函数,R4→R的映射函数为 从上述文献综述可以发现,以往的研究主要 y=f(x)= w,φlr-cD i=1,2,…,M (2) 围绕RBF神经网络的网络结构和参数设计展开, 所解决问题的场景是采集到的数据能反映数据集 2RBF神经网络与线性模型 的分布情况,但在实际应用中,信息采集器或传 感器设备可能会出现故障,导致采集到的数据不 由第1节介绍可知,RBF神经网络的参数有 完整。训练样本不完整,或多或少都会影响RBF 3个,径向基函数的中心向量c,=[cac2…caJ,核 神经网络的学习效率,使网络的推广能力变差。 宽6,和隐含层与输出层的连接权值%,。其中,c、 训练样本反映数据集总体分布的程度对算法的泛 6,可利用模糊C均值(FCM)聚类技术确定,参数 化性能有着重要的影响。到目前为止,样本数量 w:利用梯度下降学习算法获得。设4表示 和质量对RBF神经网络算法泛化性能影响方面 FCM聚类算法得到的样本x对于第类的模糊隶 的研究还不多。针对上述问题,本文将迁移学习 属度,h是可调缩放参数,n表示训练样本规模, 思想引入RBF神经网络,提出已标签样本少时的 M表示隐含层节点数,径向基函数的中心c和核 RBF神经网络学习算法。所谓迁移学习,就是学 宽6可由式(3)表示: 习已有的源领域知识来解决目标领域中已标签样 本数量较少甚至没有的学习问题61m。该思想已 1 I C设= -,0=h (3) 广泛应用于分类、回归、概率密度估计等各类机 H 器学习领域。本文在文献[I8]提出的εRBF算法 的基础上,提出了具有迁移学习能力的RBF神经 令产=Φlr-clD,i=1,2,…,M
连续函数,非线性拟合能力强,具有很强的鲁棒 性,因此应用广泛,如海洋表面温度预测[2] 、网络 安全态势预测[3] 、智能轮椅自适应控制[4] 、失业率 预测[5] 、电力系统的可用输电能力在线估计[6] 、在 线恶意垃圾邮件检测[7]等。随着应用范围的推 广,研究者们发现 RBF 神经网络仍存在一些不 足,制约其进一步的发展和应用,故许多专家学 者提出了一些改进算法,如有学者提出对神经网 络的结构进行优化,相关学习算法主要有两大 类:1) 先构造复杂的网络结构,再通过训练精简 网络结构,如韩敏等[8]提出了一种改进的 RAN 算 法,该方法采用样本的输入输出信息对网络进行 初始化,再根据 FPE 剪枝策略对网络结构进行简 化;2) 先采用精简的网络结构,再通过训练增大 网络规模,直至达到泛化要求,如 Platt 等 [9]提出了 一种资源分配网络,该方法首先创建一个精简网 络,当网络出现异常模式时,通过分配新单元和 修改已有单元参数来进行学习,直至网络稳定。 基于聚类的 RBF 神经网络隐含层数据中心一般 通过 K-means 聚类算法获得,故有学者提出对该 聚类方法进行优化以提高算法泛化性能[ 1 0 - 1 2 ]。 此外,还有一些学者研究各种基于进化算法的 RBF 神经网络[13-15]。如 Lacerda 等 [13]提出使用遗 传算法优化学习参数;Shekhar 等 [14]提出使用模拟 退火算法确定神经网络的连接权值;Alexandridis 等 [15]提出使用粒子群算法和模糊均值法确定隐含 层的中心,改进网络的结构等。 ε- 从上述文献综述可以发现,以往的研究主要 围绕 RBF 神经网络的网络结构和参数设计展开, 所解决问题的场景是采集到的数据能反映数据集 的分布情况,但在实际应用中,信息采集器或传 感器设备可能会出现故障,导致采集到的数据不 完整。训练样本不完整,或多或少都会影响 RBF 神经网络的学习效率,使网络的推广能力变差。 训练样本反映数据集总体分布的程度对算法的泛 化性能有着重要的影响。到目前为止,样本数量 和质量对 RBF 神经网络算法泛化性能影响方面 的研究还不多。针对上述问题,本文将迁移学习 思想引入 RBF 神经网络,提出已标签样本少时的 RBF 神经网络学习算法。所谓迁移学习,就是学 习已有的源领域知识来解决目标领域中已标签样 本数量较少甚至没有的学习问题[16-17]。该思想已 广泛应用于分类、回归、概率密度估计等各类机 器学习领域。本文在文献[18]提出的 RBF 算法 的基础上,提出了具有迁移学习能力的 RBF 神经 ε- ε 网络 (ε-RBF with transfer learning ability, TLRBF) 算法,通过引入 不敏感损失函数和学习源领域径 向基函数的中心向量及核宽和源领域模型参数, 帮助目标领域建立模型。 1 RBF 神经网络 xi ∈ R d y ∈ R f : R d → R RBF 神经网络由输入层、隐含层和输出层组 成,由图 1 所示。其中, , ,隐含层节点 数为 M,RBF 神经网络完成 的非线性映射。 y w1 c1 x1 x2 xd c2 cM w2 wM Σ ... ... ... 图 1 RBF 神经网络模型 Fig. 1 The model of RBF neural network ci ∈ R d δi 在 RBF 神经网络中,输入层接收训练样本; 隐含层节点通过径向基函数执行一种非线性变 化,将输入空间映射到一个新的空间,若该径向 基函数定义为高斯函数,设 表示高斯函数的 中心, 表示高斯函数的核宽,该函数可表示为 ϕ(∥x− ci∥) = exp( − ∥x− ci∥ 2 δi ) (1) wi ϕ(•) R d → R 输出层节点在该新空间实现线性加权组合。 设 为隐含层与输出层的连接权值, 为径向基 函数, 的映射函数为 y = f (x) = ∑M i=1 wiϕ(∥x− ci∥) i = 1,2,··· , M (2) 2 RBF 神经网络与线性模型 ci = [ci1 ci2 ··· cid] T δi wi ci δi wi µji xj i h cik δi 由第 1 节介绍可知,RBF 神经网络的参数有 3 个,径向基函数的中心向量 ,核 宽 和隐含层与输出层的连接权值 。其中, 、 可利用模糊 C 均值 (FCM) 聚类技术确定,参数 利用梯度下降学习算法获得。设 表 示 FCM 聚类算法得到的样本 对于第 类的模糊隶 属度, 是可调缩放参数,n 表示训练样本规模, M 表示隐含层节点数,径向基函数的中心 和核 宽 可由式 (3) 表示: cik = ∑n j=1 µjixjk ∑n j=1 µji ,δi = h ∑n j=1 µji xj − ci 2 ∑n j=1 µji (3) x˜ i 令 = ϕ(∥x− ci∥),i = 1,2,··· , M ·960· 智 能 系 统 学 报 第 13 卷
第6期 许敏,等:一种具有迁移学习能力的RBF-NN算法及其应用 ·961· 元,=… (4) 核宽集合△={61,62,…,6w,源领域核宽可调缩放 通过式(3)得到径向基函数的中心c:和核宽 参数h,模型参数p,其中M为隐含层节点个数。 6,代人式(I)将输人样本映射到新空间f:R→R“, 目标领域数据集为X={(x,y1,其中,x∈R, 输入层至隐含层的转换为非线性映射。 n为目标域样本数,且n>M。 设p。=w1w2…ww,神经网络函数可表示为 1)设h为目标域核宽的可调参数,目标域中 y=Ps is (5) 心向量集Cg={c,C2,…,cgM中每一个中心向量 由式(5)可知,当径向基函数隐含层被估计 c学习源领域高斯函数中心向量c,目标域高斯 后,网络的输出可转换成一个线性模型。 函数核宽6,学习源领域核宽6,获得,如式(6)表 示,实现输入层至隐含层R→RM的非线性映射, 3具有迁移学习能力的RBF神经网络 得到新空间的数据集又={(住,)1,其中,元a∈R“。 对于经典的RBF神经网络算法中的参数W, c=c0a=h,元,i=1,2…,M (6) 常采用梯度下降学习策略。但该策略的缺陷是抗 2)引入ε不敏感损失函数和结构风险项并学 噪音能力差以及对小样本数据集的泛化能力差。 习源领域已知参数P,取代梯度下降法求目标领 针对上述两问题,本文提出算法在引入ε不敏感损 域模型参数p。 失函数提高算法的抗噪能力的基础上,通过学习 首先,给出ε不敏感损失函数的定义: 已有源领域知识解决小样本泛化能力差的问题。 定义(饯性)不敏感损失函数LF(x,,)定义为网 通过第1、第2节分析可知,RBF神经网络学习分 L(x,y,f)=by-f(x儿=max(0,y-f(x儿) 为两大部分:)利用径向基函数映射到新空间; 式中:xeR,yeRo 2)采用梯度下降法求参数w,本文所提算法学习 对于式(5)线性模型,其对应的ε不敏感损失 源领域已有知识也从这两方面进行考虑。因目标 领域样本较少,不能反映数据集整体分布情况, 函数可表示为 故通过FCM聚类算法获得的聚类中心并不一定 2--立o-以- 能反映目标域数据集的聚类中心,而源领域与目 i=1 (7) 标领域存在一定的相似性,故εTLRBF算法首先 学习源领域径向基函数的中心向量和核宽,接着 立man, 引人ε不敏感损失函数和结构风险项并学习源领 式中:表示神经网络输出,y表示真实输出。 域已知参数,建立目标领域模型,算法思路如 对于式(7),p:T-为<和%-paTx<的约束 图2所示。 条件并不一定总能满足,故引入松弛因子,和, 可得到如下约束条件: RBF神经网络 为-PgT元<E+5 Ps ig-yi<8+ ,5≥0,5≥0 (8) 学习源领域RBF神经网络高斯函数 本算法的目的是要使式(7表示的ε不敏感损 中心向量和核宽 失函数值最小,结合式(8),可等价表示为 in∑(传:+号) 样本数据有噪音 已标签样本过少 (9) 容易导致过拟合 导致学习效果差 s.t. -PgTi<E+5 Pg元-<ε+金 ,5≥0,≥0 引入ε不敏感误差准则 接着,加入结构化风险项。支持向量机是结 和结构风险 学习源域参数P, 构风险最小化原则的一种实现,学习支持向量机 的实现方法,引人正则化项”,w,使算法结构风 基于8-不敏感误差准则 险最小,故式(9)加入结构化风险项后可用式 和结构风险的具有迁移学习 (10)表示: 能力的RBF神经网络 图2 &-TLRBF算法思路 mf+c∑+ Fig.2 The idea of the s-TLRBF algorithm 下面具体介绍算法的实现。 s.t. A8t60发≥01=12 设源领域高斯函数中心向量集C={c1,c2,…,cw, (10)
x˜ g = [ x˜ 1 x˜ 2 ··· x˜ M ]T (4) ci δi f : R d → R M 通过式 (3) 得到径向基函数的中心 和核宽 ,代入式 (1) 将输入样本映射到新空间 , 输入层至隐含层的转换为非线性映射。 pg = [w1 w2 ··· wM] 设 T ,神经网络函数可表示为 y = pg T x˜ g (5) 由式 (5) 可知,当径向基函数隐含层被估计 后,网络的输出可转换成一个线性模型。 3 具有迁移学习能力的 RBF 神经网络 wi ε wi ε-TLRBF ε wi 对于经典的 RBF 神经网络算法中的参数 , 常采用梯度下降学习策略。但该策略的缺陷是抗 噪音能力差以及对小样本数据集的泛化能力差。 针对上述两问题,本文提出算法在引入 不敏感损 失函数提高算法的抗噪能力的基础上,通过学习 已有源领域知识解决小样本泛化能力差的问题。 通过第 1、第 2 节分析可知,RBF 神经网络学习分 为两大部分:1) 利用径向基函数映射到新空间; 2) 采用梯度下降法求参数 ,本文所提算法学习 源领域已有知识也从这两方面进行考虑。因目标 领域样本较少,不能反映数据集整体分布情况, 故通过 FCM 聚类算法获得的聚类中心并不一定 能反映目标域数据集的聚类中心,而源领域与目 标领域存在一定的相似性,故 算法首先 学习源领域径向基函数的中心向量和核宽,接着 引入 不敏感损失函数和结构风险项并学习源领 域已知参数 ,建立目标领域模型,算法思路如 图 2 所示。 RBF 神经网络 学习源领域 RBF 神经网络高斯函数 中心向量和核宽 样本数据有噪音 容易导致过拟合 已标签样本过少 导致学习效果差 引入 ε 不敏感误差准则 和结构风险 学习源域参数 ps 基于 ε-不敏感误差准则 和结构风险的具有迁移学习 能力的 RBF 神经网络 图 2 ε-TLRBF 算法思路 Fig. 2 The idea of the ε-TLRBF algorithm 下面具体介绍算法的实现。 设源领域高斯函数中心向量集 C={c1, c2,··· , cM}, ∆ = {δ1,δ2,··· ,δM} hs ps Xt = {(xi , yi)} n i=1 xi ∈ R d n > M 核宽集合 ,源领域核宽可调缩放 参数 ,模型参数 ,其中 M 为隐含层节点个数。 目标领域数据集为 ,其中, , n 为目标域样本数,且 。 hg Cg = {cg1, cg2,··· , cgM} cgi ci δgi δi R d → R M X˜ g = {(x˜ gi, yi)} n i=1 x˜ gi ∈ R M 1) 设 为目标域核宽的可调参数,目标域中 心向量集 中每一个中心向量 学习源领域高斯函数中心向量 ,目标域高斯 函数核宽 ,学习源领域核宽 获得,如式 (6) 表 示,实现输入层至隐含层 的非线性映射, 得到新空间的数据集 ,其中, 。 cgi = ci ,δgi = hg δi hs ,i = 1,2,··· , M (6) ε ps pg 2) 引入 不敏感损失函数和结构风险项并学 习源领域已知参数 ,取代梯度下降法求目标领 域模型参数 。 首先,给出ε不敏感损失函数的定义: ε L ε 定义 (线性) 不敏感损失函数 (x, y, f) 定义为[19] L ε (x, y, f) = |y− f (x)| ε = max( 0,|y− f (x)| ε ) xi ∈ R d 式中: ,y ∈ R。 对于式 (5) 线性模型,其对应的ε不敏感损失 函数可表示为 ∑n i=1 y o i −yi ε = ∑n i=1 max( 0, y o i −yi −ε ) = ∑n i=1 max( 0, pg T x˜ gi −yi −ε ) (7) y o i 式中: 表示神经网络输出, yi表示真实输出。 pg T x˜ gi −yi < ε yi − pg T x˜ gi < ε ξi ξ ∗ i 对于式 (7), 和 的约束 条件并不一定总能满足,故引入松弛因子 和 , 可得到如下约束条件: { yi − pg T x˜ gi < ε+ξi pg T x˜ gi −yi < ε+ξ ∗ i , ξi ⩾ 0, ξ∗ i ⩾ 0 (8) 本算法的目的是要使式 (7) 表示的ε不敏感损 失函数值最小,结合式 (8),可等价表示为 min∑n i=1 ( ξi +ξ ∗ i ) s.t. { yi − pg T x˜ gi < ε+ξi pg T x˜ gi −yi < ε+ξ ∗ i , ξi ⩾ 0, ξ∗ i ⩾ 0 (9) 1 2 wg Twg 接着,加入结构化风险项。支持向量机是结 构风险最小化原则的一种实现,学习支持向量机 的实现方法,引入正则化项 ,使算法结构风 险最小,故式 (9) 加入结构化风险项后可用式 (10) 表示: min p,ξi,ξi ∗ 1 2 pg 2 +C ∑n i=1 (ξi +ξi ∗ ) s.t. { yi − pg T x˜ gi < ε+ξi pg T x˜ gi −yi < ε+ξ ∗ i , ξi ⩾ 0, ξ∗ i ⩾ 0,i = 1,2,··· ,n (10) 第 6 期 许敏,等:一种具有迁移学习能力的 RBF-NN 算法及其应用 ·961·
·962· 智能系统学报 第13卷 最后,为了使本文提出算法具有迁移学习能 4实验研究 力,在学习源领域径向基函数的中心向量和核宽 后,加入学习源领域模型参数p,项lp,-p,故最 4.1实验设置 终,所求解的问题可表示为 本节利用模拟数据集和在谷氨酸发酵过程中 腰f+c∑G++.pr 采集的真实数据集对本文所提算法进行实验验 证。在4.2节和4.3节分别描述模拟数据集和真 u{2 实数据集的构成及实验结果分析。为了突显本文 ,点≥0,结≥0,i=1,2,…,n 所提算法的优势,两组实验在3个场景下进行,场 (11) 景1为目标域数据集RBF神经网络算法训练;场 引入拉格朗日乘子,构造出式(11)的拉格朗 景2为源领域历史数据集和目标领域当前数据 日函数: 集RBF神经网络算法合并训练;场景3为加入源 i=f+c2++n-pf 领域历史知识的目标领域数据集s-TLRBF迁移学 习训练。 --刻+2o--s 为了有效评估算法的性能,采用如下性能指标网 24-228 (15) (12) 式中:N表示测试样本规模,y表示第i个样本的 式(12)相应的对偶问题形式为 采样输出,y表示第i个样本的径向基神经网络 输出。 2立a-aa,-gg 4.2模拟数据集实验 max- 2(1+) 在已标签数据较少而导致RBF神经网络预 入 测精度降低的前提下,验证本文所提算法可通过 (13) 学习相关历史领域知识提高预测精度。所设计的 模拟数据集符合以下两个原则:1)当前数据集和 历史数据集既存在相关性,又有自己的数据分布 s.t. 0≤,0≤C 特点;2)当前目标域数据集已标签样本较少,无 利用式(13)得到最优解: 法反映出数据集的整体分布情况。 >-a/)u+Ap. 为了表征以上两个原则,采用函数y=xsin x2o] 来表示历史场景。其中,x∈[-10,10]。按照此函 Ps= (14) (1+λ) 数生成包含100个样本的历史场景数据集(DS:)加 基于上述分析,基于ε不敏感误差准则和结构 采用函数y=r×Y+N(0,0.1)表示当前场景。其中, 风险最小的具有迁移学习能力的RBF神经网络 N(0,0.1)表示均值为0,标准差为0.1的白噪声; 学习算法步骤如下表所示: r表示当前场景与历史场景的相关系数,r值越大, 1)学习源领域径向基函数中心向量和核宽, 表示相关性越高。实验中r的取值为0.9,0.85,0.8, 确定h。值,带入式(6),得目标领域高斯函数中心 0.75,0.7,0.6。按照目标域场景函数生成包含20个 向量ce和核宽δe 样本的目标域场景数据集(DS2)。按照y=r×Y函 2)将目标领域高斯核中心向量c:和核宽 数生成200个测试样本作为测试集。图3表示源 d带入式(1)得t; 领域历史场景函数和相关系数为0.9、0.8、0.7时 3)求解式(13)对应的二次规划问题: 的目标域场景函数,由图可知,源领域场景函数 4)利用式(13)求得的二次规划最优解,根据 和目标域场景函数既存在相关性,又存在不同, 式(14)求得隐含层和输出层之间的权值P; 且系数最小,相关性越小。 5)利用公式y=PTx求得网络层的输出。 实验在相关系数r为不同值的前提下进行。 上述算法参数设置除高斯函数核宽中的可调 因引入ε不敏感损失函数和结构风险项对噪音的 参数h外,还有式(13)需设置的3个参数,分别 影响在文献[17)]中已经进行验证,故本文算法学 是C、ε、入,确定参数的方法是网格搜索策略,5重 习源领域εRBF训练后的各参数值并验证所提算 交叉验证获得。 法的迁移学习能力。为每个,值各随机生成30组
ps ps − pg 2 最后,为了使本文提出算法具有迁移学习能 力,在学习源领域径向基函数的中心向量和核宽 后,加入学习源领域模型参数 项 ,故最 终,所求解的问题可表示为 min p,ξi,ξi ∗ 1 2 pg 2 +C ∑n i=1 (ξi +ξi ∗ )+ λ 2 ps − pg 2 s.t. { yi − pg T x˜ gi < ε+ξi pg T x˜ gi −yi < ε+ξ ∗ i , ξi ⩾ 0, ξ∗ i ⩾ 0,i = 1,2,··· ,n (11) 引入拉格朗日乘子,构造出式 (11) 的拉格朗 日函数: L = 1 2 pg 2 +C ∑n i=1 (ξi +ξi ∗ )+ λ 2 ps − pg 2 + ∑n i=1 αi ( yi − pg T x˜ gi −ε−ξi ) + ∑n i=1 αi ∗ ( pg T x˜ gi −yi −ε−ξi ∗ ) − ∑n i=1 βiξi − ∑n i=1 βi ∗ ξi ∗ (12) 式 (12) 相应的对偶问题形式为 max α − ∑n i=1 ∑n j=1 (αi −αi ∗ ) ( αj −αj ∗ ) x˜ T gix˜ g j 2(1+λ) + ∑n i=1 αi ( yi −ε− λ (1+λ) ps T x˜ gi) + ∑n i=1 αi ∗ ( −yi −ε+ λ (1+λ) ps T x˜ gi) s.t. 0 ⩽ αi (∗) ⩽ C (13) 利用式 (13) 得到最优解: pg = ∑n i=1 (αi −αi ∗ ) x˜ gi +λps (1+λ) (14) 基于上述分析,基于ε不敏感误差准则和结构 风险最小的具有迁移学习能力的 RBF 神经网络 学习算法步骤如下表所示: 1) 学习源领域径向基函数中心向量和核宽, 确定 hg 值,带入式 (6),得目标领域高斯函数中心 向量 cgi 和核宽 δgi; x˜ gi 2) 将目标领域高斯核中心向量 c g i 和核宽 δgi 带入式 (1) 得 ; 3) 求解式 (13) 对应的二次规划问题; pg 4) 利用式 (13) 求得的二次规划最优解,根据 式 (14) 求得隐含层和输出层之间的权值 ; y = pg T 5) 利用公式 x˜ g求得网络层的输出。 C ε λ 上述算法参数设置除高斯函数核宽中的可调 参数 hg 外,还有式 (13) 需设置的 3 个参数,分别 是 、 、 ,确定参数的方法是网格搜索策略,5 重 交叉验证获得。 4 实验研究 4.1 实验设置 ε-TLRBF 本节利用模拟数据集和在谷氨酸发酵过程中 采集的真实数据集对本文所提算法进行实验验 证。在 4.2 节和 4.3 节分别描述模拟数据集和真 实数据集的构成及实验结果分析。为了突显本文 所提算法的优势,两组实验在 3 个场景下进行,场 景 1 为目标域数据集 RBF 神经网络算法训练;场 景 2 为源领域历史数据集和目标领域当前数据 集 RBF 神经网络算法合并训练;场景 3 为加入源 领域历史知识的目标领域数据集 迁移学 习训练。 为了有效评估算法的性能,采用如下性能指标[18] : J = vt 1 N ∑N i=1 (yi ′ −yi) 2 / 1 N ∑N i=1 (yi −y¯) 2 (15) yi ′ 式中:N 表示测试样本规模,yi 表示第 i 个样本的 采样输出, 表示第 i 个样本的径向基神经网络 输出。 4.2 模拟数据集实验 在已标签数据较少而导致 RBF 神经网络预 测精度降低的前提下,验证本文所提算法可通过 学习相关历史领域知识提高预测精度。所设计的 模拟数据集符合以下两个原则:1) 当前数据集和 历史数据集既存在相关性,又有自己的数据分布 特点;2) 当前目标域数据集已标签样本较少,无 法反映出数据集的整体分布情况。 Y = x sin x x ∈ [−10,10] y = r ×Y +N (0,0.1) N (0,0.1) r r r y = r ×Y 为了表征以上两个原则,采用函数 [20] 来表示历史场景。其中, 。按照此函 数生成包含 100 个样本的历史场景数据集 (DS1 )。 采用函数 表示当前场景。其中, 表示均值为 0,标准差为 0.1 的白噪声; 表示当前场景与历史场景的相关系数, 值越大, 表示相关性越高。实验中 的取值为 0.9,0.85,0.8, 0.75,0.7,0.6。按照目标域场景函数生成包含 20 个 样本的目标域场景数据集 (DS2 )。按照 函 数生成 200 个测试样本作为测试集。图 3 表示源 领域历史场景函数和相关系数为 0.9、0.8、0.7 时 的目标域场景函数,由图可知,源领域场景函数 和目标域场景函数既存在相关性,又存在不同, 且系数最小,相关性越小。 r ε ε- r 实验在相关系数 为不同值的前提下进行。 因引入 不敏感损失函数和结构风险项对噪音的 影响在文献[17]中已经进行验证,故本文算法学 习源领域 RBF 训练后的各参数值并验证所提算 法的迁移学习能力。为每个 值各随机生成 30 组 ·962· 智 能 系 统 学 报 第 13 卷
第6期 许敏,等:一种具有迁移学习能力的RBF-NN算法及其应用 ·963· 目标域场景数据集,并分别在源领域模型预测、 目标域数据集训练、目标域数据集和源领域历史 -x sin ==…=0.9 x sinx 数据集合并训练以及目标域数据集和源领域历史 )=0.8x sinr 4 ---1=0.7rs1n 知识迁移学习训练4种情况下进行。E-TLRBF隐 2 含层节点数为15,需确定的参数有4个,h设置为 0 从1~10之间按对数等分的30个值,C在集合 -2 {1,10,100,500,1000)中取值,s在集合0,10°,10-, 10-7,106中取值,1在集合1,3,5,…,39中取值,参 数最终值通过网格搜索策略5重交叉验证确定。 -10 0 10 表1给出了各种算法在模拟数据集上的泛化性能 图3目标域场景函数和源域场景函数 比较。图4给出了相关系数为0.75时的其中一组 Fig.3 Target domain functions and source domain func- 数据集的训练结果。 tions 表1各种算法在模拟数据集上的泛化性能比较 Table 1 Comparison of generalization performance of various algorithms on artificial data sets DS,性能 DS2性能 DS1+DS2性能 DS2+历史知识性能 系数 RBF RBF RBF s-TLRBF 0.9 0.1061 0.3343±0.1007 0.1189±0.0057 0.0756±0.0079 0.85 0.1660 0.3374牡0.1686 0.1676±0.0117 0.1091±0.0187 0.8 0.2368 0.3213±0.1334 0.2228±0.0505 0.1155±0.0528 0.75 0.3185 0.3645±0.1508 0.3189±0.0470 0.1203±0.0140 0.7 0.4127 0.3618±0.1833 0.3849±0.0189 0.1322±0.0663 0.65 0.5219 0.3713±0.1953 0.5190±0.0836 0.1546±0.0698 8 一DS,测试集 一DS,测试集 6 DS DS 对DS,建模 …对DS,建模 0 -10 10 -10 10 (a)源领域RBF神经网铬模型预测 b)基于目标域数据集RBF神经网络建模 -DS,测试集 -DSz测试集 +DS …迁移学习建模 …将DS+DS合并建模 10 5 10 0. 10 (©)基于源领域和目标域数据集合并建模 (d)基于目标域数据集和源领域知识建模 图4相关系数为0.75时,各算法性能 Fig.4 The performance of each algorithm on r is 0.75
ε-TLRBF {1,10,100,500,1 000} ε {0,10−9 ,10−8 , 10−7 ,10−6 } λ {1,3,5,··· ,39} 目标域场景数据集,并分别在源领域模型预测、 目标域数据集训练、目标域数据集和源领域历史 数据集合并训练以及目标域数据集和源领域历史 知识迁移学习训练 4 种情况下进行。 隐 含层节点数为 15,需确定的参数有 4 个,h 设置为 从 1~10 之间按对数等分的 30 个值,C 在集合 中取值, 在集合 中取值, 在集合 中取值,参 数最终值通过网格搜索策略 5 重交叉验证确定。 表 1 给出了各种算法在模拟数据集上的泛化性能 比较。图 4 给出了相关系数为 0.75 时的其中一组 数据集的训练结果。 −10 −5 0 5 10 −6 −4 −2 0 2 4 6 8 x y y=x sin y=0.9x sinx y=0.8x sinx y=0.7x sinx 图 3 目标域场景函数和源域场景函数 Fig. 3 Target domain functions and source domain functions 表 1 各种算法在模拟数据集上的泛化性能比较 Table 1 Comparison of generalization performance of various algorithms on artificial data sets 系数r DS1 性能 DS2 性能 DS1+DS2 性能 DS2+历史知识性能 RBF RBF RBF ε-TLRBF 0.9 0.106 1 0.334 3±0.100 7 0.118 9±0.005 7 0.075 6±0.007 9 0.85 0.166 0 0.337 4±0.168 6 0.167 6±0.011 7 0.109 1±0.018 7 0.8 0.236 8 0.321 3±0.133 4 0.222 8±0.050 5 0.115 5±0.052 8 0.75 0.318 5 0.364 5±0.150 8 0.318 9±0.047 0 0.120 3±0.014 0 0.7 0.412 7 0.361 8±0.183 3 0.384 9±0.018 9 0.132 2±0.066 3 0.65 0.521 9 0.371 3±0.195 3 0.519 0±0.083 6 0.154 6±0.069 8 −10 −5 0 5 10 −6 −4 −2 0 2 4 6 8 x y DS2 测试集 DS1 对 DS1 建模 (a) 源领域 RBF 神经网络模型预测 DS2 测试集 DS1 DS2 将 DS1+DS2 合并建模 −10 −5 0 5 10 −6 −8 −4 −2 0 2 4 6 8 x y (c) 基于源领域和目标域数据集合并建模 −10 −5 0 5 10 −6 −4 −2 0 2 4 6 8 x y DS2 测试集 DS2 对 DS2 建模 (b) 基于目标域数据集 RBF 神经网络建模 −10 −5 0 5 10 −6 −4 −2 0 2 4 6 8 x y DS2 测试集 DS2 迁移学习建模 (d) 基于目标域数据集和源领域知识建模 图 4 相关系数为 0.75 时,各算法性能 Fig. 4 The performance of each algorithm on r is 0.75 第 6 期 许敏,等:一种具有迁移学习能力的 RBF-NN 算法及其应用 ·963·