第13卷第2期 智能系统学报 Vol.13 No.2 2018年4月 CAAI Transactions on Intelligent Systems Apr.2018 D0:10.11992/tis.201608009 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20170407.1758.014html 基于相对贡献指标的自组织RBF神经网络的设计 乔俊飞2,安茹2,韩红桂2 (1.北京工业大学电子信息与控制工程学院,北京100124;2.计算智能与智能系统北京市重点实验室,北京 100124) 摘要:针对RBF(radial basis function)神经网络的结构和参数设计问题,本文提出了一种基于相对贡献指标的 自组织RBF神经网络的设计方法。首先,提出一种基于相对贡献指标(relative contribution,RC)的网络结构设 计方法,利用隐含层输出对网铬输出的相对贡献来判断是否增加或删诚RBF网络相应的隐含层节点,并且对 神经网络结构调整过程的收敛性进行证明。其次,采用改进的LM(Levenberg-Marquardt algorithm)算法对调整 后的网络参数进行更新,使网络具有较少的训练时间和较快的收敛速度。最后,对提出的设计方法进行非线性 函数仿真和污水处理出水参数氨氮建模,仿真结果表明,RBF神经网络能够根据研究对象自适应地动态调整 RBF结构和参数,具有较好的逼近能力和更高的预测精度。 关键词:RBF神经网络:相对贡献指标:改进的LM算法:结构设计;出水氨氨:收敛速度;预测精度 中图分类号:TP183文献标志码:A文章编号:1673-4785(2018)02-0159-09 中文引用格式:乔俊飞,安茹,韩红桂.基于相对贡献指标的自组织RBF神经网络的设计.智能系统学报,2018.132):159-167. 英文引用格式:QIAO Junfei,,ANRu,HAN Honggui.Design of self-organizing RBF neural network based on relative contribution index Jl.CAAI transactions on intelligent systems,2018,13(2):159-167. Design of self-organizing RBF neural network based on relative contribution index QIAO Junfei,AN Ru'2,HAN Honggui2 (1.College of Electronic Information and Control Engineering,Beijing University of Technology,Beijing 100124,China;2.Beijing Key Laboratory of Computation Intelligence and Intelligence System,Beijing 100124,China) Abstract:A design method for a self-organizing RBF Neural Network based on the Relative Contribution index is pro- posed with the aim of performing the structural design and parameter optimization of the Radial Basis Function(RBF) neural network.First,a self-organizing RBF network design method based on the Relative Contribution(RC)index is proposed.The relative contribution of the output of the hidden layer to the network output was used in order to assess whether a node of the hidden layer corresponding to the RBF network was inserted or pruned.Additionally,the conver- gence of the adjustment process of the neural structure was proven.Secondly,the adjusted network parameters were up- dated by the improved Levenberg-Marquardt(LM)algorithm in order to reduce the training time and increase the con- vergence speed of the network.Finally,the proposed algorithm was used in the simulation of the nonlinear function,and the modeling of the ammonia and nitrogen sewage effluent parameters.The simulation results revealed that the struc- ture and parameters of the RBF neural network could be adjusted adaptively and dynamically according to the object un- der investigation,and that they had excellent approximation ability and higher prediction accuracy. Keywords:RBF neural network;relative contribution index;improved LM algorithm;structure design;ammonia and nitrogen effluent parameters;convergence speed;prediction accuracy 收稿日期:2016-08-29.网络出版日期:2017-04-07 基金项目:国家自然科学基金重点项目(61533002,61225016): 径向基函数(RBF)神经网络由于其准确的局 北京市教育委员会科研计划项目(km201410005002): 高等学校博士学科点基金项目(20131103110016). 部感知特性和强大的非线性逼近能力,已被广泛 通信作者:乔俊飞.E-mail:anru@emails..bjut.edu..cn. 应用于时间序列预测、非线性系统在线建模与控
DOI: 10.11992/tis.201608009 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20170407.1758.014.html 基于相对贡献指标的自组织 RBF 神经网络的设计 乔俊飞1,2,安茹1,2,韩红桂1,2 (1. 北京工业大学 电子信息与控制工程学院,北京 100124; 2. 计算智能与智能系统北京市重点实验室,北京 100124) 摘 要:针对 RBF(radial basis function) 神经网络的结构和参数设计问题,本文提出了一种基于相对贡献指标的 自组织 RBF 神经网络的设计方法。首先,提出一种基于相对贡献指标 (relative contribution,RC) 的网络结构设 计方法,利用隐含层输出对网络输出的相对贡献来判断是否增加或删减 RBF 网络相应的隐含层节点,并且对 神经网络结构调整过程的收敛性进行证明。其次,采用改进的 LM (Levenberg-Marquardt algorithm) 算法对调整 后的网络参数进行更新,使网络具有较少的训练时间和较快的收敛速度。最后,对提出的设计方法进行非线性 函数仿真和污水处理出水参数氨氮建模,仿真结果表明,RBF 神经网络能够根据研究对象自适应地动态调整 RBF 结构和参数,具有较好的逼近能力和更高的预测精度。 关键词:RBF 神经网络;相对贡献指标;改进的 LM 算法;结构设计;出水氨氮;收敛速度;预测精度 中图分类号:TP183 文献标志码:A 文章编号:1673−4785(2018)02−0159−09 中文引用格式:乔俊飞, 安茹, 韩红桂. 基于相对贡献指标的自组织 RBF 神经网络的设计 [J]. 智能系统学报, 2018, 13(2): 159–167. 英文引用格式:QIAO Junfei, AN Ru, HAN Honggui. Design of self-organizing RBF neural network based on relative contribution index[J]. CAAI transactions on intelligent systems, 2018, 13(2): 159–167. Design of self-organizing RBF neural network based on relative contribution index QIAO Junfei1,2 ,AN Ru1,2 ,HAN Honggui1,2 (1. College of Electronic Information and Control Engineering, Beijing University of Technology, Beijing 100124, China; 2. Beijing Key Laboratory of Computation Intelligence and Intelligence System, Beijing 100124, China) Abstract: A design method for a self-organizing RBF Neural Network based on the Relative Contribution index is proposed with the aim of performing the structural design and parameter optimization of the Radial Basis Function (RBF) neural network. First, a self-organizing RBF network design method based on the Relative Contribution (RC) index is proposed. The relative contribution of the output of the hidden layer to the network output was used in order to assess whether a node of the hidden layer corresponding to the RBF network was inserted or pruned. Additionally, the convergence of the adjustment process of the neural structure was proven. Secondly, the adjusted network parameters were updated by the improved Levenberg-Marquardt (LM) algorithm in order to reduce the training time and increase the convergence speed of the network. Finally, the proposed algorithm was used in the simulation of the nonlinear function, and the modeling of the ammonia and nitrogen sewage effluent parameters. The simulation results revealed that the structure and parameters of the RBF neural network could be adjusted adaptively and dynamically according to the object under investigation, and that they had excellent approximation ability and higher prediction accuracy. Keywords: RBF neural network; relative contribution index; improved LM algorithm; structure design; ammonia and nitrogen effluent parameters; convergence speed; prediction accuracy 径向基函数 (RBF) 神经网络由于其准确的局 部感知特性和强大的非线性逼近能力,已被广泛 应用于时间序列预测、非线性系统在线建模与控 收稿日期:2016−08−29. 网络出版日期:2017−04−07. 基金项目:国家自然科学基金重点项目 (61533002,61225016); 北京市教育委员会科研计划项目 (km201410005002); 高等学校博士学科点基金项目 (20131103110016). 通信作者:乔俊飞. E-mail:anru@emails.bjut.edu.cn.. 第 13 卷第 2 期 智 能 系 统 学 报 Vol.13 No.2 2018 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2018
·160· 智能系统学报 第13卷 制等领域。神经网络的研究和应用对于复杂工 组织机制只能增加隐节点不能删减,而且对于多 业过程建模提供了新的方法;与此同时,神经网 输人的输入数据如何判断中心不能很好地确定。 络的设计成为非线性动态过程建模的重点和难 要想使RBF网络具有更好的非线性建模性能,完 点。RBF神经网络的性能严重依赖于网络的结构 成结构设计之后,寻找快速的参数学习算法对网 和参数,包括隐含层节点的数量、中心和宽度、隐 络的性能也是至关重要的。常见的参数训练算法 含层到输出层的连接权值等参数。事实上,如 有BP算法、高斯-牛顿算法和LM算法等。其 果网络结构越大,系统动力学错综复杂,表现良 中,最常用的是BP算法,但是该算法由于搜索空 好的性能,但是会增大计算量和计算时间,容易 间限制容易陷入局部极小,收敛速度慢等。近年 导致“过拟合”;反之,规模过小,内部动力学过于 来,具有快速收敛速度和强有力搜索空间的二阶 简单,学习能力不足,不能高精度地逼近非线性 LM算法被引入到训练RBF网络,取得了很好的 映射,而且网络的参数优化算法能够保证网络达 效果,获得了广泛应用21)。但是该算法由于雅 到较好的性能,能够较快收敛,因此,RBF网络的 可比矩阵的计算会增加计算量和存储空间,影响 结构和参数学习算法研究对于实际应用和理论研 算法的训练速度,因此,本文采用一种改进的LM 究具有重要的实际意义。 算法对参数进行训练。 为使RBF神经网络能够根据实际被控过程 针对RBF网络的结构和参数设计问题,首 自适应的动态调整,近年来不少学者进行研究。 先,利用隐含层和输出层之间的回归关系,采用 Platt首先提出资源分配网络算法(resource alloc- 相对贡献指标结合训练误差信息处理能力,最大 ation network,RAN),根据实际对象能够动态增加 程度地挖掘隐含层和输出层之间的隐含信息,解 RBF网络隐含层节点,但是该算法只增加隐节点 决了RBF网络结构动态调整的问题;同时,采用 不能删减,对于处理复杂问题时网络结构会出现 改进的LM算法,将整个雅可比矩阵的计算转化 冗余。在此基础上,为解决这一问题,L山等提 为向量相乘的形式,避免整个雅可比矩阵的存 出一种最小资源分配算法(minimal resource alloca- 储,加速算法的训练时间和收敛速度:最终保证 tion network,MRAN),该算法能够在学习过程中 RBF网络能够根据实际处理对象的动态过程快速 增加和删减神经元动态调整去适应被控过程,该 准确地自适应调整结构和参数,达到满意的非线 方法受到广泛应用,但是却忽略了神经元结构调 性逼近能力和预测精度,验证了算法的有效性。 整之后的参数学习,导致网络收敛速度较慢。 Huang6提出一种在线调整的RBF结构设计方 1RBF网络 法;随后出现广义增长修剪算法(generalized grow- ing and pruning RBF,GGAP-RBF),根据隐含层神 RBF网络是一个包括输入层、隐含层和输出 经元的重要性判断是否增删,但仅仅考虑对新增 层的3层前馈神经网络,其拓扑结构如图1所示。 加或者删减的神经元进行参数调整,有效提高算 输人层 隐含层 输出层 法的运算速度,但是网络初始值的设定需要依据 市(0 W(0) 整体样本数据,因而不适合在线学习。Gonzales 采用进化计算的思想,利用其良好的鲁棒性和全 局搜索能力对网络的结构和参数进行调整学习 W() () 取得较好的效果。文献[8-9]提出用粒子群 (particle swarm optimization,.PSO)算法自动调整每 Wi(r) 个RBF网络的中心,宽度和权值,能够获得不错 的建模性能,但是该算法由于训练过程中需要全 局搜索,需要较长的训练时间而且算法计算复 杂,不利于实时在线建模。Lian1o提出自组织 图1RBF网络拓扑结构图 RBF网络(self-organizing RBF,SORBF),设计仅仅 Fig.1 The topology structure of RBF network 采用训练误差作为结构调整判断条件,没有考虑 图1中网络的输入向量为 隐含层和输出层之间的相关性以及网络调整后参 数设置问题,训练时间较长。Yu等)提出基于 x()=[B(0x(0)…xw(0], M为输入向量的维数,隐含层激活函数采用高斯 误差修正的思想,每次采用误差最大的点对应的 输入数据作为新增加神经元的中心,采用改进的 函数,隐含层第j个神经元的输出表达式如式(①)所示。 LM算法优化所有隐节点的参数,训练时间快,能 0-c, Φ,(t)=exp(- (1) 够采用精简的结构去逼近非线性函数,但是该 r2(t)
制等领域[1]。神经网络的研究和应用对于复杂工 业过程建模提供了新的方法;与此同时,神经网 络的设计成为非线性动态过程建模的重点和难 点。RBF 神经网络的性能严重依赖于网络的结构 和参数,包括隐含层节点的数量、中心和宽度、隐 含层到输出层的连接权值等参数[2]。事实上,如 果网络结构越大,系统动力学错综复杂,表现良 好的性能,但是会增大计算量和计算时间,容易 导致“过拟合”;反之,规模过小,内部动力学过于 简单,学习能力不足,不能高精度地逼近非线性 映射,而且网络的参数优化算法能够保证网络达 到较好的性能,能够较快收敛,因此,RBF 网络的 结构和参数学习算法研究对于实际应用和理论研 究具有重要的实际意义。 为使 RBF 神经网络能够根据实际被控过程 自适应的动态调整,近年来不少学者进行研究。 Platt[3] 首先提出资源分配网络算法 (resource allocation network,RAN),根据实际对象能够动态增加 RBF 网络隐含层节点,但是该算法只增加隐节点 不能删减,对于处理复杂问题时网络结构会出现 冗余。在此基础上,为解决这一问题,Lu 等 [4] 提 出一种最小资源分配算法 (minimal resource allocation network, MRAN),该算法能够在学习过程中 增加和删减神经元动态调整去适应被控过程,该 方法受到广泛应用,但是却忽略了神经元结构调 整之后的参数学习,导致网络收敛速度较慢[5]。 Huang[6] 提出一种在线调整的 RBF 结构设计方 法;随后出现广义增长修剪算法 (generalized growing and pruning RBF,GGAP-RBF),根据隐含层神 经元的重要性判断是否增删,但仅仅考虑对新增 加或者删减的神经元进行参数调整,有效提高算 法的运算速度,但是网络初始值的设定需要依据 整体样本数据,因而不适合在线学习。Gonzales[7] 采用进化计算的思想,利用其良好的鲁棒性和全 局搜索能力对网络的结构和参数进行调整学习, 取得较好的效果。文 献 [ 8 - 9 ] 提出用粒子 群 (particle swarm optimization,PSO) 算法自动调整每 个 RBF 网络的中心,宽度和权值,能够获得不错 的建模性能,但是该算法由于训练过程中需要全 局搜索,需要较长的训练时间而且算法计算复 杂,不利于实时在线建模。Lian[10] 提出自组织 RBF 网络 (self-organizing RBF, SORBF),设计仅仅 采用训练误差作为结构调整判断条件,没有考虑 隐含层和输出层之间的相关性以及网络调整后参 数设置问题,训练时间较长。Yu 等 [11] 提出基于 误差修正的思想,每次采用误差最大的点对应的 输入数据作为新增加神经元的中心,采用改进的 LM 算法优化所有隐节点的参数,训练时间快,能 够采用精简的结构去逼近非线性函数,但是该自 组织机制只能增加隐节点不能删减,而且对于多 输入的输入数据如何判断中心不能很好地确定。 要想使 RBF 网络具有更好的非线性建模性能,完 成结构设计之后,寻找快速的参数学习算法对网 络的性能也是至关重要的。常见的参数训练算法 有 BP 算法、高斯–牛顿算法和 LM 算法等。其 中,最常用的是 BP 算法,但是该算法由于搜索空 间限制容易陷入局部极小,收敛速度慢等。近年 来,具有快速收敛速度和强有力搜索空间的二阶 LM 算法被引入到训练 RBF 网络,取得了很好的 效果,获得了广泛应用[12-13]。但是该算法由于雅 可比矩阵的计算会增加计算量和存储空间,影响 算法的训练速度,因此,本文采用一种改进的 LM 算法对参数进行训练。 针对 RBF 网络的结构和参数设计问题,首 先,利用隐含层和输出层之间的回归关系,采用 相对贡献指标结合训练误差信息处理能力,最大 程度地挖掘隐含层和输出层之间的隐含信息,解 决了 RBF 网络结构动态调整的问题;同时,采用 改进的 LM 算法,将整个雅可比矩阵的计算转化 为向量相乘的形式,避免整个雅可比矩阵的存 储,加速算法的训练时间和收敛速度;最终保证 RBF 网络能够根据实际处理对象的动态过程快速 准确地自适应调整结构和参数,达到满意的非线 性逼近能力和预测精度,验证了算法的有效性。 1 RBF 网络 RBF 网络是一个包括输入层、隐含层和输出 层的 3 层前馈神经网络,其拓扑结构如图 1 所示。 䒿ڑᅮ 䮼ॗᅮ 䒿ܦᅮ x1 (t) W11(t) W21(t) W31(t) WN1 (t) Φ1 (t) Φ2 (t) Φ3 (t) y1 (t) ΦH(t) x2 (t) xm(t) 图 1 RBF 网络拓扑结构图 Fig. 1 The topology structure of RBF network 图 1 中网络的输入向量为 x(t) = [x1 (t) x2 (t) ··· xM (t) ] T , M 为输入向量的维数,隐含层激活函数采用高斯 函数,隐含层第j个神经元的输出表达式如式(1)所示。 Φj(t) = exp(− x(t)− cj(t) 2 σ 2 j (t) ) (1) ·160· 智 能 系 统 学 报 第 13 卷
第2期 乔俊飞,等:基于相对贡献指标的自组织RBF神经网络的设计 ·161· 式中:中)为隐含层第j个神经元的输出;I为欧 法迭代1次的误差比-n大时,代表此时网络对于 几里得范数;c0=[c,0c0…cm,j=1,2. 动态过程的信息处理能力不足,需要增加新的隐 H为径向基函数的中心向量,H为隐含层神经元 节点,分裂当前隐含层神经元和输出神经元之间 的个数,隐节点中心离输入越近,输出值越大; 具有最大相对贡献的隐含层神经元j,此神经元表 σ)为第j个基函数的扩展宽度,主要影响基函数 示和输出神经元之间具有最大的贡献度,即满足 的分布的密集程度。输出层神经元的输出为 式(9): H E(t)-E(t-n)>0 0=立,0 (2) j=arg max(RC(j)) (9) 1或j客H 式中:w1为第j个隐含层神经元与输出层的连接 式中:E()和E(t-n)分别为迭代步数t和t-n时的 权值向量,y()为输出层神经元的输出。 训练误差,n是样本间隔,j是隐含层神经元和输 出神经元相对贡献RC最大的神经元,H是在1时 2自组织RBF网络的设计 刻存在的隐含层神经元数量。对新增加的神经元 参数设置为 2.1相对贡献指标 1 网络结构调整的设计思想是采用回归的思 Ce()=(e()+x()) (10) 想,分别对隐含层和输出层矩阵进行成分提取为 0ew(t)=0(t) (11) 4,和,要求提取的成分对于原变量信息具有最大 waew(0=ej(t)(Φew(t) (12) 的解释能力,而且具有最大的相关性,得到隐含 式中:c)、o()分别代表第j个神经元分裂前的 层神经元和输出层神经元的相对贡献指标,用来 中心和宽度;cnew、Oew代表新增加神经元的中心 表示此神经元对输出神经元的贡献程度;同时结 和宽度;wew为新增加神经元的输出连接权值; 合网络的误差信息处理能力,作为判断结构是否 e()为t时刻神经网络的误差;中e()为新增加神 调整的依据。 经元的隐含层输出值。 相对贡献指标:RBF神经网络隐节点j在样 2.2.2神经元删减机制 本数为P个的相对贡献指标定义为 如果当前第k个隐含层神经元和输出层的 Σ(Yβ,) RC小于设定的阈值&,说明此神经元对输出的相 RC()= (3) H 对贡献较小,可以认为此神经元对输出的贡献很 官rB刷 小甚至可以忽略,所以删掉第k个神经元,则满足: 式中:Y=(Y1,Y2,…,Y)代表提取的成分1的权 min(RC())<s 重向量:B为成分的负荷量;H为隐含层节点的数量;r k=arg min(RC(j)) (13) 15jH 为成分的数量,每次提取的成分按照式(4(8)计算。 式中:k是隐含层神经元和输出神经元相对贡献 t:=Φ-1Yi,0≤i≤ (4) 最小的神经元,ε为设定的删减阈值。 Φ-1=t+Φ (5) c()=cx() (14) Vi=yi-li (6) J-(0=0(0 (15) yi=vB+yi (7) Φe(t) A-a=的 w-1()=w-(①)+ Φ:t (8) 中1回0 (16) 式中:c)和σ1()分别为与隐含层神经元i欧式 式中:t和y,是第i对成分的得分向量;a,和B,为 距离最近的隐含层神经元的中心、宽度;c(t)和 成分的负荷量:中,和y:为第i次迭代产生的残差 σ()分别为第k个隐含层神经元的中心和宽度; 矩阵,不断迭代直到得到个成分,并且 w-)和w,)分别为删除第k个神经元之前与隐 =rank(中o):中o是隐含层矩阵和输出矩阵对P个 含层神经元k欧式距离最近的隐含层神经元的连 样本的标准化矩阵。另外要求提取的成分具有最 接权值和删除之后此神经元的连接权值;中()和 大的相关性,通过拉格朗日法转化为求权重向量 1)分别第k个隐含层神经元的输出值和为删 Y:和4。进而求出相对贡献指标。 除此神经元之前,与隐含层神经元欧式距离最 2.2结构调整机制 近的隐含层神经元的输出值。 2.2.1神经元增加机制 2.3改进的LM算法 结合上述相对贡献指标RC和网络误差信息 采用改进的LM算法(improved LM algorithm, 处理能力作为神经元增加机制的判定条件,当算 ILM)去优化RBF网络的中心、宽度和权值。不
cj(t) = [ cj1 (t) cj2 (t) ··· cjH (t) ]T j = 1,2,··· 式中:Φj (t) 为隐含层第 j 个神经元的输出;‖·‖为欧 几里得范数; , ; H 为径向基函数的中心向量,H 为隐含层神经元 的个数,隐节点中心离输入越近,输出值越大; σj (t) 为第 j 个基函数的扩展宽度,主要影响基函数 的分布的密集程度[14]。输出层神经元的输出为 y1(t) = ∑H j=1 wj1Φj(t) (2) 式中:wi1 为第 j 个隐含层神经元与输出层的连接 权值向量,y1 (t) 为输出层神经元的输出。 2 自组织 RBF 网络的设计 2.1 相对贡献指标 网络结构调整的设计思想是采用回归的思 想,分别对隐含层和输出层矩阵进行成分提取为 ti 和 vi,要求提取的成分对于原变量信息具有最大 的解释能力,而且具有最大的相关性,得到隐含 层神经元和输出层神经元的相对贡献指标,用来 表示此神经元对输出神经元的贡献程度;同时结 合网络的误差信息处理能力,作为判断结构是否 调整的依据。 相对贡献指标: RBF 神经网络隐节点 j 在样 本数为 P 个的相对贡献指标定义为 RC(j) = ∑r i=1 (Υi jβi) ∑H h=1 ( ∑r i=1 Υihβi) (3) Υi = (Υi1 ,Υi2 式中: ,···,ΥiH) 代表提取的成分 ti 的权 重向量;βi 为成分的负荷量;H 为隐含层节点的数量;r 为成分的数量,每次提取的成分按照式 (4)~(8) 计算。 ti = Φi−1Υi ,0 ⩽ i ⩽ r (4) Φi−1 = tiαi T +Φi (5) vi = yi−1ui (6) yi−1 = viβi T + yi (7) βi = yi T ti ∥ti∥ 2 αi = Φi T ti ∥ti∥ 2 (8) 式中:ti 和 vi 是第 i 对成分的得分向量;αi 和 βi 为 成分的负荷量;Φi 和 yi 为第 i 次迭代产生的残差 矩阵,不断迭代直到得 到 r 个成分 , 并 且 r=rank(Φ0 );Φ0 是隐含层矩阵和输出矩阵对 P 个 样本的标准化矩阵。另外要求提取的成分具有最 大的相关性,通过拉格朗日法转化为求权重向量 ϒi 和 ui。进而求出相对贡献指标。 2.2 结构调整机制 2.2.1 神经元增加机制 结合上述相对贡献指标 RC 和网络误差信息 处理能力作为神经元增加机制的判定条件,当算 法迭代 t 次的误差比 t–n 大时,代表此时网络对于 动态过程的信息处理能力不足,需要增加新的隐 节点,分裂当前隐含层神经元和输出神经元之间 具有最大相对贡献的隐含层神经元 j,此神经元表 示和输出神经元之间具有最大的贡献度,即满足 式 (9): E(t)− E (t−n) > 0 j = arg max 1⩽j⩽H (RC(j)) (9) 式中:E(t) 和 E(t–n) 分别为迭代步数 t 和 t–n 时的 训练误差,n 是样本间隔,j 是隐含层神经元和输 出神经元相对贡献 RC 最大的神经元,H 是在 t 时 刻存在的隐含层神经元数量。对新增加的神经元 参数设置为 cnew(t) = 1 2 ( cj(t)+ x(t) ) (10) σnew(t) = σj(t) (11) wnew(t) = ej(t)(Φnew(t))−1 (12) 式中:cj (t)、σj (t) 分别代表第 j 个神经元分裂前的 中心和宽度;cnew、σnew 代表新增加神经元的中心 和宽度;wnew 为新增加神经元的输出连接权值; ej (t) 为 t 时刻神经网络的误差;Φnew(t) 为新增加神 经元的隐含层输出值。 2.2.2 神经元删减机制 如果当前第 k 个隐含层神经元和输出层的 RC 小于设定的阈值 ε,说明此神经元对输出的相 对贡献较小,可以认为此神经元对输出的贡献很 小甚至可以忽略,所以删掉第 k 个神经元,则满足: min(RC(j)) < ε k = arg min 1⩽j⩽H (RC(j)) (13) 式中:k 是隐含层神经元和输出神经元相对贡献 最小的神经元,ε 为设定的删减阈值。 c ′ i−1 (t) = ck(t) (14) σ ′ i−1 (t) = σk(t) (15) w ′′ i−1 (t) = w ′ i−1 (t)+ Φk(t) Φ′ i−1 (t) wk(t) (16) c ′ i−1 (t) σ ′ i−1 (t) w ′ i−1 (t) w ′′ i−1 (t) Φ′ i−1 (t) 式中: 和 分别为与隐含层神经元 i 欧式 距离最近的隐含层神经元的中心、宽度;ck (t) 和 σk (t) 分别为第 k 个隐含层神经元的中心和宽度; 和 分别为删除第 k 个神经元之前与隐 含层神经元 k 欧式距离最近的隐含层神经元的连 接权值和删除之后此神经元的连接权值;Φk (t) 和 分别第 k 个隐含层神经元的输出值和为删 除此神经元之前,与隐含层神经元 i 欧式距离最 近的隐含层神经元的输出值。 2.3 改进的 LM 算法 采用改进的 LM 算法 (improved LM algorithm, ILM) 去优化 RBF 网络的中心、宽度和权值。不 第 2 期 乔俊飞,等:基于相对贡献指标的自组织 RBF 神经网络的设计 ·161·
·162· 智能系统学报 第13卷 同于之前算法的矩阵运算方式,文中采用一种将 2(t+1)=2(d-(Q(d)+(t08() (17) 矩阵运算转化为向量相乘的方式,不需要存储整 式中:2()为更新规则包含参数向量,⊙()为梯度 个雅可比矩阵,这样避免整个雅可比矩阵的计 向量,Q(1)为拟海森矩阵,I是为了避免拟海森矩 算,适用于输人数量比较多。其中,拟海森矩阵 阵奇异设置的单位矩阵,根据文献[16],自适应学 和梯度向量的计算通过子矩阵及其子向量叠加和 习率()被定义为 的方式来得到的。同时,在训练过程中算法引 (t)alle(t)l +(1-a)j(t)"e(t) (18) 入自适应学习率,这样能够加快网络的收敛速 式中:a为正实数,a∈(0,1)。参数向量2()包括 度,提高算法的预测精度。具体更新规则如式 更新网络的所有参数:连接权值w,中心向量c, (17)所示: 宽度向量σ。 2(t)=w(t)…m(t)…wa(tC11(t)…C1.(t)…Ch.P(t)o1(t)…Uh(t)…UH(t) (19) 拟海森矩阵Q()和梯度向量⊙()的计算分别 p()的计算公式分别为 是对应的子矩阵与子向量的累加求和得到的,计 qp(t)=jp(t)jp(t) (22) 算公式为 p(t)=jp(t)'ep(t) (23) 00=∑g0.p=1,2,P (20) 第p个样本的训练误差定义为 ep(t)=yp(t)-0p(t) (24) e,0p=l,2p P 式中:P为样本数,e(t)为训练误差,yn()与 0(t)= 21) p=l 0()是分别为第p个输人样本对应的网络输出与 式中:P是样本总数,子矩阵q(1)与子向量 实际输出,雅克比矩阵行向量j)如式(25)所示: [dep(t)dep(t)dep(t) dep(t)dep(t)dep(t)dep(t) jn(0)= w,(①awH()0c1(0acH(⑥ac.(⑥"0ch:0)acHu(0 (25) 根据文献[17刀式(25)中误差对权值的导数, 经网络是否满足结构调整条件,满足条件则转向 误差对宽度的导数,误差对中心的导数计算公式分 3),否则转向6)。 别为 3)根据式(3)计算当前存在的隐含层神经元 ae2=-802=-paxp) 与网络输出计算相对贡献指标RC,如果第1步的 26) 8w OWk 训练RMSE比第-n步大时:e()-e(-n>0时,则转 3op o9n(x) 向4);转向5),判断是否满足删减条件,否则转向6)。 4)此时,说明神经网络信息处理能力不足, 2whiPn(xp)xpi-chil 27) 需要增加神经元,按照式(9),选出相对贡献指标 最大的神经元进行分裂,根据式(10)(12)对新增 e、=一82一—云方82 0Cki 加神经元的设定初始化参数。 (28) 2 Wh.mPn((xp)(xpi-Chi】 5)如果满足删减条件(13),则删除相对指标 σ1 贡献值小于阈值ε的隐含层神经元,删除与此神 雅可比矩阵行向量j()的计算由式(26)(28) 经元的连接权值、中心和宽度,并利用式 计算得到,对于所有输入模式,拟海森矩阵和梯 (14)(16)对其临近的神经元的相应参数进行调整。 度向量分别由式(20)和(21)得到,然后应用更新 6)利用改进的LM算法对神经网络的参数进 规则(17)对3个参数同时进行更新。采用上述LM 行更新。 算法去优化RBF网络参数,加快算法的收敛速度 7)满足停止条件或达到计算次数时停止计 并且提高网络的预测准确度。 算,否则转向2)(网络结构还需调整)进行重新训练。 RC-RBF网络的设计算法的步骤如下: 3收敛性分析 1)初始随机给定一个RBF神经网络,输入节 点与输出节点个数根据具体实验设置,隐节点个 网络是否收敛决定了算法的性能,因为网络 数随机设定,所有的参数随机产生在一个小范围内。 在结构调整之后对其收敛性往往不能保证,以下 2)对于输入样本x(),隐含层到输出层之间 给出结构调整阶段的收敛性证明,主要分为3部分:) 的权值、宽度、中心分别通过式(26)(28)进行调 隐节点增加阶段;2)隐节点删减阶段;3)隐节点 整,采用固定样本个数的在线形式,然后,判断神 数目不变的阶段
同于之前算法的矩阵运算方式,文中采用一种将 矩阵运算转化为向量相乘的方式,不需要存储整 个雅可比矩阵,这样避免整个雅可比矩阵的计 算,适用于输入数量比较多。其中,拟海森矩阵 和梯度向量的计算通过子矩阵及其子向量叠加和 的方式来得到的 [15]。同时,在训练过程中算法引 入自适应学习率,这样能够加快网络的收敛速 度,提高算法的预测精度。具体更新规则如式 (17) 所示: Ω(t+1) = Ω(t)−(Q(t)+λ(t)I) −1Θ(t) (17) 式中:Ω(t) 为更新规则包含参数向量,Θ(t) 为梯度 向量,Ԛ(t) 为拟海森矩阵,I 是为了避免拟海森矩 阵奇异设置的单位矩阵,根据文献 [16],自适应学 习率 λ(t) 被定义为 λ(t) = α∥e (t)∥+(1−α) j(t) T e (t) (18) 式中:α 为正实数,α∈(0, 1)。参数向量 Ω(t) 包括 更新网络的所有参数:连接权值 w,中心向量 c, 宽度向量 σ。 Ω(t) = [ w1 (t)···wh (t)···wH (t) c11 (t)··· c1, j(t)··· ch,P(t) σ1(t)···σh(t)···σH(t) ] (19) 拟海森矩阵Ԛ(t) 和梯度向量 Θ(t) 的计算分别 是对应的子矩阵与子向量的累加求和得到的,计 算公式为 Q(t) = ∑P p=1 qp(t), p = 1,2···,P (20) Θ(t) = ∑P p=1 φp(t), p = 1,2···,P (21) 式中: P 是样本总数,子矩 阵 q p (t) 与子向 量 φp (t) 的计算公式分别为 qp(t) = jp(t) T jp(t) (22) φp (t) = jp(t) T ep (t) (23) 第 p 个样本的训练误差定义为 ep (t) = yp (t)− op (t) (24) 式中: P 为样本数, e p (t) 为训练误差, y p (t) 与 op (t) 是分别为第 p 个输入样本对应的网络输出与 实际输出,雅克比矩阵行向量 jp (t) 如式 (25) 所示: jp (t) = [ ∂ep (t) ∂w1 (t) ··· ∂ep (t) ∂wH (t) ∂ep (t) ∂σ1 (t) ··· ∂ep (t) ∂σH (t) ∂ep (t) ∂c1,1 (t) ··· ∂ep (t) ∂ch,i(t) ··· ∂ep (t) ∂cH,I (t) ] (25) 根据文献 [17] 式 (25) 中误差对权值的导数, 误差对宽度的导数,误差对中心的导数计算公式分 别为 ∂ep ∂wh = − ∂op ∂wh = −φh (xP) (26) ∂ep ∂σh = − ∂op,1 ∂σh = − ∂op ∂φh (xP) ∂φh (xP) ∂σh = − 2wh,1φh(xp) xp,i − ch,i 2 σ 3 h (27) ∂ep ∂ch,i = − ∂op ∂ch,i = − ∂op ∂φh (xP) ∂φh (xP) ∂ch,i = − 2wh,mφh(xp)(xp,i − ch,i) σ 2 h (28) 雅可比矩阵行向量 jp (t) 的计算由式 (26)~(28) 计算得到,对于所有输入模式,拟海森矩阵和梯 度向量分别由式 (20) 和 (21) 得到,然后应用更新 规则 (17) 对 3 个参数同时进行更新。采用上述 ILM 算法去优化 RBF 网络参数,加快算法的收敛速度 并且提高网络的预测准确度。 RC-RBF 网络的设计算法的步骤如下: 1) 初始随机给定一个 RBF 神经网络,输入节 点与输出节点个数根据具体实验设置,隐节点个 数随机设定,所有的参数随机产生在一个小范围内。 2) 对于输入样本 x(t),隐含层到输出层之间 的权值、宽度、中心分别通过式 (26)~(28) 进行调 整,采用固定样本个数的在线形式,然后,判断神 经网络是否满足结构调整条件,满足条件则转向 3),否则转向 6)。 3) 根据式 (3) 计算当前存在的隐含层神经元 与网络输出计算相对贡献指标 RC,如果第 t 步的 训练 RMSE 比第 t-n 步大时:e(t)-e(t-n)>0 时,则转 向 4);转向 5),判断是否满足删减条件,否则转向 6)。 4) 此时,说明神经网络信息处理能力不足, 需要增加神经元,按照式 (9),选出相对贡献指标 最大的神经元进行分裂,根据式 (10)~(12) 对新增 加神经元的设定初始化参数。 5) 如果满足删减条件 (13),则删除相对指标 贡献值小于阈值 ε 的隐含层神经元,删除与此神 经元的连接权值、中心和宽度,并利用 式 (14)~(16) 对其临近的神经元的相应参数进行调整。 6) 利用改进的 LM 算法对神经网络的参数进 行更新。 7) 满足停止条件或达到计算次数时停止计 算,否则转向 2)(网络结构还需调整) 进行重新训练。 3 收敛性分析 网络是否收敛决定了算法的性能,因为网络 在结构调整之后对其收敛性往往不能保证,以下 给出结构调整阶段的收敛性证明,主要分为 3 部分:1) 隐节点增加阶段;2) 隐节点删减阶段;3) 隐节点 数目不变的阶段。 ·162· 智 能 系 统 学 报 第 13 卷
第2期 乔俊飞,等:基于相对贡献指标的自组织RBF神经网络的设计 ·163· 假设:当前网络存在J个隐含层神经元,当前 则,将得到 时刻的误差为e)。 △2(t)=(Q(2(t)+A(t)D-0(t) (35) 1)当满足神经元增加条件时,分裂神经元, 现在有以下收敛定理: 此时神经元数目变为J+1个,此时网络的误差变 假设RC-RBF神经网络中的隐含层神经元数 为e'41)。新增加的神经元的参数设置按照式 为固定J,同时网络参数根据式(17)中的规则进 (12)进行设置。 行更新,如果满足以下假设: 0(2t-1) e'j(t)=yp(t)- w,0Φ(t0= IA2e训≤minllAs2t-1), (2t-1) (36) 那么,结合等式(32(34)可以得到 y,(0-(w,(0中,(0+wen0)中(0)= (29) j=1 △F2)=-2A2'rE(2)a20 (37) e(t) e0-重n 、中ew()=0 7E(△2()是正定的,当满足假设条件,于是得出: △F(2t)<0 可以看出,隐含层新增加神经元之后,其参数 (38) 设置对网络的输出误差进行了补偿,调整后误差 由此可以得出Lyapunov函数F(2()不是增 为0,一定程度上加快算法的学习速度。 加的,进一步得出当()→0,网络收敛 lime(t)=0 (39) 2)当满足删减条件时,删除第k个神经元,此 时神经元的数量变为J1,神经网络的输出误差为 综上所述,通过网路误差补偿更新神经元的 e-(①),删减之后对临近神经元的参数更新设置如 参数,对神经元增长和删减两阶段的收敛性证 明;同时也对结构固定阶段的RBF网络的收敛性 式(16). 也进行证明,因此提出设计方法的收敛性得以验证。 可以看出,删掉神经元与输出之间的连接权 值,中心,宽度等参数,对其邻近的神经元进行参 4仿真实验 数更新,神经元调整前后,神经网络的输出误差 相等,可见结构删减对网络的误差没有产生影响。 RC-RBF神经网络能够根据研究对象的复杂 动态变化在线调整隐含层神经元的个数,提高网 e-10=y(0)-w,0速,)= 络的预测能力,为验证算法的有效性和可行性, 对Mackey-.class时间序列和污水处理关键出水参 0-( wt)速(0)+w-(t)Φ-1(t)= 数氨氨预测进行预测实验,对其算法进行验证。 1.jk.ji-1 利用均方根误差函数作为衡量网路的性能指 0-( w,(t)Φ)+ (30) 标函数,计算公式如式(40)所示。 j=ljjti-1 Φ() w(0+ w(0)重()》= ) RMSE(t)= ,y(0-on(t) (40) ya(0- w(t)速()-w2(t)-1()e(0 式中:P为样本总数,y,()为第p个样本1时刻对 j=l.ji-1 应的网络输出,o()为第p个样本1时刻对应的 3)隐节点数目不变的阶段 期望输出。 为了证明算法在固定神经元时算法的收敛 l)Mackey-Glass时间序列预测 性,定义一个Lyapunov函数: Mackey-Glass时间序列预测是一个典型的验 F2)=2e'oe0 (31) 证自组织网络性能的基准函数。其微分方程表 根据泰勒展开式可以得到,Lyapunov函数 达式如式(41)所示: F2()的变化量: bx(t-T) x(+1)=(1-a)x()++x) (41) △F(2(t0)=F(2(t+1)-F(2(t)= 式中:a=0.1,b=0.2,t=17,并且初始条件为 -7E(2(t)△2(t)+ (32) ARTOVE(Q(ARO) x(0)=1.2,p=6,△1=6。过去的4个值{x(),x(-△), x(-2△),x(-3△)}去预测x(什p)的值,预测模型如 VE(2()=O(2(t) (33) 式(42)所示: 72E(2(t0)=Q(2(t0)+A()1 (34) x(t+p)=f[x(),x(t-△),x(t-2△),x(t-3△](42) 式中:VE(△2()和VE(△2()分别为误差函数的 根据式(42)产生1000个数据,其中,1∈[136, 一阶导数、二阶导数矩阵。根据式(17)的更新规 535]产生500组作为训练数据,1e[636,1135]产
假设:当前网络存在 J 个隐含层神经元,当前 时刻的误差为 eJ (t)。 e ′ J+1(t) 1) 当满足神经元增加条件时,分裂神经元, 此时神经元数目变为 J+1 个,此时网络的误差变 为 。新增加的神经元的参数设置按照式 (12) 进行设置。 e ′ J+1(t) = yp(t)− ∑J+1 j=1 wj(t)Φj(t) = yp(t)−( ∑J j=1 wj(t)Φj(t)+wnew(t)Φnew(t)) = ej(t)− ej(t) Φnew(t) Φnew(t) = 0 (29) 可以看出,隐含层新增加神经元之后,其参数 设置对网络的输出误差进行了补偿,调整后误差 为 0,一定程度上加快算法的学习速度。 e ′ J−1(t) 2) 当满足删减条件时,删除第 k 个神经元,此 时神经元的数量变为 J-1,神经网络的输出误差为 ,删减之后对临近神经元的参数更新设置如 式 (16)。 可以看出,删掉神经元与输出之间的连接权 值,中心,宽度等参数,对其邻近的神经元进行参 数更新,神经元调整前后,神经网络的输出误差 相等,可见结构删减对网络的误差没有产生影响。 e ′ J−1 (t) = yp(t)− ∑J−1 j=1 wj(t)Φj(t) = yp(t)−( ∑J j=1, j,k, j,i−1 wj(t)Φj(t)+wi−1(t)Φi−1(t)) = yd(t)−( ∑J j=1, j,k, j,i−1 wj(t)Φj(t)+ ( w ′ i−1 (t)+ Φk(t) Φ′ i−1 (t) wk(t) ) Φ′ i−1 (t)) = yd(t)− ∑J j=1, j,i−1 wj(t)Φj(t)−w ′ i−1 (t)Φi−1(t)eJ (t) (30) 3) 隐节点数目不变的阶段 为了证明算法在固定神经元时算法的收敛 性,定义一个 Lyapunov 函数: F(Ω(t)) = 1 2 e T (t)e(t) (31) 根据泰勒展开式可以得到,Lyapunov 函数 F(Ω(t)) 的变化量: ∆F(Ω(t)) = F(Ω(t+1))− F(Ω(t)) = −∇E T (Ω(t))∆Ω(t)+ 1 2 ∆Ω T (t)∇ 2E(Ω(t))∆Ω(t) (32) ∇E(Ω(t)) = Θ(Ω(t)) (33) ∇ 2E(Ω(t)) = Q(Ω(t))+λ(t)I (34) ∇E(∆Ω(t)) ∇ 2 式中: 和 E(∆Ω(t)) 分别为误差函数的 一阶导数、二阶导数矩阵。根据式 (17) 的更新规 则,将得到 ∆Ω(t) = (Q(Ω(t))+λ(t)I) −1Θ(t) (35) 现在有以下收敛定理: 假设 RC-RBF 神经网络中的隐含层神经元数 为固定 J,同时网络参数根据式 (17) 中的规则进 行更新,如果满足以下假设: ∥∆Ω(t)∥ ⩽ min{ ∥∆Ω(t−1)∥, Θ(Ω(t−1)) Q(Ω(t−1))} (36) 那么,结合等式 (32)~(34) 可以得到 ∆F(Ω(t)) = − 1 2 ∆Ω T (t)∇ 2E(Ω(t))∆Ω(t) (37) ∇ 2E(∆Ω(t)) 是正定的,当满足假设条件,于是得出: ∆F(Ω(t)) < 0 (38) 由此可以得出 Lyapunov 函数 F(Ω(t)) 不是增 加的,进一步得出当 e(t)→0,网络收敛 lim t→∞ e(t) = 0 (39) 综上所述,通过网路误差补偿更新神经元的 参数,对神经元增长和删减两阶段的收敛性证 明;同时也对结构固定阶段的 RBF 网络的收敛性 也进行证明,因此提出设计方法的收敛性得以验证。 4 仿真实验 RC-RBF 神经网络能够根据研究对象的复杂 动态变化在线调整隐含层神经元的个数,提高网 络的预测能力,为验证算法的有效性和可行性, 对 Mackey-class 时间序列和污水处理关键出水参 数氨氮预测进行预测实验,对其算法进行验证。 利用均方根误差函数作为衡量网路的性能指 标函数,计算公式如式 (40) 所示。 RMSE(t) = vut 1 2P ∑P p=1 (yp(t)−op(t))2 (40) 式中:P 为样本总数,yp (t) 为第 p 个样本 t 时刻对 应的网络输出,op (t) 为第 p 个样本 t 时刻对应的 期望输出。 1) Mackey-Glass 时间序列预测 Mackey-Glass 时间序列预测是一个典型的验 证自组织网络性能的基准函数[18]。其微分方程表 达式如式 (41) 所示: x(t+1) = (1−a)x(t)+ bx(t−τ) 1+ x 10(t−τ) (41) 式中: a=0.1 , b=0.2 , τ=17 ,并且初始条件 为 x(0)=1.2, p=6, Δt=6。过去的 4 个值{x(t), x(t–Δt), x(t–2Δt), x(t–3Δt)}去预测 x(t+p) 的值,预测模型如 式 (42) 所示: x (t+ p) = f [x (t), x (t−∆t), x (t−2∆t), x (t−3∆t)] (42) 根据式 (42) 产生 1 000 个数据,其中,t∈[136, 535] 产生 500 组作为训练数据,t∈[636, 1 135] 产 第 2 期 乔俊飞,等:基于相对贡献指标的自组织 RBF 神经网络的设计 ·163·