第13卷第3期 智能系统学报 Vol.13 No.3 2018年6月 CAAI Transactions on Intelligent Systems Jun.2018 D0:10.11992/tis.201702014 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20170702.0439.024.html 基于快速密度聚类的RBF神经网络设计 蒙西2,乔俊飞2,李文静2 (1.北京工业大学信息学部,北京100124:2.北京工业大学计算智能与智能系统北京市重点实验室,北京100124) 摘要:针对径向基函数(radial basis function,RBF)神经网络隐含层结构难以确定的问题,提出一种基于快速密度聚 类的网络结构设计算法。该算法将快速密度聚类算法良好的聚类特性用于RBF神经网络结构设计中,通过寻找密 度最大的点并将其作为隐含层神经元,进而确定隐含层神经元个数和初始参数:同时,引入高斯函数的特性,保证了 每个隐含层神经元的活性:最后,用一种改进的二阶算法对神经网络进行训练,提高了神经网络的收敛速度和泛化能 力。利用典型非线性函数逼近和非线性动态系统辨识实验进行仿真验证,结果表明.基于快速密度聚类设计的 RBF神经网络具有紧凑的网络结构、快速的学习能力和良好的泛化能力。 关键词:RBF神经网络:快速密度聚类:结构设计:神经元活性:二阶算法:泛化能力:函数逼近:系统辨识 中图分类号:TP273文献标志码:A文章编号:1673-4785(2018)03-0331-08 中文引用格式:蒙西,乔俊飞,李文静.基于快速密度聚类的RBF神经网络设计J.智能系统学报,2018,13(3):331-338. 英文引用格式:MENG Xi,.QIAO Junfei,.LI Wenjing.Construction of RBF neural networks via fast density clusteringJ.CAAI transactions on intelligent systems,2018,13(3):331-338. Construction of RBF neural networks via fast density clustering MENG Xi,QIAO Junfei2,LI Wenjing'2 (1.Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China;2.Beijing Key Laboratory of Com- putational Intelligence and Intelligent System,Beijing University of Technology,Beijing 100124,China) Abstract:To design a hidden layer structure in radial-basis-function(RBF)neural networks,a novel algorithm based on fast density clustering is proposed.The algorithm searches for the point with the highest density and then uses it as the neuron of the hidden layer,thereby ascertaining the number of neurons in the hidden layer and the initial parameters. Moreover,the activity of each hidden neuron is ensured by introducing the Gaussian function.An improved second-or- der algorithm is used to train the designed network,increasing the training speed and improving the generalization per- formance.In addition,two benchmark simulations-the typical nonlinear function approximation and the nonlinear dy- namic system identification experiment-are used to test the effectiveness of the proposed RBF neural network.The results suggest that the proposed RBF neural network based on fast density clustering offers improved generalization performance,has a compact structure,and requires shorter training time. Keywords:RBF neural networks;fast density clustering;structure design;neuron activity;second-order training;gener- alization performance;function approximation;system identification 径向基函数(radial basis function,.RBF)神经网网络,因其结构简单且具有良好的非线性映射能力 络是一种模拟生物神经元局部响应特性的前馈神经 而被广泛用于多个领域-6。RBF神经网络构建的 核心问题在于结构设计”。早期隐含层结构的确定 收稿日期:2017-02-24.网络出版日期:2017-07-02 基金项目:国家自然科学基金项目(61533002,61603009):北京市白 多采用经验试凑法,但此类方法很难在保证神经网 然科学基金面上项目(4182007):北京工业大学日新人 络精度的前提下得到一个紧凑的网络结构。因此, 才项目(2017-RX-(104). 通信作者:乔俊飞.E-mail:junfeiq@bjut.edu.cn. 许多学者针对RBF神经网络的结构设计问题展开
DOI: 10.11992/tis.201702014 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20170702.0439.024.html 基于快速密度聚类的 RBF 神经网络设计 蒙西1,2,乔俊飞1,2,李文静1,2 (1. 北京工业大学 信息学部,北京 100124; 2. 北京工业大学 计算智能与智能系统北京市重点实验室,北京 100124) 摘 要:针对径向基函数 (radial basis function,RBF) 神经网络隐含层结构难以确定的问题,提出一种基于快速密度聚 类的网络结构设计算法。该算法将快速密度聚类算法良好的聚类特性用于 RBF 神经网络结构设计中,通过寻找密 度最大的点并将其作为隐含层神经元,进而确定隐含层神经元个数和初始参数;同时,引入高斯函数的特性,保证了 每个隐含层神经元的活性;最后,用一种改进的二阶算法对神经网络进行训练,提高了神经网络的收敛速度和泛化能 力。利用典型非线性函数逼近和非线性动态系统辨识实验进行仿真验证,结果表明,基于快速密度聚类设计的 RBF 神经网络具有紧凑的网络结构、快速的学习能力和良好的泛化能力。 关键词:RBF 神经网络;快速密度聚类;结构设计;神经元活性;二阶算法;泛化能力;函数逼近;系统辨识 中图分类号:TP273 文献标志码:A 文章编号:1673−4785(2018)03−0331−08 中文引用格式:蒙西, 乔俊飞, 李文静. 基于快速密度聚类的 RBF 神经网络设计[J]. 智能系统学报, 2018, 13(3): 331–338. 英文引用格式:MENG Xi, QIAO Junfei, LI Wenjing. Construction of RBF neural networks via fast density clustering[J]. CAAI transactions on intelligent systems, 2018, 13(3): 331–338. Construction of RBF neural networks via fast density clustering MENG Xi1,2 ,QIAO Junfei1,2 ,LI Wenjing1,2 (1. Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China; 2. Beijing Key Laboratory of Computational Intelligence and Intelligent System, Beijing University of Technology, Beijing 100124, China) Abstract: To design a hidden layer structure in radial-basis-function (RBF) neural networks, a novel algorithm based on fast density clustering is proposed. The algorithm searches for the point with the highest density and then uses it as the neuron of the hidden layer, thereby ascertaining the number of neurons in the hidden layer and the initial parameters. Moreover, the activity of each hidden neuron is ensured by introducing the Gaussian function. An improved second-order algorithm is used to train the designed network, increasing the training speed and improving the generalization performance. In addition, two benchmark simulations—the typical nonlinear function approximation and the nonlinear dynamic system identification experiment —are used to test the effectiveness of the proposed RBF neural network. The results suggest that the proposed RBF neural network based on fast density clustering offers improved generalization performance, has a compact structure, and requires shorter training time. Keywords: RBF neural networks; fast density clustering; structure design; neuron activity; second-order training; generalization performance; function approximation; system identification 径向基函数 (radial basis function,RBF) 神经网 络是一种模拟生物神经元局部响应特性的前馈神经 网络,因其结构简单且具有良好的非线性映射能力 而被广泛用于多个领域[1-6]。RBF 神经网络构建的 核心问题在于结构设计[7]。早期隐含层结构的确定 多采用经验试凑法,但此类方法很难在保证神经网 络精度的前提下得到一个紧凑的网络结构。因此, 许多学者针对 RBF 神经网络的结构设计问题展开 收稿日期:2017−02−24. 网络出版日期:2017−07−02. 基金项目:国家自然科学基金项目 (61533002,61603009);北京市自 然科学基金面上项目 (4182007);北京工业大学日新人 才项目 (2017-RX-(1)-04). 通信作者:乔俊飞. E-mail:junfeiq@bjut.edu.cn. 第 13 卷第 3 期 智 能 系 统 学 报 Vol.13 No.3 2018 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2018
·332· 智能系统学报 第13卷 了大量研究。 =0 聚类算法常被用来确定RBF神经网络的结构, 0,(x)=e (1) 如K-Means、Fuzzy C-Means(FCM)&.1o等,该类算法 其中:x=[1…为网络输入向量,c为第j个 能根据各聚类中心之间的距离确定隐含层神经元的 神经元的中心向量,σ,为第j个神经元的径向作用 径向作用范围,但却无法确定隐含层神经元的个 范围。输出层第m个神经元的输出ym为 数,会影响神经网络的泛化能力。因此,根据研究 ym (2) 对象自适应设计RBF神经网络中隐含层神经元的 个数,提高网络性能已成为当前RBF神经网络研究 式中:wm为第j个隐层神经元到第m个输出神经元 的一个热点。Platt首次提出了一种结构自适应调 的连接权值。 整的RBF神经网络—资源分配网络(resource al-. 输人层 隐含层 输出层 location network,RAN),该网络能根据待处理任务 动态增加RBF神经元,但容易导致网络结构过大的 问题。在RAN的基础上,Yingwei等构建了最小资 源神经网络(minimal resource allocation network, MRAN)2。在自适应增加隐含层神经元的同时, MRAN能通过删减策略去除冗余神经元,但该网络 收敛速度较慢。Huang等I1提出了一种增长修剪 型RBF神经网络(growing and pruning RBF,GAP- 图1RBF神经网络结构图 RBF),该网络基于神经元的显著性构建隐含层结 Fig.1 Structure of the RBF neural network 构。文献[14]中构建了一种自组织RBF神经网络 2 基于快速密度聚类的RBF神经网 (self-organizing RBF,SORBF),SORBF网络基于 络设计 BF神经元径向作用范围对隐含层结构进行自适 应增删。GAP-RBF网络和SORBF网络中涉及的 RBF神经网络的设计包括结构构建和参数训 算法参数较多,对算法最优参数的寻求会影响网络 练两部分。文中采用改进的快速密度聚类算法确定 的性能。Wilamowski等1s基于误差补偿算法来构 网络初始结构和初始参数,在此基础上,用一种改 建RBF神经网络(error--correction RBF,ErrCor-RBF), 进的二阶梯度算法对网络进行训练。 实验表明该方法能获得较精简的神经网络结构,但 2.1快速密度聚类算法 该网络仍然需要通过大量的迭代寻求最优结构。 聚类分析是基于相似度将样本划分成若干类 鉴于以上存在的问题,结合RBF神经元激活函 别,目前大多数聚类算法普遍存在两点不足:需要 数本身的特性,本文对一种快速密度聚类算法进行 提前确定聚类的类别数:需要通过大量迭代来寻求 了相应的改进,然后将其用于RBF神经网络的结构 最优聚类结果。 设计中。同时,针对传统梯度下降、算法收敛较慢 针对以上问题,Alex等提出了一种快速密度 且易陷入局部极小的问题,结合结构设计中确定的 聚类算法,该算法无需提前确定聚类类别数,通过 初始参数,选用改进的二阶梯度算法来训练RBF神 寻找局部密度峰值作为聚类中心从而实现对数据样 经网络,提高了网络的收敛速度和泛化能力。最 本的快速聚类。 后,通过两个基准仿真实验验证,提出的基于快速 快速密度聚类算法的核心思想在于聚类中心被 密度聚类的RBF神经网络(fast density clustering 其他密度值较小的点紧紧包围,且远离其他密度值 RBF,FDC-RBF),能够以紧凑的网络结构和较快的 较大的点。在聚类中心的寻找过程中,对于任一数 收敛速度获取较好的非线性映射能力。 据点i,需计算两个值:每个点的局部密度值和该 1RBF神经网络 点到其他密度值较大点的最小距离6:。数据点i的 局部密度值计算公式为 RBF神经网铬是一种典型的前馈型神经网络, p=∑xd-d) (3) 其网络结构如图1所示(L个输入神经元,J个隐含 层神经元,M个输出层神经元)。隐含层激活函数为 式中:当x<0时,X(x)=1;当x≥0时,X(x)=0;d为 径向基函数,常选用标准的高斯函数,即 需要提前设定的截断距离
了大量研究。 聚类算法常被用来确定 RBF 神经网络的结构, 如 K-Means、Fuzzy C-Means (FCM)[8-10]等,该类算法 能根据各聚类中心之间的距离确定隐含层神经元的 径向作用范围,但却无法确定隐含层神经元的个 数,会影响神经网络的泛化能力。因此,根据研究 对象自适应设计 RBF 神经网络中隐含层神经元的 个数,提高网络性能已成为当前 RBF 神经网络研究 的一个热点。Platt[11]首次提出了一种结构自适应调 整的 RBF 神经网络——资源分配网络 (resource allocation network,RAN),该网络能根据待处理任务 动态增加 RBF 神经元,但容易导致网络结构过大的 问题。在 RAN 的基础上,Yingwei 等构建了最小资 源神经网络 (minimal resource allocation network, MRAN)[12]。在自适应增加隐含层神经元的同时, MRAN 能通过删减策略去除冗余神经元,但该网络 收敛速度较慢。Huang 等 [13]提出了一种增长修剪 型 RBF 神经网络 (growing and pruning RBF,GAPRBF),该网络基于神经元的显著性构建隐含层结 构。文献[14]中构建了一种自组织 RBF 神经网络 (self-organizing RBF,SORBF),SORBF 网络基于 RBF 神经元径向作用范围对隐含层结构进行自适 应增删。GAP-RBF 网络和 SORBF 网络中涉及的 算法参数较多,对算法最优参数的寻求会影响网络 的性能。Wilamowski 等 [15]基于误差补偿算法来构 建 RBF 神经网络 (error-correction RBF,ErrCor-RBF), 实验表明该方法能获得较精简的神经网络结构,但 该网络仍然需要通过大量的迭代寻求最优结构。 鉴于以上存在的问题,结合 RBF 神经元激活函 数本身的特性,本文对一种快速密度聚类算法进行 了相应的改进,然后将其用于 RBF 神经网络的结构 设计中。同时,针对传统梯度下降、算法收敛较慢 且易陷入局部极小的问题,结合结构设计中确定的 初始参数,选用改进的二阶梯度算法来训练 RBF 神 经网络,提高了网络的收敛速度和泛化能力。最 后,通过两个基准仿真实验验证,提出的基于快速 密度聚类的 RBF 神经网络 (fast density clustering RBF, FDC-RBF),能够以紧凑的网络结构和较快的 收敛速度获取较好的非线性映射能力。 1 RBF 神经网络 RBF 神经网络是一种典型的前馈型神经网络, 其网络结构如图 1 所示 (L 个输入神经元,J 个隐含 层神经元,M 个输出层神经元)。隐含层激活函数为 径向基函数,常选用标准的高斯函数,即 θj(x) = e − ∥x−c j∥ 2 σ 2 j (1) x = [x1 x2 ··· xL] T cj σj ym 其中: 为网络输入向量, 为第 j 个 神经元的中心向量, 为第 j 个神经元的径向作用 范围。输出层第 m 个神经元的输出 为 ym = ∑J j=1 wjmθj (2) 式中: wjm 为第 j 个隐层神经元到第 m 个输出神经元 的连接权值。 θ1 䒿ڑᅮ 䮼ॗᅮ 䒿ܦᅮ θ2 θj θJ x1 xL yM y1 … … … 图 1 RBF 神经网络结构图 Fig. 1 Structure of the RBF neural network 2 基于快速密度聚类的 RBF 神经网 络设计 RBF 神经网络的设计包括结构构建和参数训 练两部分。文中采用改进的快速密度聚类算法确定 网络初始结构和初始参数,在此基础上,用一种改 进的二阶梯度算法对网络进行训练。 2.1 快速密度聚类算法 聚类分析是基于相似度将样本划分成若干类 别,目前大多数聚类算法普遍存在两点不足:需要 提前确定聚类的类别数;需要通过大量迭代来寻求 最优聚类结果。 针对以上问题,Alex 等 [16]提出了一种快速密度 聚类算法,该算法无需提前确定聚类类别数,通过 寻找局部密度峰值作为聚类中心从而实现对数据样 本的快速聚类。 ρi δi 快速密度聚类算法的核心思想在于聚类中心被 其他密度值较小的点紧紧包围,且远离其他密度值 较大的点。在聚类中心的寻找过程中,对于任一数 据点 i,需计算两个值:每个点的局部密度值 和该 点到其他密度值较大点的最小距离 。数据点 i 的 局部密度值计算公式为 ρi = ∑ j χ ( di j −dc ) (3) 式中:当x < 0 时, χ(x) = 1 ;当x ⩾ 0 时, χ(x) = 0 ;dc 为 需要提前设定的截断距离。 ·332· 智 能 系 统 学 报 第 13 卷
第3期 蒙西,等:基于快速密度聚类的RBF神经网络设计 ·333· 数据点i到其他密度值较大点的最小距离6,计 过密度比较,将密度较大的点作为隐含层神经元。 算公式为 因此文中基于快速密度聚类的RBF神经网络 6;=min(di) (4) 结构设计可以分为两种情况:神经元增长机制;神 FPi2pi 选出局部密度值较大和到其他点距离较小的点 经元调节机制。 作为聚类中心,其他非中心数据样本依次分配到距 设神经网络的训练样本是由P个输入输出对 离其最近且密度值较大的聚类中心所在类,由此完 (x,y)组成,其中,x为L维输人向量,y为相对应的 成整个聚类过程。 M维期望输出。初始时刻,网络隐含层的神经元个 数为0。 可见,该算法的聚类过程是一步完成的无需通 ①神经元增长机制 过多次迭代来寻求最优结果。但其仍然存在两点不 把第一个数据样本作为第一个隐含层神经元中 足:聚类前需要获取整个数据样本,因而不利于实 心,同时设定相应的径向作用范围和输出权值。 现在线聚类;聚类的效果受到截断距离d,的影响。 C1=x1 (8) 针对以上问题,结合高斯函数的特性,对该算 01=1 (9) 法进行了一定的改进,并将其运用于RBF神经网络 w1=ya (10) 的结构设计中。 在k时刻,假设已经存在广个隐含层神经元,当 2.2基于快速密度聚类算法的RBF网络结构设计 第k个数据样本进入网络时,找到距离当前样本最 类似于快速密度聚类算法,本文通过寻找局部 近的隐含层神经元kin: 密度值较大的点作为隐含层神经元中心,进而确定 kmin arg min (dist(x.cn) (11) h(1.1 RBF神经网络的结构。针对快速密度聚类算法需 D=dist(x.c) (12) 要预先知道所有的数据样本且聚类效果受到截断距 将此距离与该隐含层神经元的径向作用范围进 离影响的问题,本文做出相应的改进。 行比较,如果D>onT,则认为当前样本不能 I)由于RBF神经元的激活函数为高斯函数,引 保证该神经元的活性,将第k个样本作为新增神经 入隐含层神经元活性评价指标如下: 元的中心,同时设定其径向作用范围和输出权值: AC=ek-efm≥V CH+I Xk (13) (5) 式中:AC,为第j个隐含层神经元被第i个样本激活 0+1=1 (14) Wi=ya (15) 后的活性,AC值越大,神经元的活性越强;V为神 ②神经元调整机制 经元活性阈值,以保证隐含层神经元的活性足够 在k时刻,若D≤onT,则认为当前网络 大。输入向量、中心向量、径向作用范围需要满足 能够对新样本进行学习,比较当前样本与该隐含层 以下关系: 神经元的局部密度值,选出密度值较大的点作为新 c 的隐含层神经元,数据点ⅰ的局部密度计算公式为 ≤vnW (6) p=∑exp(-lc,-xf1d\ (16) 即输入向量与隐含层神经元的中心向量间的距离需 CH+XI 要满足以下关系: 式中:x,是c,作用范围内所包括的样本点;d是该数 x:-c≤vn V (7) 据,点的局部作用范围。 式中神经元活性阈值V根据实验进行取值。因此 从式(16)可以看出,若一个数据,点的局部密度 截断距离与神经元的径向作用范围以及神经元的活 值越大,代表该点附近聚集的样本点越多:同理,隐 性相关。 含层神经元密度越大,则代表该神经元激活的样本 2)为了实现在线聚类,本文在确定神经网络结 数越多。 构时,训练样本依次进入神经网络对结构进行调 将当前输入样本点k的局部密度值与隐含层神 整:增加一个隐含层神经元或对已有的隐含层神经 经元km的局部密度值进行比较: 若P>P,则当前输入样本替换已有的隐含层 元进行调整。 神经元,成为新的隐含层神经元,初始参数设置为 文中隐含层结构设计的核心思想在于:判断当 Ck =Xk (17) 前样本在激活其最近隐含层神经元时是否能保证该 nkWk+ydj W= (18) 神经元具有足够的活性。如果能保证其活性则能归 nka +1 入当前隐含层神经元所在类,反之则不能;其次,通 =max(dist(c)) (19)
数据点 δi i 到其他密度值较大点的最小距离 计 算公式为 δi= min j:ρj>ρi ( di j) (4) 选出局部密度值较大和到其他点距离较小的点 作为聚类中心,其他非中心数据样本依次分配到距 离其最近且密度值较大的聚类中心所在类,由此完 成整个聚类过程。 可见,该算法的聚类过程是一步完成的无需通 过多次迭代来寻求最优结果。但其仍然存在两点不 足:聚类前需要获取整个数据样本,因而不利于实 现在线聚类;聚类的效果受到截断距离 dc 的影响。 针对以上问题,结合高斯函数的特性,对该算 法进行了一定的改进,并将其运用于 RBF 神经网络 的结构设计中。 2.2 基于快速密度聚类算法的 RBF 网络结构设计 类似于快速密度聚类算法,本文通过寻找局部 密度值较大的点作为隐含层神经元中心,进而确定 RBF 神经网络的结构。针对快速密度聚类算法需 要预先知道所有的数据样本且聚类效果受到截断距 离影响的问题,本文做出相应的改进。 1) 由于 RBF 神经元的激活函数为高斯函数,引 入隐含层神经元活性评价指标如下: ACi j=e −∥xi−cj∥ 2 /σ2 j ⩾ V (5) 式中: ACi j 为第 j 个隐含层神经元被第 i 个样本激活 后的活性,AC 值越大,神经元的活性越强;V 为神 经元活性阈值,以保证隐含层神经元的活性足够 大。输入向量、中心向量、径向作用范围需要满足 以下关系: xi − cj σj ⩽ √ ∥lnV∥ (6) 即输入向量与隐含层神经元的中心向量间的距离需 要满足以下关系: xi − cj ⩽ σj √ ∥lnV∥ (7) 式中神经元活性阈值 V 根据实验进行取值。因此 截断距离与神经元的径向作用范围以及神经元的活 性相关。 2) 为了实现在线聚类,本文在确定神经网络结 构时,训练样本依次进入神经网络对结构进行调 整:增加一个隐含层神经元或对已有的隐含层神经 元进行调整。 文中隐含层结构设计的核心思想在于:判断当 前样本在激活其最近隐含层神经元时是否能保证该 神经元具有足够的活性。如果能保证其活性则能归 入当前隐含层神经元所在类,反之则不能;其次,通 过密度比较,将密度较大的点作为隐含层神经元。 因此文中基于快速密度聚类的 RBF 神经网络 结构设计可以分为两种情况:神经元增长机制;神 经元调节机制。 (x, yd) x yd 设神经网络的训练样本是由 P 个输入输出对 组成,其中, 为 L 维输入向量, 为相对应的 M 维期望输出。初始时刻,网络隐含层的神经元个 数为 0。 ①神经元增长机制 把第一个数据样本作为第一个隐含层神经元中 心,同时设定相应的径向作用范围和输出权值。 c1 = x1 (8) σ1 = 1 (9) w1 = yd1 (10) 在 k 时刻,假设已经存在 j 个隐含层神经元,当 第 k 个数据样本进入网络时,找到距离当前样本最 近的隐含层神经元 kmin: kmin = argmin h∈[1, j] {dist(xk , ch)} (11) D= dist( xk , ckmin ) (12) D > σkmin √ ∥lnV∥ 将此距离与该隐含层神经元的径向作用范围进 行比较,如果 ,则认为当前样本不能 保证该神经元的活性,将第 k 个样本作为新增神经 元的中心,同时设定其径向作用范围和输出权值: cj+1 = xk (13) σj+1 = 1 (14) wj+1 = ydk (15) ②神经元调整机制 D ⩽ σkmin √ 在 k 时刻,若 ∥lnV∥ ,则认为当前网络 能够对新样本进行学习,比较当前样本与该隐含层 神经元的局部密度值,选出密度值较大的点作为新 的隐含层神经元,数据点 i 的局部密度计算公式为 Pi = ∑ ci,xj exp( − ci − xj 2 /di 2 ) (16) 式中: xj 是 ci作用范围内所包括的样本点;di 是该数 据点的局部作用范围。 从式 (16) 可以看出,若一个数据点的局部密度 值越大,代表该点附近聚集的样本点越多;同理,,隐 含层神经元密度越大,则代表该神经元激活的样本 数越多。 将当前输入样本点 k 的局部密度值与隐含层神 经元 kmin 的局部密度值进行比较: 若 Pk > Pkmin,则当前输入样本替换已有的隐含层 神经元,成为新的隐含层神经元,初始参数设置为 ckmin = xk (17) wkmin = nkminwkmin + yd j nkmin +1 (18) σkmin= max(dist(ckmin , xkmin )) (19) 第 3 期 蒙西,等:基于快速密度聚类的 RBF 神经网络设计 ·333·
·334· 智能系统学报 第13卷 式中:x表示第kmm个隐含层神经元激活的所有样 den ben Ben 本;表示激活的样本数量。 OA 84 OAN 反之,若P,≤P,则已有的隐含层神经元不 deM deM deiM 变,只需调整该神经元的径向作用范围以及到输出 0d1 04 OAN 层的连接权值,见式(18)~(19)。 (23) 由此,可以得到FDC-RBF神经网络结构设计 depL dep dep 算法如下: OA 04 444 OAN 1)初始时刻,隐含层神经元个数为0。 depM bepM oepM 2)当第1个样本进入网络后,将其作为第1个 0d1 0d2 OAN 隐含层神经元,并按照式(8)~(10)对其中心、径向 式中N是算法中所有参数的个数。 作用范围和连接权值进行设置。 由式(23)可以看出,在LM算法的执行过程 3)当第k个样本进入网络后,计算其与当前所 中,雅克比矩阵的计算与训练样本数量、参数个数 有隐含层神经元的距离,找出与第k个样本距离最 以及输出向量的维数都有关。当样本数量过多时, 近的隐含层神经元kmno 则会影响算法的收敛速度。 4)判断输入样本是否能保证第kmm个神经元的 针对以上问题,本文用一种改进的二阶算法对 活性,若不能保证则为网络新增加一个隐含层神经 RBF网络进行训练,提高了神经网络的收敛速度。 元,并按照式(13)~(15)赋予初始参数,然后转向 改进二阶算法的更新规则为 6);否则,执行下一步。 4k+1=4-(Q+4IDg (24) 5)若能保证神经元活性,则比较当前样本与最 式中:仍指所有需要调整的参数(中心向量,径向 近隐含层神经元的局部密度值,选出密度值较大的 作用范围,连接权值):Q为类海森矩阵;g为梯度向 点作为新的隐含层神经元,按照式(17)~(19)对中 量;4为学习率参数。 心、径向作用范围和权值进行更新,转向6)。 为了克服传统LM算法中存在的不足,减小存 6)若所有的样本比较完毕,则神经网络结构确 储空间,提高收敛速度,将类海森矩阵的计算转化 定;否则,=+1,转向3)。 为P×M个子矩阵的和,如式(25)、(26)所示: 该算法将快速密度聚类的思想用于RBF网络 结构设计中,并结合高斯函数特性进行相应改进, (25) p1m= 使网络具有紧凑的结构。同时,结构构建过程中设 9pm-jajpm (26) 定的较优的初始参数又能提高网络的收敛速度。 同样,将梯度向量的计算也转化为P×M个子向 2.3神经网络学习算法 量的和: 确定网络结构后,需要对网络参数进行调整。 P M 本文用一种改进的二阶算法对RBF网络进行训练, 2 g= (27) 提高了网络的收敛速度和泛化能力。传统的LM算 法更新规则如式(20)所示7: fmm-jepm (28) 这样,对类海森矩阵和梯度向量的计算就转化 A=A:-(JJ:+l)Je (20) 为对雅克比分量的计算: 式中:4指所有需要调整的参数(中心向量、径向作 用范围、连接权值);J为雅克比矩阵;e为误差向量; jpm= de pm de pm ow im 0o… (29) OCim I是单位矩阵;4为学习率参数。 联立式(1)、(2)、(24),对雅克比分量中每个参数的偏 误差向量计算公式为 微分计算如下: e=ten en...en...er en...eru] (21) epn ydpm -ypm (22) _ydm=-0(xp) (30) Ow jm Owim 式中:P是样本数量,M是输出向量维数,yam和 4e=-4m0,c2 ym分别是第p个样本进入时第m个输出神经元对 doi 00;(xp)oi 2wmej(xp)xp-cjl (31) 应的期望输出和实际输出。 雅克比矩阵计算公式为 0
xkmin nkmin 式中: 表示第 kmin 个隐含层神经元激活的所有样 本; 表示激活的样本数量。 Pj ⩽ Pk 反之,若 min ,则已有的隐含层神经元不 变,只需调整该神经元的径向作用范围以及到输出 层的连接权值,见式 (18)~(19)。 由此,可以得到 FDC-RBF 神经网络结构设计 算法如下: 1) 初始时刻,隐含层神经元个数为 0。 2) 当第 1 个样本进入网络后,将其作为第 1 个 隐含层神经元,并按照式 (8)~(10) 对其中心、径向 作用范围和连接权值进行设置。 3) 当第 k 个样本进入网络后,计算其与当前所 有隐含层神经元的距离,找出与第 k 个样本距离最 近的隐含层神经元 kmin。 4) 判断输入样本是否能保证第 kmin 个神经元的 活性,若不能保证则为网络新增加一个隐含层神经 元,并按照式 (13)~(15) 赋予初始参数,然后转向 6);否则,执行下一步。 5) 若能保证神经元活性,则比较当前样本与最 近隐含层神经元的局部密度值,选出密度值较大的 点作为新的隐含层神经元,按照式 (17)~(19) 对中 心、径向作用范围和权值进行更新,转向 6)。 6) 若所有的样本比较完毕,则神经网络结构确 定;否则,k=k+1,转向 3)。 该算法将快速密度聚类的思想用于 RBF 网络 结构设计中,并结合高斯函数特性进行相应改进, 使网络具有紧凑的结构。同时,结构构建过程中设 定的较优的初始参数又能提高网络的收敛速度。 2.3 神经网络学习算法 确定网络结构后,需要对网络参数进行调整。 本文用一种改进的二阶算法对 RBF 网络进行训练, 提高了网络的收敛速度和泛化能力。传统的 LM 算 法更新规则如式 (20) 所示[17] : ∆k+1 = ∆k −(J T k Jk +µk I) −1 J T k ek (20) 式中: ∆ 指所有需要调整的参数 (中心向量、径向作 用范围、连接权值);J 为雅克比矩阵;e 为误差向量; I 是单位矩阵;μ 为学习率参数。 误差向量计算公式为 e = [e11 e12...e12...eP1 eP2...ePM ] T (21) epm = yd pm −ypm (22) yd pm ypm 式中:P 是样本数量,M 是输出向量维数, 和 分别是第 p 个样本进入时第 m 个输出神经元对 应的期望输出和实际输出。 雅克比矩阵计算公式为 J = ∂e11 ∂∆1 ∂e11 ∂∆2 ... ∂e11 ∂∆N . . . . . . . . . ∂e1M ∂∆1 ∂e1M ∂∆2 ... ∂e1M ∂∆N . . . . . . . . . ∂eP1 ∂∆1 ∂eP1 ∂∆2 ... ∂eP1 ∂∆N . . . . . . . . . ∂ePM ∂∆1 ∂ePM ∂∆2 ... ∂ePM ∂∆N (23) 式中 N 是算法中所有参数的个数。 由式 (23) 可以看出,在 LM 算法的执行过程 中,雅克比矩阵的计算与训练样本数量、参数个数 以及输出向量的维数都有关。当样本数量过多时, 则会影响算法的收敛速度。 针对以上问题,本文用一种改进的二阶算法对 RBF 网络进行训练,提高了神经网络的收敛速度。 改进二阶算法的更新规则为[18] ∆k+1 = ∆k −(Qk +µk I) −1 gk (24) 式中: ∆ 仍指所有需要调整的参数 (中心向量,径向 作用范围,连接权值);Q 为类海森矩阵;g 为梯度向 量;μ 为学习率参数。 为了克服传统 LM 算法中存在的不足,减小存 储空间,提高收敛速度,将类海森矩阵的计算转化 为 P×M 个子矩阵的和,如式 (25)、(26) 所示: Q = ∑P p=1 ∑M m=1 qpm (25) qpm = j T pm jpm (26) 同样,将梯度向量的计算也转化为 P×M 个子向 量的和: g = ∑P p=1 ∑M m=1 ηpm (27) ηpm = j T pmepm (28) 这样,对类海森矩阵和梯度向量的计算就转化 为对雅克比分量的计算: jpm = [ ∂epm ∂wjm ... ∂epm ∂σj ... ∂epm ∂cjm ... ] (29) 联立式 (1)、(2)、(24),对雅克比分量中每个参数的偏 微分计算如下: ∂epm ∂wjm = − ∂yd pm ∂wjm = −θj ( xp ) (30) ∂epm ∂σj = − ∂yd pm ∂σj = − ∂yd pm ∂θj ( xp ) ∂θj ( xp ) ∂σj = − 2wjmθj ( xp ) xp − cj 2 σ 3 j (31) ·334· 智 能 系 统 学 报 第 13 卷
第3期 蒙西,等:基于快速密度聚类的RBF神经网络设计 ·335· depm dydpm dydpm0,cp) 3c jm =-30(x)0cm 2wmej(xp)xp-cil (32) 训练过程中,学习率参数“随着误差的变化自 适应调整。如果后一时刻的误差小于前一时刻的误 差,则4值减小,并保留当前训练后的各参数值:反 之,则μ值增大,各参数值恢复到调整前的值。 020406080100120140160180200 3仿真实验 样本数 图3隐含层神经元变化曲线 文中选用非线性函数逼近和非线性动态系统辨 Fig.3 Structure construction process of the FDC-RBF net- 识两个基准实验对FDC-RBF网络进行仿真验证, work 并与其他算法进行了对比。 1.4 3.1非线性函数sinE逼近 1.2 选取的典型非线性函数sinE为 1.0 y=0.8exp(-0.2x)sin(10x) (33) 0.8 式中0≤x≤2。非线性函数sinE经常被用来检验 RBF神经网络的性能。 0.4 随机选取200个样本对神经网络进行训练, 0.2 200个样本进行测试,训练的期望均方误差(mean 0 10 15 square error,MSE)设为O.0l,神经元活性阈值V设 迭代步数 为0.55。用改进的二阶算法训练后的神经网络测试 图4二阶算法学习性能曲线 效果如图2所示,隐含层神经元数的变化如图3所 Fig.4 Performance curve of the second-order learning al- 示,二阶算法学习性能曲线如图4所示。此外,为 gorithm 1.8 了验证不同的学习算法对神经网络性能的影响,在 1.6 RBF网络初始结构确定后,又用梯度下降法对该网 1.4 络进行了训练,学习性能曲线如图5所示。 12 由图2可以看出,训练后的FDC-RBF网络能 够较好地拟合sinE曲线。从图4和图5的对比可 8 0.6 以看出,梯度下降算法需要在第45步左右才能完全 0.4 收敛,而改进的二阶算法在第13步就已完全收敛。 0.2 由此可以看出,当用改进的二阶算法训练该网络 010203040,5060708090100 迭代步数 时,收敛速度大大提高了。 图5梯度下降学习性能曲线 -期望输出 Fig.5 Performance curve of the gradient descent al- 实际输出 gorithm 同时,为了显示FDC-RBF网络的优良性,本文 02 将其与DENNI9、GAP-RBF)、SORBE4、ART-RBFO 0 进行了对比,如表1所示。结果显示,与DFNN、 0.2 GAP-RBF、SORBF相比,基于本文提出的算法设计 的网络隐含层神经元个数要少于以上网络,结构要 0.6 更为精简;同时,与其他4种网络相比,FDC-RBF网 0.8 络收敛速度更快,训练时间更短;此外,从测试误差 的对比可以看出,FDC-RBF网络的测试误差也要小 00.20.40.60.81.0121.41.61.82.0 于其他算法。因此可以得出,FDC-RBF神经网络在 图2函数逼近效果图 逼近该非线性函数时,网络结构较其他算法更为精 Fig.2 Results of the function approximation problem 简,收敛速度更快,泛化能力更好
∂epm ∂cjm = − ∂yd pm ∂cjm = − ∂yd pm ∂θj ( xp ) ∂θj ( xp ) ∂cjm = − 2wjmθj ( xp ) xp − cj σ 2 j (32) 训练过程中,学习率参数 μ 随着误差的变化自 适应调整。如果后一时刻的误差小于前一时刻的误 差,则 μ 值减小,并保留当前训练后的各参数值;反 之,则 μ 值增大,各参数值恢复到调整前的值。 3 仿真实验 文中选用非线性函数逼近和非线性动态系统辨 识两个基准实验对 FDC-RBF 网络进行仿真验证, 并与其他算法进行了对比。 3.1 非线性函数 sinE 逼近 选取的典型非线性函数 sinE 为 y = 0.8 exp(−0.2x) sin(10x) (33) 式中 0 ⩽ x ⩽ 2 。非线性函数 sinE 经常被用来检验 RBF 神经网络的性能。 随机选取 200 个样本对神经网络进行训练, 200 个样本进行测试,训练的期望均方误差 (mean square error,MSE) 设为 0.01,神经元活性阈值 V 设 为 0.55。用改进的二阶算法训练后的神经网络测试 效果如图 2 所示,隐含层神经元数的变化如图 3 所 示,二阶算法学习性能曲线如图 4 所示。此外,为 了验证不同的学习算法对神经网络性能的影响,在 RBF 网络初始结构确定后,又用梯度下降法对该网 络进行了训练,学习性能曲线如图 5 所示。 由图 2 可以看出,训练后的 FDC-RBF 网络能 够较好地拟合 sinE 曲线。从图 4 和图 5 的对比可 以看出,梯度下降算法需要在第 45 步左右才能完全 收敛,而改进的二阶算法在第 13 步就已完全收敛。 由此可以看出,当用改进的二阶算法训练该网络 时,收敛速度大大提高了。 0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 x y 期望输出 实际输出 图 2 函数逼近效果图 Fig. 2 Results of the function approximation problem 0 20 40 60 80 100 120 140 160 180 200 2 3 4 5 6 7 8 9 10 ᵣ᱘ 䮼ᅮ⺊㏻ٯ 图 3 隐含层神经元变化曲线 Fig. 3 Structure construction process of the FDC-RBF network 0 5 10 15 0.2 0.4 0.6 0.8 1.0 1.2 1.4 䔙Џₑ 䃙㏯䄛ጚ 图 4 二阶算法学习性能曲线 Fig. 4 Performance curve of the second-order learning algorithm 0 10 20 30 40 50 60 70 80 90 100 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 迭代步数 训练误差 图 5 梯度下降学习性能曲线 Fig. 5 Performance curve of the gradient descent algorithm 同时,为了显示 FDC-RBF 网络的优良性,本文 将其与 DFNN[19] 、GAP-RBF[13] 、SORBF[14] 、ART-RBF[20] 进行了对比,如表 1 所示。结果显示,与 DFNN、 GAP-RBF、SORBF 相比,基于本文提出的算法设计 的网络隐含层神经元个数要少于以上网络,结构要 更为精简;同时,与其他 4 种网络相比,FDC-RBF 网 络收敛速度更快,训练时间更短;此外,从测试误差 的对比可以看出,FDC-RBF 网络的测试误差也要小 于其他算法。因此可以得出,FDC-RBF 神经网络在 逼近该非线性函数时,网络结构较其他算法更为精 简,收敛速度更快,泛化能力更好。 第 3 期 蒙西,等:基于快速密度聚类的 RBF 神经网络设计 ·335·