第36卷第12期 北京科技大学学报 Vol.36 No.12 2014年12月 Journal of University of Science and Technology Beijing Dec.2014 多分辨率小波极限学习机 全丽萍,李晓理2,王巧智》 1)北京科技大学自动化学院,北京1000832)上海交通大学机械系统与振动国家重点实验室,上海200240 3)北京科技大学机械工程学院,北京100083 ☒通信作者,E-mail:chuanziyiwei@163.com 摘要针对一类具有空间不均匀性的辨识和回归问题,提出了基于小波分析的极限学习机方法.从多分辨率分析的思想出 发,构造一簇紧支撑正交小波作为隐层激活函数,并利用改进的误差最小化极限学习机训练输出层权重,避免了新加入高分 辨率子网络后的重新训练.同时,由一维多分辨分析的张量积构造了二维多分辨小波极限学习机.进而通过脊波变换将小波 学习机扩展到高维空间,对脊波函数的伸缩、方向和位置参数进行优化计算.对具有奇异性的函数仿真结果证明,与标准极限 学习机相比,小波极限学习机由于其聚微性能在极短的训练时间内更好地逼近目标.一些实际基准回归问题上的测试验证了 脊波极限学习机在其中大部分问题上达到更高的训练和泛化精度. 关键词学习算法:极限学习机:小波分析:多分辨分析:正交 分类号TP183 Multiresolution wavelet extreme learning machine QUAN Li-ping”,LI Xiao-i.2,WANG Qiao--hi》 1)School of Automation and Electrical Engineering,University of Science and Technology Beijing,Beijing 100083,China 2)State Key Laboratory of Mechanical System and Vibration,Shanghai Jiao Tong University,Shanghai 200240,China 3)School of Mechanical and Engineering,University of Science and Technology Beijing,Beijing 100083,China Corresponding author,E-mail:chuanziyiwei@163.com ABSTRACT An extrme learning machine (ELM)algorithm based on wavelet transform was designed for a class of indentification and regression problem with inhomogeneity in a space.From the standpoint of multiresolution analysis,a set of compactly supported or- thogonal wavelets was constructed as the hidden layer activation function,and the output layer weight of the network was trained by an error minimized extreme learning machine.This method avoided retraining the output layer parameter as adding a subnetwork with high- er resolution.The wavelet ELM was then extended into a two-dimensional space using the tensor product of a scaling function.To hur- dle high-dimensionality issues,ridgelet transform based on ELM was obtained,whose scaling,direction,and position parameters were determined by optimization methods.Simulation results on functions with singularity confirm that the wavelet ELM can approch the tar- get better.When being tested on some real benchmark problems,the ridgelet ELM demonstrates better training and testing accuracy on most cases. KEY WORDS learning algorithms;extreme learning machine:wavelet analysis:multiresolution analysis:orthogonal 极限学习机近年来一直是神经网络领域非常活 领域使得逼近回归理论产生了极大的飞跃.极限学 跃的研究方向,具有学习速率高、能达到全局最优、 习机的隐层激励函数通常采用任意分段连续的非线 结构简单、泛化性能好等多重优点.将其引入预测 性函数,如Sigmoid、Sin和Hardlim一类支撑集为无 收稿日期:2014-0909 基金项目:新世纪优秀人才支持计划资助项目(NCET-11O578):中央高校基本科研业务费专项资金资助项目(FRF-TP-12OO5B):高等学校 博士学科点专项科研基金资助项目(20130006110008):机械系统与振动国家重点实验室开放课题(MSV-201409) DOI:10.13374/j.issn1001-053x.2014.12.019;http://journals.ustb.edu.cn
第 36 卷 第 12 期 2014 年 12 月 北京科技大学学报 Journal of University of Science and Technology Beijing Vol. 36 No. 12 Dec. 2014 多分辨率小波极限学习机 全丽萍1) ,李晓理1,2) ,王巧智3) 1) 北京科技大学自动化学院,北京 100083 2) 上海交通大学机械系统与振动国家重点实验室,上海 200240 3) 北京科技大学机械工程学院,北京 100083 通信作者,E-mail: chuanziyiwei@ 163. com 摘 要 针对一类具有空间不均匀性的辨识和回归问题,提出了基于小波分析的极限学习机方法. 从多分辨率分析的思想出 发,构造一簇紧支撑正交小波作为隐层激活函数,并利用改进的误差最小化极限学习机训练输出层权重,避免了新加入高分 辨率子网络后的重新训练. 同时,由一维多分辨分析的张量积构造了二维多分辨小波极限学习机. 进而通过脊波变换将小波 学习机扩展到高维空间,对脊波函数的伸缩、方向和位置参数进行优化计算. 对具有奇异性的函数仿真结果证明,与标准极限 学习机相比,小波极限学习机由于其聚微性能在极短的训练时间内更好地逼近目标. 一些实际基准回归问题上的测试验证了 脊波极限学习机在其中大部分问题上达到更高的训练和泛化精度. 关键词 学习算法; 极限学习机; 小波分析; 多分辨分析; 正交 分类号 TP 183 Multiresolution wavelet extreme learning machine QUAN Li-ping1) ,LI Xiao-li1,2) ,WANG Qiao-zhi3) 1) School of Automation and Electrical Engineering,University of Science and Technology Beijing,Beijing 100083,China 2) State Key Laboratory of Mechanical System and Vibration,Shanghai Jiao Tong University,Shanghai 200240,China 3) School of Mechanical and Engineering,University of Science and Technology Beijing,Beijing 100083,China Corresponding author,E-mail: chuanziyiwei@ 163. com ABSTRACT An extrme learning machine ( ELM) algorithm based on wavelet transform was designed for a class of indentification and regression problem with inhomogeneity in a space. From the standpoint of multiresolution analysis,a set of compactly supported orthogonal wavelets was constructed as the hidden layer activation function,and the output layer weight of the network was trained by an error minimized extreme learning machine. This method avoided retraining the output layer parameter as adding a subnetwork with higher resolution. The wavelet ELM was then extended into a two-dimensional space using the tensor product of a scaling function. To hurdle high-dimensionality issues,ridgelet transform based on ELM was obtained,whose scaling,direction,and position parameters were determined by optimization methods. Simulation results on functions with singularity confirm that the wavelet ELM can approch the target better. When being tested on some real benchmark problems,the ridgelet ELM demonstrates better training and testing accuracy on most cases. KEY WORDS learning algorithms; extreme learning machine; wavelet analysis; multiresolution analysis; orthogonal 收稿日期: 2014--09--09 基金项目: 新世纪优秀人才支持计划资助项目( NCET--11--0578) ; 中央高校基本科研业务费专项资金资助项目( FRF--TP--12--005B) ; 高等学校 博士学科点专项科研基金资助项目( 20130006110008) ; 机械系统与振动国家重点实验室开放课题( MSV--2014--09) DOI: 10. 13374 /j. issn1001--053x. 2014. 12. 019; http: / /journals. ustb. edu. cn 极限学习机近年来一直是神经网络领域非常活 跃的研究方向,具有学习速率高、能达到全局最优、 结构简单、泛化性能好等多重优点. 将其引入预测 领域使得逼近回归理论产生了极大的飞跃. 极限学 习机的隐层激励函数通常采用任意分段连续的非线 性函数,如 Sigmoid、Sin 和 Hardlim 一类支撑集为无
第12期 全丽萍等:多分辨率小波极限学习机 ·1713· 限的函数,但绝大多数实际问题中,分析的数据只集 出L2(R)上的一个正交分解 中在一个区间或者紧致有界空间上.对于工程上一 L2(R)=⊕Wm (3) 大类在参数集上存在不均匀性的辨识问题,包括具 这里W。是{22业(21-n)1}:二延伸生成的子空 有复杂分段特性数据集的机器学习和数据挖掘(如 间.小波函数中(x)通常伴随一个尺度函数(父函 电力工程造价预测和风功率预测),具有空间不平 数)p(x)生成,设p(x)∈L2(R),构造L(R)的闭 稳性的系统建模(如参数时变的机电运动系统和非 子空间序列V,=cos2(<9,k(x):k∈Z>,其中 线性电子器件建模),极限学习机并不能很好的处 9(x)=2p(2x-),{V}2可生成L(R)上的 理,由此本文提出了小波极限学习机的策略. 一个多分辨分析,是一列嵌套的闭子空间序列 小波网络作为小波分析和神经网络有机结合的 …V-2CV-1 CVCVICV2…. 产物,将小波基函数植入隐层神经元,继承了小波的 由于VCV1,即这些空间V,不是彼此正交的,由 时频局部特性和聚焦特性,能有效辨识信号的奇异 两尺度方程定义小波函数山(x),{中.}kez张成的线 性,已经在故障诊断口、模式分类诸多领域获得成 性空间W即是V在V1中的正交补空间,表示高 功应用.本文将极限学习机一次学习的思想引入小 分辨率空间向低分辨率空间分解时丢失的细节 波网络,通过求Moore-Penrose伪逆运算得到输出 分量 参数,有效克服了传统反向传播小波网络逐层迭代 Vt1=V⊕W,V⊥W (4) 学习存在的收敛速度慢、易陷入局部极值、学习步长 以上分析给出了f(t)∈L(R)的分解方法: 难以确定等问题.运用极限学习机训练小波网络的 方法目前有极少数学者投入研究,文献2]考虑输 f0=∑ppa0+五w园. m. 入数据区间来决定小波函数的伸缩和平移参数,但 (5) 不考虑正交性,没有充分发挥小波多尺度分析的优 当最粗尺度M够大时,式(5)右端第二项表示的小 越性.文献B]用差分进化算法优化小波网络结构, 波细节分量可以忽略 但其紧致的结构是建立在大量的训练时间上.本文 1.2一维多分辨小波极限学习机结构和算法 考虑从Daubechies构造的紧支撑正交小波及Mallat 由式(5),可得f(t)的逼近式 多分辨率分析的思想出发,根据目标数据的学习精 f0=∑,pup()=王 CMp(2"x-) 度,从粗尺度到细尺度上进行学习,自适应地并入分 (6) 辨率更高的子网络,从而使得网络隐层节点数的确 定有了理论依据.本文将这种网络结构和方法称之 式(6)实质上是通过对单个小波函数P(x)的 为多分辨率小波极限学习机(multiresolution wavelet 伸缩和平移形成L2(R)上的框架,CM.4为基于此框 extreme learning machine,MW-ELM),并进一步将此 架的相关系数,其物理上的意义在于把目标信号分 方法扩展到二维和高维输入空间. 解为一组小波函数的加权,这组小波函数因为支撑 集为不同区间因而可以表述目标函数不同区间上的 1理论概述 不同规律.运用式(6)构建神经网络模型,通过一个 1.1一维多分辨分析 单隐层前馈神经网络(SLFN)实现逼近.令输入层 Hf(t)∈L2(R)可以分解为一簇小波基函数上 权值为2“,偏置为k,遍历所有整数,隐层激活函数 的级数表示: 为p(x),实际上目标函数支撑集有限,因此只需要 有限个支撑小波,若小波基函数紧支撑集为D, S],目标函数紧支撑集为O,S],那么所需的隐层 (1) 节点数为2"S,/S。向上取整,偏置遍历的整数集为 其中山(t)为基小波,对山(t)做伸缩平移变换得到 D,1,…,(2S,/S。-1)]以覆盖目标输入区间.令 小波基函数系业b(t)=Ial-1山((t-b)/a),a和b K=2"S,/S。-1,样本输入x通过小波函数激活后的 分别为伸缩和平移因子.WT(a,b)=f,业。.b)为小 输出{p(2"x-k),k=0,1,…,K}即为SLFN隐层输 波变换系数.将伸缩和平移因子二进制化,其二进 出,在理想的学习精度下,小波系数CM,可通过训练 伸缩与平移系 网络的输出层权值得到 (t)=2 (2t-k)lj,kEZ) (2) 本文中,输出层权值训练算法采用无论是学习 构成L2(R)上的标准正交基.于是,小波基函数导 速度还是泛化能力上具有优良性能的极限学习机
第 12 期 全丽萍等: 多分辨率小波极限学习机 限的函数,但绝大多数实际问题中,分析的数据只集 中在一个区间或者紧致有界空间上. 对于工程上一 大类在参数集上存在不均匀性的辨识问题,包括具 有复杂分段特性数据集的机器学习和数据挖掘( 如 电力工程造价预测和风功率预测) ,具有空间不平 稳性的系统建模( 如参数时变的机电运动系统和非 线性电子器件建模) ,极限学习机并不能很好的处 理,由此本文提出了小波极限学习机的策略. 小波网络作为小波分析和神经网络有机结合的 产物,将小波基函数植入隐层神经元,继承了小波的 时频局部特性和聚焦特性,能有效辨识信号的奇异 性,已经在故障诊断[1]、模式分类诸多领域获得成 功应用. 本文将极限学习机一次学习的思想引入小 波网络,通过求 Moore--Penrose 伪逆运算得到输出 参数,有效克服了传统反向传播小波网络逐层迭代 学习存在的收敛速度慢、易陷入局部极值、学习步长 难以确定等问题. 运用极限学习机训练小波网络的 方法目前有极少数学者投入研究,文献[2]考虑输 入数据区间来决定小波函数的伸缩和平移参数,但 不考虑正交性,没有充分发挥小波多尺度分析的优 越性. 文献[3]用差分进化算法优化小波网络结构, 但其紧致的结构是建立在大量的训练时间上. 本文 考虑从 Daubechies 构造的紧支撑正交小波及 Mallat 多分辨率分析的思想出发,根据目标数据的学习精 度,从粗尺度到细尺度上进行学习,自适应地并入分 辨率更高的子网络,从而使得网络隐层节点数的确 定有了理论依据. 本文将这种网络结构和方法称之 为多分辨率小波极限学习机( multiresolution wavelet extreme learning machine,MW-ELM) ,并进一步将此 方法扩展到二维和高维输入空间. 1 理论概述 1. 1 一维多分辨分析 f( t) ∈L2 ( R) 可以分解为一簇小波基函数上 的级数表示: f( t) = C - 1 ψ / | a | 2 ∫ ∞ -∞ ∫ ∞ -∞ ψa,b ( t) WTf ( a,b) dbda. ( 1) 其中 ψ( t) 为基小波,对 ψ( t) 做伸缩平移变换得到 小波基函数系 ψa,b ( t) = | a | - 1 /2 ψ( ( t - b) / a) ,a 和 b 分别为伸缩和平移因子. WTf ( a,b) =〈f,ψa,b〉为小 波变换系数. 将伸缩和平移因子二进制化,其二进 伸缩与平移系 { ψj,k ( t) = 2j/2 ψ( 2j t - k) | j,k∈Z} ( 2) 构成 L2 ( R) 上的标准正交基. 于是,小波基函数导 出 L2 ( R) 上的一个正交分解 L2 ( R) = m Wm . ( 3) 这里 Wm 是{ 2m/2 ψ( 2m t - n) |} n = + ∞ n = - ∞ 延伸生成的子空 间. 小波函数 ψ( x) 通常伴随一个尺度函数( 父函 数) φ( x) 生成,设 φ( x) ∈L2 ( R) ,构造 L2 ( R) 的闭 子空间序列 Vj = closL2( R) < φj,k ( x) ; k∈Z > ,其中 φj,k ( x) = 2j/2 φ( 2j x - k) ,{ Vj } j∈Z可生成 L2 ( R) 上的 一个多分辨分析,是一列嵌套的闭子空间序列. …V - 2V - 1V0V1V2…. 由于 VjVj + 1,即这些空间 Vj 不是彼此正交的,由 两尺度方程定义小波函数 ψ( x) ,{ ψj,k } k∈Z张成的线 性空间 Wj 即是 Vj 在 Vj + 1中的正交补空间,表示高 分辨率空间向低分辨率空间分解时丢失的细节 分量. Vj + 1 = VjWj ,Vj⊥Wj . ( 4) 以上分析给出了 f( t) ∈L2 ( R) 的分解方法: f( t) = ∑k 〈f,φM,k〉φM,k ( t) + m > M ∑,k 〈f,ψm,k〉ψm,k ( t) . ( 5) 当最粗尺度 M 够大时,式( 5) 右端第二项表示的小 波细节分量可以忽略. 1. 2 一维多分辨小波极限学习机结构和算法 由式( 5) ,可得 f( t) 的逼近式 f( t) ≈ ∑k 〈f,φM,k〉φM,k ( t) = ∑k CM,kφ( 2M x - k) . ( 6) 式( 6) 实质上是通过对单个小波函数 φ( x) 的 伸缩和平移形成 L2 ( R) 上的框架,CM,k为基于此框 架的相关系数,其物理上的意义在于把目标信号分 解为一组小波函数的加权,这组小波函数因为支撑 集为不同区间因而可以表述目标函数不同区间上的 不同规律. 运用式( 6) 构建神经网络模型,通过一个 单隐层前馈神经网络( SLFN) 实现逼近. 令输入层 权值为 2M,偏置为 k,遍历所有整数,隐层激活函数 为 φ( x) ,实际上目标函数支撑集有限,因此只需要 有限个 支 撑 小 波,若小波基函数紧支撑集为[0, Sφ],目标函数紧支撑集为[0,Sf],那么所需的隐层 节点数为 2M Sf / Sφ向上取整,偏置遍历的整数集为 [0,1,…,( 2M Sf / Sφ - 1) ]以覆盖目标输入区间. 令 K = 2M Sf / Sφ - 1,样本输入 x 通过小波函数激活后的 输出{ φ( 2M x - k) ,k = 0,1,…,K} 即为 SLFN 隐层输 出,在理想的学习精度下,小波系数 CM,k可通过训练 网络的输出层权值得到. 本文中,输出层权值训练算法采用无论是学习 速度还是泛化能力上具有优良性能的极限学习机 · 3171 ·
·1714 北京科技大学学报 第36卷 (extreme learning machine,ELM)),这种学习算法 B.-HT-[0T 基于Moore-Penrose伪逆解析地求出网络输出权 ID 值,样本集N={(x,t)1x,l∈R,i=1,2,…,N}通 基于多分辨分析理论的小波基极限学习机学习 过小波函数激活后的隐层输出矩阵为 步骤可以表述为: pu.0(xg)…pm(xo) (a)初始分辨率M=jo,开始建立子网络,输入 H= (7) 层权值为2心,隐层偏置为0,1,…,K。,以小波基函数 Pu.o(xw)… PM.k(xN) 作为激活函数得到隐层输出阵H。,计算隐层输出权 ELM算法的输出层权值为最小二乘意义上的 重B。=HT和网络误差E(H。)=HB。-T,如果 最小范数解B=HT,T=,2,…,tw]T为目标样 E(H。)小于精度要求ε,停止学习,否则跳至步骤 本输出向量.为了建立一个紧致结构的学习模型, (b). 网络从粗分辨率到细分辨率上逐级学习,当并入更 (b)令M=M+1,并入子网络,令子网络输入层 高分辨率的子网络时,对整个新网络进行重新训练 权值为2",隐层偏置为0,1,,K,得到并入的子网 将浪费大量训练时间,改进后的误差最小化极限学 络隐层输出δH。,根据式(11)和式(12)更新输出层 习机(error minimized ELM,EM-ELM)通过增量 权值B1 (c)计算小波网络对样本的输出估计y=HB, 更新的方法避免了这一问题,设初始隐层输出矩阵 并删除B:中足够小的权值,最后计算误差值 为H。,H。伪逆可表示为 E(H)=HB1-T,若E(H)>E,转(b),否则结束 H0=(HH。)-H= 学习 (8) 设达到精度要求后,并入的子网络最高分辨率 为jm·基于多分辨分析理论的小波基极限学习机结 并入的子网络对应隐层输出矩阵δH。,相应的整个 构图如图1所示. 网络隐层输出矩阵更新为H,=H。,8H。].令 1.3二维多分辨分析 由一维多分辨分析的张量积可以构造二维多分 (9) 辨分析.令(x,y)=V,(x)⑧V(y) 若记 那么有 p(x,y)=中(x)中(y) 团-日-城调 (10) 中(x)是一维空间的小波尺度函数,则{9.k,mI9km (x,y)=2p(2x-k,2y-m)=2b(2'x-k)中(2'y- 根据一个2×2块状矩阵的求逆公式,可得到 m);k,m∈Z}构成上的一个正交基,并且有下列 P,=(HgHo)-1+ 条件成立: (HH)-H8H。×R-8HH。(HH)-1, VicV,VjeZ, P2=-(HH)-H68HR-1, Q听=01,2y=1(R), P2=-R-8HHo (HOHo)-, f(x.y)EVjef(2x,2y)EV. P2=R-1. 从而{}jez=clos<P.k,m(x,y);k,m∈Z>是 这里 (x,y)=V(x)⑧y(y)生成的L2(R)上的多分辨 R=8Hg8H。-8HH。(HgH。)-Hg8H。= 分析. 8HgδH。-8HHHδH, 1.4二维多分辨小波极限学习机 所以 类似的,对L2(R)上的二维函数有以下逼近 D=R-lδH。-R-18HgHH。= 方程: [6H(-HHg)8H]-18Hg(I-HHg).(11) f八x,y)≈∑pu,b〉pu.(x,y)= 类似的,有以下推导 U=H。-H88HD (12) A92-,2-. (13) 根据式(11)和(12)可得到误差最小化极限学习机 根据此方程建立的基于二维多分辨分析的小波 B,的快速增量算法,输出权值更新为 极限学习机网络结构图如图2所示.学习步骤与一
北 京 科 技 大 学 学 报 第 36 卷 ( extreme learning machine,ELM) [4],这种学习算法 基于 Moore--Penrose 伪逆解析地求出网络输出权 值,样本集 = { ( xi,ti ) | xi,ti∈R,i = 1,2,…,N} 通 过小波函数激活后的隐层输出矩阵为 H = φM,0 ( x0 ) … φM,k ( x0 ) φM,0 ( xN) … φM,k ( xN ) . ( 7) ELM 算法的输出层权值为最小二乘意义上的 最小范数解 β = H T,T =[t1,t2,…,tN]T 为目标样 本输出向量. 为了建立一个紧致结构的学习模型, 网络从粗分辨率到细分辨率上逐级学习,当并入更 高分辨率的子网络时,对整个新网络进行重新训练 将浪费大量训练时间,改进后的误差最小化极限学 习机( error minimized ELM,EM--ELM) [5]通过增量 更新的方法避免了这一问题,设初始隐层输出矩阵 为 H0,H0 伪逆可表示为 H 0 = ( HT 0H0 ) - 1HT 0 = HT 0 δH [ T ] 0 [H0 δH0 ] - 1 HT 0 δH [ T ] 0 . ( 8) 并入的子网络对应隐层输出矩阵 δH0,相应的整个 网络隐层输出矩阵更新为 H1 =[H0,δH0]. 令 P = HT 0 δH [ T ] 0 [H0 δH0 ] - 1 = P11 P12 P21 P [ ] 22 ,( 9) 那么有 H 1 = [ ] U D = P11HT 0 + P12 δHT 0 P21HT 0 + P22 δH [ T ] 0 , ( 10) 根据一个 2 × 2 块状矩阵的求逆公式,可得到 P11 = ( HT 0H0 ) - 1 + ( HT 0H0 ) - 1HT 0 δH0 × R - 1 δHT 0H0 ( HT 0H0 ) - 1, P12 = - ( HT 0H0 ) - 1HT 0 δH0R - 1, P21 = - R - 1 δHT 0H0 ( HT 0H0 ) - 1, P22 = R - 1 . 这里 R = δHT 0 δH0 - δHT 0H0 ( HT 0H0 ) - 1HT 0 δHT 0 = δHT 0 δH0 - δHT 0H0H 0 δHT 0, 所以 D = R - 1 δHT 0 - R - 1 δHT 0H0H 0 = [δHT 0 ( I - H0H 0 ) δH0]- 1 δHT 0 ( I - H0H 0 ) . ( 11) 类似的,有以下推导 U = H 0 - H 0 δHT 0 D ( 12) 根据式( 11) 和( 12) 可得到误差最小化极限学习机 β1 的快速增量算法,输出权值更新为 β1 = H 1T = [ ] U D T. 基于多分辨分析理论的小波基极限学习机学习 步骤可以表述为: ( a) 初始分辨率 M = j0,开始建立子网络,输入 层权值为 2j 0,隐层偏置为 0,1,…,K0,以小波基函数 作为激活函数得到隐层输出阵 H0,计算隐层输出权 重 β0 = H 0T 和网络误差 E( H0 ) = H0β0 - T,如果 E( H0 ) 小于精度要求 ε,停止学习,否则跳至步骤 ( b) . ( b) 令 M = M + 1,并入子网络,令子网络输入层 权值为 2M,隐层偏置为 0,1,…,K,得到并入的子网 络隐层输出 δH0,根据式( 11) 和式( 12) 更新输出层 权值 β1 . ( c) 计算小波网络对样本的输出估计 y^ = H1β1 并删 除 β1 中足够小的权值,最 后 计 算 误 差 值 E( H1 ) = H1β1 - T,若 E( H1 ) > ε,转( b) ,否则结束 学习. 设达到精度要求后,并入的子网络最高分辨率 为 jm . 基于多分辨分析理论的小波基极限学习机结 构图如图 1 所示. 1. 3 二维多分辨分析 由一维多分辨分析的张量积可以构造二维多分 辨分析. 令 V2 j ( x,y) = Vj ( x) Vj ( y) 若记 φ( x,y) = ( x) ( y) ( x) 是一维空间的小波尺度函数,则{ φj,k,m | φj,k,m ( x,y) = 2j φ( 2j x - k,2j y - m) = 2j ( 2j x - k) ( 2j y - m) ; k,m∈Z} 构成 V2 j 上的一个正交基,并且有下列 条件成立: V2 j V2 j + 1,j∈Z, ∩ j∈Z V2 j = { 0} ,∩ j∈Z V2 j = L2 ( R2 ) , f( x,y) ∈V2 j f( 2x,2y) ∈V2 j + 1 . 从而{ V2 j } j∈Z = closL2( R2) < φj,k,m ( x,y) ; k,m∈Z > 是 V2 j ( x,y) = Vj ( x) Vj ( y) 生成的 L2 ( R2 ) 上的多分辨 分析. 1. 4 二维多分辨小波极限学习机 类似的,对 L2 ( R2 ) 上的二维函数有以下逼近 方程: f( x,y) ≈ ∑k1,k2 〈f,φM,k1,k2 〉φM,k1,k2 ( x,y) = ∑k1,k2 CM,k1,k2φ( 2M x - k1,2M x - k2 ) . ( 13) 根据此方程建立的基于二维多分辨分析的小波 极限学习机网络结构图如图 2 所示. 学习步骤与一 · 4171 ·
第12期 全丽萍等:多分辨率小波极限学习机 ·1715· 子网路小波框架 网络 1 子网络,小波框架 子网路 图1 一维多分辨分析小波极限学习机 Fig.I One-dimensional multiresolution wavelet extreme leamning machine 维小波小波学习机类似不再赘述 u,在d维时方向向量可以设为u1=cos6,u2= 9 noly) sin01cos02,…,u4=sin01sin02"sin04-l(0≤01, Py …,04-2≤T,0≤04-1<2m),那么u为单位球向量 子网络 (u∈S-1,‖u‖=1),若参数集合91,02,,04-1足 k 够精细地覆盖0,π]或0,2π]上的等分布点,那么 u能遍历超平面中的各向单位法向量,山((·x- P nolx.y) - b)/a)将成为超平面上的离散脊波框架,同时脊波 pny) C 具有小波局部聚焦分析的特性,这样的脊波网络能 子网络 巴h 有效处理超平面状的奇异性) 1.6高维脊波极限学习机 ponolt.y) C 9a, 对任何y=f(x)∈L∩L2(R)均可展开为脊函 :子网络 数叠加的形式: Pfarnt) ,c((4x-b)/a), 图2 二维多分辨分析小波极限学习机 Fig.2 Two-dimensional multiresolution wavelet extreme leamning ma- x,4eR;l4‖=1 (14) chine 运用逼近方程(14)建立神经网络网,9,可以用 1.5脊波变换 第j广个隐层节点的输出层权值表征,a4,为神经网 对于输入为多维的情况,如果继续利用一维小 络第j个节点输入层权值,ab为第j个节点偏置. 波基的张量积空间,将引起“维数灾”.近期发展起 脊波网络结构类似于低维小被学习机 来的后小波分析方法而,对高维空间中超平面状奇 如果对脊波参数空间离散化,则随着尺度越细, 异性的信号有着良好的检测性能,脊波变换就是其 离散化集T4={(a,0,b),a=2,0:=22Ji, 中一种对于具有高维奇异性的多变量函数具有良好 b.=2π2)将变得非常庞大,耗费神经网络许多 的逼近性能的方法 节点.这里考虑用收敛速度快、具有全局寻优能力 称满足容许性条件K。=「(1山()八1) 的粒子群算法(particle swarm optimization,PSO)对 参数a、u和b进行优化选择,同时脊波系数{c,j= <∞的小波基函数:R→R产生的脊函数业,(x)= 1,2,…,L}即神经网络输出层参数B由极限学习机 a1业(u·x-b)/a)为脊波,参数空间T={y= 训练得到,本文将这种学习策略称RL-ELM(ridge-- (a,u,b),a,b∈R,a>0,u∈Sd-1,‖u‖=1},在原 let extreme learning machine),PSO算法用于神经网 来伸缩和平移参数基础上多添加了一维方向参数 络的优化已经有许多研究成果回,其首先用一个粒
第 12 期 全丽萍等: 多分辨率小波极限学习机 图 1 一维多分辨分析小波极限学习机 Fig. 1 One-dimensional multiresolution wavelet extreme learning machine 维小波小波学习机类似不再赘述. 图 2 二维多分辨分析小波极限学习机 Fig. 2 Two-dimensional multiresolution wavelet extreme learning machine 1. 5 脊波变换 对于输入为多维的情况,如果继续利用一维小 波基的张量积空间,将引起“维数灾”. 近期发展起 来的后小波分析方法[6],对高维空间中超平面状奇 异性的信号有着良好的检测性能,脊波变换就是其 中一种对于具有高维奇异性的多变量函数具有良好 的逼近性能的方法. 称满足容许性条件 Kψ = ∫( | ^ ψ( ξ) | 2 / | ξ | d ) dξ < ∞ 的小波基函数 ψ: R→R 产生的脊函数 ψγ ( x) = a - 1 /2 ψ( ( u·x - b) / a) 为脊波,参数空间 Γ = { γ = ( a,u,b) ,a,b∈R,a > 0,u∈Sd - 1,‖u‖ = 1} ,在原 来伸缩和平移参数基础上多添加了一维方向参数 u,在 d 维时方向向量可以设为 u1 = cos θ1,u2 = sin θ1 cos θ2,…,ud = sin θ1 sin θ2 …sin θd - 1 ( 0≤θ1, …,θd - 2≤π,0≤θd - 1 < 2π) ,那么 u 为单位球向量 ( u∈Sd - 1,‖u‖ = 1) ,若参数集合 θ1,θ2,…,θd - 1足 够精细地覆盖[0,π]或[0,2π]上的等分布点,那么 u 能遍历超平面中的各向单位法向量,ψ( ( u·x - b) / a) 将成为超平面上的离散脊波框架,同时脊波 具有小波局部聚焦分析的特性,这样的脊波网络能 有效处理超平面状的奇异性[7]. 1. 6 高维脊波极限学习机 对任何 y^ = f( x) ∈L1 ∩L2 ( Rd ) 均可展开为脊函 数叠加的形式: y^ = ∑ L j = 1 cjψ( ( u·j x - bj ) / aj ) , x,uj∈Rd ; ‖uj‖ = 1 ( 14) 运用逼近方程( 14) 建立神经网络[8],cj 可以用 第 j 个隐层节点的输出层权值表征,a - 1 j uj 为神经网 络第 j 个节点输入层权值,a - 1 j bj 为第 j 个节点偏置. 脊波网络结构类似于低维小波学习机. 如果对脊波参数空间离散化,则随着尺度越细, 离散化集 Γd = { ( aj ,θ,b) ,aj = 2 - j ,θj,i = 2π2 - j i, bj,k = 2πk2 - j } 将变得非常庞大,耗费神经网络许多 节点. 这里考虑用收敛速度快、具有全局寻优能力 的粒子群算法( particle swarm optimization,PSO) 对 参数 a、u 和 b 进行优化选择,同时脊波系数{ cj | j = 1,2,…,L} 即神经网络输出层参数 β 由极限学习机 训练得到,本文将这种学习策略称 RL--ELM ( ridgelet extreme learning machine) ,PSO 算法用于神经网 络的优化已经有许多研究成果[9],其首先用一个粒 · 5171 ·
·1716· 北京科技大学学报 第36卷 子位置向量囊括d个待优化参数,随机产生一个规 标上的性能,考虑一个一维和一个二维分段函数, 模为n的粒子群{X=W1,X2,…,Xa],i=1,2, 形如: …,n},计算每个粒子的适应度值,第i个粒子“飞 fi:y= 行”历史中的过去最优位置(即该位置对应解最优) [0.5cos(5π(x+T/2))+xsin(amx)+cos(mx) 为P,=(P1,P2,…,Pa),其中第g个粒子的过去最 0≤x<2/3, 优位置P为所有P:中的最优,对应适应度值为ft 5(1-x+cos(amx)).exp (-5x2/2) (P);第i个粒子的位置变化率(速度)为向量V:= 23≤x<1: {Va,V2,…,Va}.每个粒子的位置按如下公式进行 f:z= 变化(“飞行”): n(-y+3/2)·(x2+y2)·(2sin(30x)+cos(25y)) V,(t+1)=V:(t)+c1×rand()× 0≤Y<12, P:(t)-X,()]+c2×rand()×P(t)-x,(t)], In(y +1/2).(ysin(5mx)+xcos(8my)) X(t+1)=X(t)+V,(t+1),1≤i≤n. 1/2≤y<1. 其中c1和c2是学习因子.最终获得的全局最优粒 以二维小波极限学习机的构造为例,训练一个 子就是目标参数a、u和b组成的向量.为保证逼近 初始子网络,计算逼近误差大于设定阈值时,自适应 精度和泛化性能,计算粒子的适应度值时,区别于一 地并入子网络决定隐层节点数,小波激活函数的选 般方法中采用目标输出和网络输出均方误差的做 取尚无理论上的指导,Morlet小波多用于分类、图像 法,本文基于L2正则化理论将L2正则子添加到惩 识别和特征提取,高斯函数多用于函数估计,本 罚项中,以达到更好权值矩阵稀疏性0,给定一组训练 文在Gauss小波函数、Morlet函数、三阶B样条函数 数据N={(x,t)1i=1,2,,n},设隐层节点数为L, 中进行实验并选取试算结果最好的高斯小波基函数 正则化参数为入,则第i个粒子的适应度计算式: 作为隐层激活函数,解析表达式为 fit(i)= y=-x·exp(-x2/2) ((n-)P)+AB) 小波函数与目标函数支撑集都为0,1],令初 始分辨率j。=1,子网络输入层权值为2"=2,则初始 (15) 子网络包含四个节点,偏置为[《0,0),(0,1),(1, 基于PSO算法优化脊波基函数参数的RL一 0),(1,1)],得到初始网络输出层权值B。,逐次增 ELM学习步骤简述为: 加分辨率更高的子网络,根据式(11)和式(12)可得 (a)令迭代次数iter=1,设定种群规模N,随机 到更新后的输出权值B1,直至达到所需精度.极限 产生一组粒子群{X=(a1,a2,…,aL,01,02,…, 学习机以五个为增量(至多500个)增加节点数,通 81a-),…,0a,02…,0a-0,b1,b2,…,b2),i=1, 过交叉验证法决定节点数后与小波极限学习机进行 2,…,N}和速度向量V. 比较. (b)计算每个粒子通过脊波函数激活后的第j 从一维函数的辨识结果图3中可以看出,频率 个隐层节点输出h=中【4x-b)/a]j=1,2,…,L, 参数较小时,两种学习机基本上都能较好拟合目标, 其中,4h=cos01,2=sin0cos02,,uH=sin6h1· 但在奇异点(函数分段)处,因为其固有的“Gibbs” sin02sin0a-D,相应输出层矩阵H=,h2,…,h]. 效应,极限学习机不能正确辨识,而小波极限学习机 (c)极限学习机算法训练输出层权值B=HT, 因为其良好的局部聚焦和多分析的特性,对一类具 计算输出估计y=邱. 有空间不均匀性的问题展现了极大的优势.随着频 (d)按照式(15)计算每个粒子适应度值,如果 率增大,波形变得复杂,ELM在奇异点周围区域出 ft(P)<e或iter=iterm,停止学习,删除B。中足 现越来越大拟合误差,这种问题并不出现在小波极 够小的权值以及相应节点.否则跳至(). 限学习机中 (e)根据适应度值更新位置值X和速度值V, 图4中,从左至右分别为逼近目标、小波极限学 iter=iter+1,跳至步骤(b) 习机拟合效果和极限学习机对?拟合效果.0≤y< 1/2和1/2≤y<1上特性不一致,ELM的辨识出现 2仿真结果和分析 极大失真,WM一ELM由于其聚微的特性在逼近性能 2.1低维多分辨正交小波极限学习机 上的优势显现出来.实际工程问题中,由于一些复 为验证小波极限学习机在具有空间不均匀性目 杂系统本身所固有的动态变化,造成数据表现出不
北 京 科 技 大 学 学 报 第 36 卷 子位置向量囊括 d 个待优化参数,随机产生一个规 模为 n 的粒子群{ Xi =[Xi1,Xi2,…,Xid],i = 1,2, …,n} ,计算每个粒子的适应度值,第 i 个粒子 “飞 行”历史中的过去最优位置( 即该位置对应解最优) 为 Pi = ( Pi1,Pi2,…,Pid ) ,其中第 g 个粒子的过去最 优位置 Pg为所有 Pi中的最优,对应适应度值为 fit ( Pg ) ; 第 i 个粒子的位置变化率( 速度) 为向量 Vi = { Vi1,Vi2,…,Vid } . 每个粒子的位置按如下公式进行 变化( “飞行”) : Vi ( t + 1) = Vi ( t) + c1 × rand( ) × [Pi ( t) - Xi ( t) ]+ c2 × rand( ) ×[Pg ( t) - Xi ( t) ], Xi ( t + 1) = Xi ( t) + Vi ( t + 1) ,1≤i≤n. 其中 c1 和 c2 是学习因子. 最终获得的全局最优粒 子就是目标参数 a、u 和 b 组成的向量. 为保证逼近 精度和泛化性能,计算粒子的适应度值时,区别于一 般方法中采用目标输出和网络输出均方误差的做 法,本文基于 L1 /2正则化理论将 L1 /2正则子添加到惩 罚项中,以达到更好权值矩阵稀疏性[10],给定一组训练 数据 = { ( xi,ti ) | i = 1,2,…,n} ,设隐层节点数为 L, 正则化参数为 λ,则第 i 个粒子的适应度计算式: fit( i) = ( ( 1 sqrt 1/ n ∑ n i =1 ( y^ i - ti ) ) 2 + λ ∑ L i =1 |βi | 1/ ) 2 . ( 15) 基于 PSO 算法优化脊波基函数参数的 RL-- ELM 学习步骤简述为: ( a) 令迭代次数 iter = 1,设定种群规模 N,随机 产生一组粒子群{ Xi = ( a1,a2,…,aL,θ11,θ12,…, θ1( d - 1) ,…,θL1,θL2,…,θL( d - 1) ,b1,b2,…,bL ) ,i = 1, 2,…,N} 和速度向量 Vi . ( b) 计算每个粒子通过脊波函数激活后的第 j 个隐层节点输出 hj = ψ[( u·j x - bj) / aj],j = 1,2,…,L, 其中,uj1 = cos θj1,uj2 = sin θj1 cos θj2,…,ujd = sin θj1 · sin θj2…sin θj( d -1) ,相应输出层矩阵 H =[h1,h2,…,hL ]. ( c) 极限学习机算法训练输出层权值 β = H T, 计算输出估计 y^ = Hβ. ( d) 按照式( 15) 计算每个粒子适应度值,如果 fit( Pg ) < ε 或 iter = itermax,停止学习,删除 βg 中足 够小的权值以及相应节点. 否则跳至( e) . ( e) 根据适应度值更新位置值 X 和速度值 V, iter = iter + 1,跳至步骤( b) . 2 仿真结果和分析 2. 1 低维多分辨正交小波极限学习机 为验证小波极限学习机在具有空间不均匀性目 标上的性能,考虑一个一维和一个二维分段函数, 形如: f1 : y = 0. 5cos( 5π( x +π/2) ) + x·sin( aπx) + cos( πx) 0≤x < 2/3, 5( 1 - x + cos( aπx) )·exp ( - 5x 2 /2) 2/3≤x < 1 ; f2 : z = ln( - y + 3/2)·( x 2 + y 2 )·( 2sin( 30x) + cos( 25y) ) 0≤y < 1/2, ln( y + 1/2)·( y·sin( 5πx) + x·cos( 8πy) ) 1/2≤y < 1 . 以二维小波极限学习机的构造为例,训练一个 初始子网络,计算逼近误差大于设定阈值时,自适应 地并入子网络决定隐层节点数,小波激活函数的选 取尚无理论上的指导,Morlet 小波多用于分类、图像 识别和特征提取,高斯函数多用于函数估计[11],本 文在 Gauss 小波函数、Morlet 函数、三阶 B 样条函数 中进行实验并选取试算结果最好的高斯小波基函数 作为隐层激活函数,解析表达式为 y = - x·exp ( - x2 /2) . 小波函数与目标函数支撑集都为[0,1],令初 始分辨率 j0 = 1,子网络输入层权值为 2j 0 = 2,则初始 子网络包含四个节点,偏置为[( 0,0) ,( 0,1) ,( 1, 0) ,( 1,1) ],得到初始网络输出层权值 β0,逐次增 加分辨率更高的子网络,根据式( 11) 和式( 12) 可得 到更新后的输出权值 β1,直至达到所需精度. 极限 学习机以五个为增量( 至多 500 个) 增加节点数,通 过交叉验证法决定节点数后与小波极限学习机进行 比较. 从一维函数的辨识结果图 3 中可以看出,频率 参数较小时,两种学习机基本上都能较好拟合目标, 但在奇异点( 函数分段) 处,因为其固有的“Gibbs” 效应,极限学习机不能正确辨识,而小波极限学习机 因为其良好的局部聚焦和多分析的特性,对一类具 有空间不均匀性的问题展现了极大的优势. 随着频 率增大,波形变得复杂,ELM 在奇异点周围区域出 现越来越大拟合误差,这种问题并不出现在小波极 限学习机中. 图 4 中,从左至右分别为逼近目标、小波极限学 习机拟合效果和极限学习机对 f2 拟合效果. 0≤y < 1 /2 和 1 /2≤y < 1 上特性不一致,ELM 的辨识出现 极大失真,WM--ELM 由于其聚微的特性在逼近性能 上的优势显现出来. 实际工程问题中,由于一些复 杂系统本身所固有的动态变化,造成数据表现出不 · 6171 ·