第15卷第5期 智能系统学报 Vol.15 No.5 2020年9月 CAAI Transactions on Intelligent Systems Sep.2020 D0:10.11992/tis.201902006 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20191031.1159.002.html ,一,双范数的最优下边界回归模型辨识 刘小雍,叶振环 (遵义师范学院工学院,贵州遵义563006)》 摘要:考虑到来自传感器测量数据、模型结构以及参数的不确定性等因素,建模由这些因素导致的下边界模 型尤为重要。通过将结构风险最小化理论与逼近误差最小化思想相结合,提出了C,-双范数的最优下边界 回归模型建模方法。首先,确定满足下边界回归模型的约束条件。其次,将结构风险的2范数转化为简单的 (范数优化问题,并将回归模型与实际测量数据之间的逼近误差的(范数融合到结构风险的(1范数优化问题, 再应用较简单的线性规划对双范数的优化问题进行求解获取模型参数。最后,通过来自测量数据以及模型参 数不确定性的实验分析,论证了提出方法的最优性,体现在:下边界模型的建模精度通过逼近误差的,范数得 到保证:模型结构复杂性在结构风险的范数优化条件下得到有效控制,进而提高其泛化性能。 关键词:(,范数的结构风险最小化;逼近误差的(范数:下边界回归模型;泛化性能:建模精度;最优性:线性规划 中图分类号:TP391.1 文献标志码:A文章编号:1673-4785(2020)05-0934-09 中文引用格式:刘小雍,叶振环.41-(1双范数的最优下边界回归模型辨识智能系统学报,2020,15(5):934-942 英文引用格式:LIU Xiaoyong,YE Zhenhuan.Optimal lower boundary regression model based on double norms f1-(1 optimiza- tion|JI.CAAI transactions on intelligent systems,2020,15(5):934-942. Optimal lower boundary regression model based on double norms -f,optimization LIU Xiaoyong,YE Zhenhuan (College of Engineering,Zunyi Normal University,Zunyi 563006,China) Abstract:In statistical modeling,regression analysis is a set of statistical processes for estimating the relationships between a dependent variable and one or more independent variables.Considering the uncertainties in the structure and parameters of the model derived from sensor measurement data,a new model called optimal lower boundary model is proposed to remove the uncertainties in parameters and characteristics.The proposed method is a combination of struc- tural risk minimization theory(SRM)and some ideas from approximation error minimization.An optimal lower bound- ary regression model(LBRM)is presented using e-e double norms optimization.First,constraint conditions subjec- ted to LBRM are defined.Then,e2-norm optimization based on structural risk is converted into simple ei-norm optimiz- ation so that approximation error between the measurements based on ei-norm is computed and minimized.Next, LBRM is integrated into ei-norm optimization(based on structural risk).Thus,simpler linear programming can be ap- plied to the constructed double-norms optimization problem to solve parameters of LBRM.Finally,the proposed meth- od is demonstrated by experiments regarding uncertain measurements and parameters of nonlinear system.It has the fol- lowing prominent features:modeling accuracy of LBRM can be guaranteed by introducing the ei-norm minimization on approximation error,model's structural complexity is under control by e-norm optimization based on structural risk, thus the performance of the model can be improved further. Keywords:C-norm-based structural risk minimization;(-norm on approximation error,lower boundary regression model;generalization performance;modeling accuracy;optimality;linear programming 收稿日期:2019-02-08.网络出版日期:2019-10-31. 近年来,在理论或工程上的诸多应用,包括控 基金项目:贵州省科技计划基金项目(黔科合基础[2018] 1179):贵州省教育厅青年基金项目(黔教合KY字 制器设计、高级过程仿真、软计算以及故障诊断 [2016]254);遵义师范学院博士项日(遵师 BS2015]04号). 等,都离不开对被研究的复杂非线性系统的建模"。 通信作者:刘小雍.E-mail:1iuxy204@163.com 因此,建立被研究对象的非线性动态数学模型在
DOI: 10.11992/tis.201902006 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20191031.1159.002.html ℓ 1−ℓ 1 双范数的最优下边界回归模型辨识 刘小雍,叶振环 (遵义师范学院 工学院,贵州 遵义 563006) ℓ1 −ℓ1 ℓ2 ℓ1 ℓ1 ℓ1 ℓ1 ℓ1 摘 要:考虑到来自传感器测量数据、模型结构以及参数的不确定性等因素,建模由这些因素导致的下边界模 型尤为重要。通过将结构风险最小化理论与逼近误差最小化思想相结合,提出了 双范数的最优下边界 回归模型建模方法。首先,确定满足下边界回归模型的约束条件。其次,将结构风险的 范数转化为简单的 范数优化问题,并将回归模型与实际测量数据之间的逼近误差的 范数融合到结构风险的 范数优化问题, 再应用较简单的线性规划对双范数的优化问题进行求解获取模型参数。最后,通过来自测量数据以及模型参 数不确定性的实验分析,论证了提出方法的最优性,体现在:下边界模型的建模精度通过逼近误差的 范数得 到保证;模型结构复杂性在结构风险的 范数优化条件下得到有效控制,进而提高其泛化性能。 关键词:ℓ1 范数的结构风险最小化;逼近误差的ℓ1 范数;下边界回归模型;泛化性能;建模精度;最优性;线性规划 中图分类号:TP391.1 文献标志码:A 文章编号:1673−4785(2020)05−0934−09 中文引用格式:刘小雍, 叶振环. ℓ1−ℓ1 双范数的最优下边界回归模型辨识 [J]. 智能系统学报, 2020, 15(5): 934–942. 英文引用格式:LIU Xiaoyong, YE Zhenhuan. Optimal lower boundary regression model based on double norms ℓ 1−ℓ 1 optimization[J]. CAAI transactions on intelligent systems, 2020, 15(5): 934–942. Optimal lower boundary regression model based on double norms ℓ 1−ℓ 1 optimization LIU Xiaoyong,YE Zhenhuan (College of Engineering, Zunyi Normal University, Zunyi 563006, China) `1 ¡ `1 `2 `1 `1 `1 `1 `1 Abstract: In statistical modeling, regression analysis is a set of statistical processes for estimating the relationships between a dependent variable and one or more independent variables. Considering the uncertainties in the structure and parameters of the model derived from sensor measurement data, a new model called optimal lower boundary model is proposed to remove the uncertainties in parameters and characteristics. The proposed method is a combination of structural risk minimization theory (SRM) and some ideas from approximation error minimization. An optimal lower boundary regression model (LBRM) is presented using double norms optimization. First, constraint conditions subjected to LBRM are defined. Then, -norm optimization based on structural risk is converted into simple -norm optimization so that approximation error between the measurements based on -norm is computed and minimized. Next, LBRM is integrated into -norm optimization (based on structural risk). Thus, simpler linear programming can be applied to the constructed double-norms optimization problem to solve parameters of LBRM. Finally, the proposed method is demonstrated by experiments regarding uncertain measurements and parameters of nonlinear system. It has the following prominent features: modeling accuracy of LBRM can be guaranteed by introducing the -norm minimization on approximation error; model’s structural complexity is under control by -norm optimization based on structural risk, thus the performance of the model can be improved further. Keywords: ℓ1 -norm-based structural risk minimization; ℓ1 -norm on approximation error; lower boundary regression model; generalization performance; modeling accuracy; optimality; linear programming 近年来,在理论或工程上的诸多应用,包括控 制器设计、高级过程仿真、软计算以及故障诊断 等,都离不开对被研究的复杂非线性系统的建模[1]。 因此,建立被研究对象的非线性动态数学模型在 收稿日期:2019−02−08. 网络出版日期:2019−10−31. 基金项目:贵州省科技计划基金项 目 (黔科合基 础 [2018] 1179); 贵州省教育厅青年基金项目 (黔教合 KY 字 [2016]254) ;遵义师范学院博士项 目 ( 遵 师 BS[2015]04 号). 通信作者:刘小雍. E-mail:liuxy204@163.com. 第 15 卷第 5 期 智 能 系 统 学 报 Vol.15 No.5 2020 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2020
第5期 刘小雍,等:,-(,双范数的最优下边界回归模型辨识 ·935· 实际工程应用中变得尤为重要。由于诸多不确定 数学模型建模的研究,其鲁棒性差,易受外界干 性的存在,例如模型结构以及参数等,导致非线 扰,很少有针对来自模型结构、参数以及测量数 性系统的机理建模出现了巨大挑战。因此,出 据的不确定性等因素引起的最优下界建模:此 现了基于数据的两种经典方法:1)基于经验风险 外,如何控制所建立模型的结构复杂性,提高泛 最小化的神经网络(neural network.,NN):2)采用 化性能,也是需要考虑的重点。在本文中,考虑 结构风险最小化理论的支持向量机(support vec- 到基于结构风险最小化的支持向量机所具有的优 tor machine,SVM)及其变体最小二乘支持向量机 良特性,将其转化为(,范数下的结构风险,并将逼 (least squares SVM),都被广泛应用于非线性系统 近误差的,范数思想与之相结合,建立求解最优下 的建模研究。 界回归模型的优化问题,再应用较简单的线性规 从理论上来讲,神经网络可以以任意的精度 划获取下界回归模型的稀疏解。提出的方法可归 逼近任意的非线性系统,在非线性系统的建模 纳为:1)提出了最小化最大逼近误差的范数定 领域有着大量的研究。例如,在文献[6-7]中提 理,作为分别建立下界回归模型的优化问题; 出的带随机权值分配的级联神经网络,从某种程 2)建立基于结构风险最小化的代价函数,在保证 度上其建模精度得到了较大改善。为了能实现非 辨识下界回归模型精度的同时,尽可能对模型结 线性系统建模过程中的快速鲁棒收敛,一种自适 构复杂性进行有效控制,进而提高模型的泛化性 应二阶算法⑧被提出用于训练模糊神经网络,获 能;3)下界输出模型包络了由各种不确定性因素 取了满意的建模结果。分层径向基函数神经网 引起的输出,进而提高建模的鲁棒性。 络0作为NN的另一种变体,通过对污水处理的 非线性建模,在实际应用中的预测性能上都达到 1支持向量回归的,范数问题转化 了较好的效果。然而,上述提到的这些方法仅仅 1.1支持向量回归问题 考虑了单隐层结构,在建模精度上仍缺乏显著改 进。根据统计学一致逼近理论理可知,当NN 随着Vapnik的不敏感损失函数的引入列, 的隐神经元个数选取较多时,甚至等于训练样本 支持向量机的分类问题被扩展到回归问题, 的数量时,单隐层NN就能以足够高的精度去逼 即支持向量回归(SVR),已在最优控制、时间序 列预测、区间回归分析等方面得到了广泛应 近任意的非线性系统:然而,较多的样本数量会 引起神经元个数的增加,导致NN的模型结构复 用。SVR方法是对一组带有噪声的测量数据 杂,泛化性能变差。此外,众多神经网络在参数 {(x1,(x2,2),…,(xw,yw)》的未知函数进行逼近, 求解过程中,主要还是采用经验风险最小化理 其中x=(x,x,…,)表示对应测量数据的输人, 论,即神经网络的参数最终解是以模型预测输 d表示每个输入为d维的特征模式,为相应的测 出与实际输出之间的平方和达到最小作为标准, 量输出,k表示第k个输入和输出,N为获取的总测 进而导致训练获取的神经网络模型复杂,容易产 量数据个数。因此,函数的逼近问题可转化为寻 生局部极小与过拟合问题。由Vapnik提出的 求如下基函数线性展开的最优参数: SVM,通过执行结构风险最小化来代替经验风险 fx.0)->0g.(*)+b (1) 最小化,理论上保证了SVM在非线性系统建模 k=1 上的全局最优,已成为分类和回归应用中的一种 式中:0=(0,2,…,0m)为需要被寻优的参数向量 重要学习方法。在非线性回归领域,通过大量的 b是一个常量,式(I)表示对于N个测量数据,可用 实验研究表明,SVM的泛化性能优于神经网络及 m个无关的基函数线性组合对其建模。进一步, 其变体的非线性建模方法。基于此,在SVM 该问题的参数寻优即为寻找满足如下优化问题的 基础上,文献[13-14]提出了基于支持向量学习方 非线性函数f: 法的模糊回归分析,该方法较传统神经网络方法 min R(f)= ∑L.-fx》+ylwl3 (2) 在泛化性能上做了较好的改进。基于此,基于数 据的另一种模糊建模方法,也将基于增量平滑 Rf)为结构风险,y表示规则化常量,IwI的 SVR的结构风险最小化作为优化问题),进而提 引入在于控制模型的复杂度,L()描述ε-不敏感 高模型泛化性能。近年来,深度学习严然成为研 损失函数,定义为 究的热点,文献[16-17刀围绕非线性系统的建模问 题,提出了一种基于改进型深度学习的非线性建 L.-f0-f》=/0.b-fx0l≤s bM-fx-8,其他 模方法。 从上述ε域定义可知,如果y-fx)的值在该 目前,各种数据建模方法主要集中在确定性 ε区域内,损失为0;否则为b-fx训与ε的差值
实际工程应用中变得尤为重要。由于诸多不确定 性的存在,例如模型结构以及参数等,导致非线 性系统的机理建模出现了巨大挑战[2-3]。因此,出 现了基于数据的两种经典方法:1)基于经验风险 最小化的神经网络 (neural network,NN);2)采用 结构风险最小化理论的支持向量机 (support vector machine, SVM) 及其变体最小二乘支持向量机 (least squares SVM),都被广泛应用于非线性系统 的建模研究。 从理论上来讲,神经网络可以以任意的精度 逼近任意的非线性系统[4] ,在非线性系统的建模 领域有着大量的研究[5]。例如,在文献 [6-7] 中提 出的带随机权值分配的级联神经网络,从某种程 度上其建模精度得到了较大改善。为了能实现非 线性系统建模过程中的快速鲁棒收敛,一种自适 应二阶算法[8] 被提出用于训练模糊神经网络,获 取了满意的建模结果。分层径向基函数神经网 络 [9-10] 作为 NN 的另一种变体,通过对污水处理的 非线性建模,在实际应用中的预测性能上都达到 了较好的效果。然而,上述提到的这些方法仅仅 考虑了单隐层结构,在建模精度上仍缺乏显著改 进。根据统计学一致逼近理论理可知[11] ,当 NN 的隐神经元个数选取较多时,甚至等于训练样本 的数量时,单隐层 NN 就能以足够高的精度去逼 近任意的非线性系统;然而,较多的样本数量会 引起神经元个数的增加,导致 NN 的模型结构复 杂,泛化性能变差。此外,众多神经网络在参数 求解过程中,主要还是采用经验风险最小化理 论 [12] ,即神经网络的参数最终解是以模型预测输 出与实际输出之间的平方和达到最小作为标准, 进而导致训练获取的神经网络模型复杂,容易产 生局部极小与过拟合问题。由 Vapnik 提出的 SVM,通过执行结构风险最小化来代替经验风险 最小化,理论上保证了 SVM 在非线性系统建模 上的全局最优,已成为分类和回归应用中的一种 重要学习方法。在非线性回归领域,通过大量的 实验研究表明,SVM 的泛化性能优于神经网络及 其变体的非线性建模方法。基于此,在 SVM 基础上,文献 [13-14] 提出了基于支持向量学习方 法的模糊回归分析,该方法较传统神经网络方法 在泛化性能上做了较好的改进。基于此,基于数 据的另一种模糊建模方法,也将基于增量平滑 SVR 的结构风险最小化作为优化问题[15] ,进而提 高模型泛化性能。近年来,深度学习俨然成为研 究的热点,文献 [16-17] 围绕非线性系统的建模问 题,提出了一种基于改进型深度学习的非线性建 模方法。 目前,各种数据建模方法主要集中在确定性 ℓ1 ℓ1 数学模型建模的研究,其鲁棒性差,易受外界干 扰,很少有针对来自模型结构、参数以及测量数 据的不确定性等因素引起的最优下界建模;此 外,如何控制所建立模型的结构复杂性,提高泛 化性能,也是需要考虑的重点。在本文中,考虑 到基于结构风险最小化的支持向量机所具有的优 良特性,将其转化为 范数下的结构风险,并将逼 近误差的 范数思想与之相结合,建立求解最优下 界回归模型的优化问题,再应用较简单的线性规 划获取下界回归模型的稀疏解。提出的方法可归 纳为:1)提出了最小化最大逼近误差的范数定 理,作为分别建立下界回归模型的优化问题; 2)建立基于结构风险最小化的代价函数,在保证 辨识下界回归模型精度的同时,尽可能对模型结 构复杂性进行有效控制,进而提高模型的泛化性 能;3)下界输出模型包络了由各种不确定性因素 引起的输出,进而提高建模的鲁棒性。 1 支持向量回归的ℓ1 范数问题转化 1.1 支持向量回归问题 {(x1, y1), (x2, y2),··· , (xN, yN)} xk = (x 1 k , x 2 k ,··· , x d k ) d d yk k k N 随着 Vapnik 的不敏感损失函数的引入[18-19] , 支持向量机的分类问题被扩展到回归问题, 即支持向量回归(SVR),已在最优控制、时间序 列预测、区间回归分析等方面得到了广泛应 用。SVR 方法是对一组带有噪声的测量数据 的未知函数进行逼近, 其中 表示对应测量数据的输入, 表示每个输入为 维的特征模式, 为相应的测 量输出, 表示第 个输入和输出, 为获取的总测 量数据个数。因此,函数的逼近问题可转化为寻 求如下基函数线性展开的最优参数[20] : f(x, θ) = ∑m k=1 θkgs(x)+b (1) θ = (θ1, θ2,··· , θm) b N m f 式中: 为需要被寻优的参数向量, 是一个常量,式 (1) 表示对于 个测量数据,可用 个无关的基函数线性组合对其建模。进一步, 该问题的参数寻优即为寻找满足如下优化问题的 非线性函数 : min : R(f) = ∑N k=1 Lε (yk − f(xk))+γ∥w∥ 2 2 (2) R(f) γ ∥w∥ 2 2 Lε(·) ε− 为结构风险, 表示规则化常量, 的 引入在于控制模型的复杂度, 描述 不敏感 损失函数,定义为 Lε(yk − f(yk − f(xk)) = { 0 , |yk − f(xk)| ⩽ ε |yk − f(xk)| −ε, 其他 ε |yk − f(xk)| ε |yk − f(xk)| ε 从上述 域定义可知,如果 的值在该 区域内,损失为 0;否则为 与 的差值。 第 5 期 刘小雍,等:ℓ 1−ℓ 1 双范数的最优下边界回归模型辨识 ·935·
·936· 智能系统学报 第15卷 通过应用拉格朗日乘子方法,对式(2)的最 统的二次规划-SVR(quadric programming-support 小化可转化为它的对偶优化问题: vector regression,QP-SVR)在执行参数的求解过 程中,容易产生模型的冗余描述及昂贵的计算成 min .a)L(+oi)-.(i-m) 本。对于QP-SVR,基于式(2)的优化问题, N min R)=c∑L.(+)+2wl3 k=1 s.t -(w,p(x)》-b≤E+5: S.U (w,p(x)》+b-%≤E+f fork=1,2,…,N (3) 5,≥0 a*、a、、表示拉格朗日乘子。式(3) 其中()表示从输入空间到高维空间的非线性特 g(x)的内积可用如下核函数代替: 征映射,即p:R"→R"(m>m);点、为松弛变量, 分别对应超出正、负方向偏差值时的大小;常量 Kxx)=∑8.8.c) =1 C大于0,反应非线性f与偏差大于ε时两者之间的 核函数确定了解的平滑特性,选取时应该更 平衡。对于式(5),令B=-a,则有 好的反映数据的先验知识。式(3)的优化问题可 fx,=∑Aexp -r-xxr +b (6) 从写为 2r2 k= min W(a'.a)=s>L(ai+ai)- B=B,B2,…BwJ「。考虑到式(2)的优化问 -aj)+ 题,w范数的引入是为了控制模型的复杂度,根 (i-opi-w).) 据范数的等价性可知,在结构风险中引入其他范 数也可以同样对模型复杂性进行控制。接下来, 基于Vapnik的研究,SVR方法的解以核函数 将QP-SVR的优化问题(2)变成 的线性展开描述为 min: R)=∑L.0a-fc》+yI9l, fc,a*,a)=】 (4) 其中,fx)以式(5)形式描述,例表示系数空间的 其中常量b的计算为 范数。因此,新的约束优化问题为 ()t.)+es() N min n=c2++间, 显然,仅当(a-)≠0时,对应的样本x称为 -llr-xlr 支持向量(SVs)。在SVR方法中,其核函数的使 y.->Bexp 12σ2 -b≤E+ 用包括高斯核函数(Gaussian radial basis function, s.t -llr-xl2 GRBF)、多项式核函数、Sigmoid核函数、可逆多 2r2 +b-≤E+ 二次核函数(inverse multi-quadric kernel)等。然 5,≥0 (7 而,通过大量的实验研究表明,高斯核函数相对 从几何的角度来看,和之间的关系在SVR 于其他核函数在实际应用中易于实现且具有较强 的映射能力。因此本文在回归模型辨识中采用高 中满足5=0。因此,在优化问题(7)中仅引入 斯核函数,可将式(4)写成: 个松弛变量即可四,即 fc.a2,a)=∑at-oep -r-xl 22 (5) min:R=c∑+l, 式中σ称为高斯核参数。 -x-x >B:exp 22 -b≤+5 1.2SVR的,范数优化问题转化 3.t SVR采用结构风险最小化理论建立求解模型 2c2 +b-y≤E+ 参数的凸二次规划问题,不仅保证了模型建模精 度,而且模型结构的稀疏特性也得到了保证,被 (8) 广泛应用于模式识别以及非线性内动态系统建 为了转化上述优化问题为线性规划问题,将 模。然而,正如1.1节的SVR回归问题那样,其传 B.和B进行如下分解:
通过应用拉格朗日乘子方法,对式(2)的最 小化可转化为它的对偶优化问题: min : W(α + ,α− ) = ε ∑N k=1 Lε ( α − k +α + k ) − ∑N k=1 yk ( α + k −α − k ) + 1 2 ∑N k,i=1 ( α + k −α − k ) (α + k −α − k )∑m s=1 gs(xk)gs(xi) s.t ∑N k=1 α + k = ∑N k=1 α − k , 0 ⩽ α + k ,α− k ⩽ γ, for k = 1,2,··· ,N (3) α + α − α + k α − k gs(x) 、 、 、 表示拉格朗日乘子。式( 3) 的内积可用如下核函数代替: K(xk , xi) = ∑m s=1 gs(xk)gs(xi) 核函数确定了解的平滑特性,选取时应该更 好的反映数据的先验知识。式(3)的优化问题可 从写为 min : W(α + ,α− ) = ε ∑N k=1 Lε ( α − k +α + k ) − ∑N k=1 yk ( α + k −α − k ) + 1 2 ∑N k,i=1 ((α + k −α − k ) (α + k −α − k ) K(xk , xi) ) 基于 Vapnik 的研究,SVR 方法的解以核函数 的线性展开描述为 f(x,α+ ,α− ) = ∑m k=1 (α + −α − )K(x, xi)+b (4) 其中常量 b 的计算为 b = yk − ∑N k=1 ( α + k −α − k ) K(xk , xi)+ε ·sign( α − k −α + k ) ( α + k −α − k ) 显然,仅当 , 0 时,对应的样本 xk称为 支持向量(SVs)。在 SVR 方法中,其核函数的使 用包括高斯核函数(Gaussian radial basis function, GRBF)、多项式核函数、Sigmoid 核函数、可逆多 二次核函数(inverse multi-quadric kernel)等。然 而,通过大量的实验研究表明,高斯核函数相对 于其他核函数在实际应用中易于实现且具有较强 的映射能力。因此本文在回归模型辨识中采用高 斯核函数,可将式(4)写成: f(x,α+ ,α− ) = ∑m k=1 ( α + k −α − k ) exp{ −∥x− xk∥ 2 2σ2 } +b (5) 式中σ称为高斯核参数。 1.2 SVR 的 ℓ1范数优化问题转化 SVR 采用结构风险最小化理论建立求解模型 参数的凸二次规划问题,不仅保证了模型建模精 度,而且模型结构的稀疏特性也得到了保证,被 广泛应用于模式识别以及非线性内动态系统建 模。然而,正如 1.1 节的 SVR 回归问题那样,其传 统的二次规划-SVR(quadric programming-support vector regression,QP-SVR)在执行参数的求解过 程中,容易产生模型的冗余描述及昂贵的计算成 本 [18]。对于 QP-SVR,基于式(2)的优化问题, min : R(f) = C ∑N k=1 Lε ( ξk +ξ ∗ k ) + 1 2 ∥w∥ 2 2 s.t. yk −⟨w, φ(xk)⟩−b ⩽ ε+ξk , ⟨w, φ(xk)⟩+b−yk ⩽ ε+ξ ∗ k ξk , ξ∗ k ⩾ 0 φ(·) φ : R n → R m (m > n) ξk、ξ ∗ k C f ε βk = α + k −α − k 其中 表示从输入空间到高维空间的非线性特 征映射,即 ; 为松弛变量, 分别对应超出正、负方向偏差值时的大小;常量 大于 0,反应非线性 与偏差大于 时两者之间的 平衡。对于式(5),令 ,则有 f(x, β) = ∑N k=1 βk exp( −∥x− xk∥ 2 2σ2 ) +b (6) β = [β1, β2,··· , βN] T ∥w∥ 2 2 。考虑到式( 2)的优化问 题, 范数的引入是为了控制模型的复杂度,根 据范数的等价性可知,在结构风险中引入其他范 数也可以同样对模型复杂性进行控制。接下来, 将 QP-SVR 的优化问题 (2) 变成 min : R(f) = ∑N k=1 Lε (yk − f(xk))+γ∥β∥ 1 f(x) ∥β∥ 1 ℓ1 其中, 以式(5)形式描述, 表示系数空间的 范数。因此,新的约束优化问题为 min : R(f) = C ∑N k=1 ( ξk +ξ ∗ k ) +∥β∥ 1 s.t. yk − ∑m k=1 βk exp{ −∥x− xk∥ 2 2σ2 } −b ⩽ ε+ξ ∗ k ∑m k=1 βk exp{ −∥x− xk∥ 2 2σ2 } +b−yk ⩽ ε+ξ ∗ k ξk , ξ∗ k ⩾ 0 (7) ξk ξ ∗ k ξkξ ∗ k = 0 ξk 从几何的角度来看, 和 之间的关系在 SVR 中满足 。因此,在优化问题(7)中仅引入 一个松弛变量 即可[21] ,即 min : R(f) = C ∑N k=1 ξk +∥β∥ 1 s.t. yk − ∑m k=1 βk exp{ −∥x− xk∥ 2 2σ2 } −b ⩽ ε+ξk ∑m k=1 βk exp{ −∥x− xk∥ 2 2σ2 } +b−yk ⩽ ε+ξk ξk ⩾ 0 (8) βk |βk | 为了转化上述优化问题为线性规划问题,将 和 进行如下分解: ·936· 智 能 系 统 学 报 第 15 卷
第5期 刘小雍,等:,-(,双范数的最优下边界回归模型辨识 ·937· Bx=ai-a 1Bal=ai+ar (9) 的非线性回归模型∫对测量模型g的任意逼近,当 逼近精度越小时,需要的支持向量越少;反之,逼 基于式(9),优化问题(8)进一步变成: 近精度越高,则支持向量越多。因此,对任意给定 min n=ca+∑ai+i 的实连续函数g及)>0,存在如下回归模型f满足: k=1 suplf(x)-g(x)<n k (x 4-∑(ai-a)exp\2r -b≤+E 值得指出的是,较小的n值,对应式(11)较多 -lr-xP 的支持向量。现讨论回归模型,式(11)的另一种 2 (ai -a )exp 22 +b-y≤E+E 参数求解方法。在非线性系统模型的逼近情况 5≥0 下,定义实际输出与由式(6)定义的SVR模型输 (10) 出之间的偏差e: 现定义向量c 1,1,…,1,1,1,…,1,C,C…,0 ex=y:-f(xL)Vk (12) 为了估计SVR模型的最优参数,考虑所有建 模误差的最小化: 向量的L-范数刚,= min by-f(xe)Vk (13) a*=(a,a时,…,a),=(a,5,…,)。以向量 Z表示整个输人数据集。显然,这是一个最 形式将优化问题(10)构造为线性规划问题如下: 小(min)优化问题。在式(6)描述的回归模型情 况下,式(12)的最小化可通过两个阶段完成:1)核 min cTa- 函数中的核宽度σ的参数寻优,通常采用经典的 E 交叉验证或其他方法来实现,其详细过程在本文 中不再讨论;2)式(6)的参数确定可通过min优 化问题求解,即 a*,m≥0,E≥0 其中5=(传,5,…,5w)F,I为W×N的单位矩阵, B-arg mi y=,2,…Jyw), --x 3最优下边界回归模型辨识 K=kxi,x)=exp 2w2 假定不确定非线性函数或非线性系统属于函 线性规划问题(11)可通过单纯型算法或原- 数簇T: 对偶内点算法进行求解21。对于二次规划- T={g:S→R'|g(x)=gom(xr)+△g(x),xeS} SVR(QP-SVR),在ε域之外的所有数据点将被选择 gm为标称函数,不确定性△g(z)满足 为SVs;而对于线性规划-支持向量回归(linear suplAg(x川≤y,y∈R。现考虑来自函数簇r的成员 programming-support vector regression,LP-SVR), 函数g,x∈R心,对应输入x上的测量输出Y=1,…, 便ε域选择为0时,由于软约束在优化问题中的使 yw},即y%=gxx),g∈T,xx∈S,k=1,2,…,N。 用,LP-SVR仍然能够获取稀疏解。通常情况下, LBRM建模的思想是,在满足如下约束条件(14) 稀疏解往往通过设定非零的ε域来获取。 的条件下,建模下界回归模型fx: fx)≤g(x)Vx&∈S (14) 2基于£,范数的回归模型辨识 在式(14)约束的意义下,来自函数簇的任一 基于第1节介绍的支持向量回归及优化问题 成员函数总能在LBRM上方中找到。显然,这样 转化的基础上,该部分将讨论模型参数估计的另 的LBRM有无穷多个,本文的目的就是根据提出 一种方法,即使用范数作为建模误差的评判标 的约束(14),确定尽可能逼近成员函数的下界。 准。假设通过传感器或数据获取设备一组测量 为了确定LBRM的最优逼近,提出的方法将逼近 数据{1,y),(2,2),…,(cw,yw)},其中(x1,x2,…,xw 误差的(范数作为模型辨识精度的保证,而基于 描述输入测量数据,对应的输出定义为,y2,…,y。 SVM的结构风险最小化理论用于提高模型的稀 疏特性。由式(6)给出下界回归模型的表达式: 设测量满足如下非线性系统模型: =g(),k=1,2,…,N 根据统计学理论理可知,存在以式(6)描述
βk = α + k −α − k |βk | = α + k +α − k (9) 基于式(9),优化问题(8)进一步变成: min : R(f) = C ∑N k=1 ξk + ∑N i=1 (α + k +α − k ) s.t yk − ∑m k=1 (α + k −α − k ) exp{ −∥x− xk∥ 2 2σ2 } −b ⩽ ε+ξk ∑m k=1 (α + k −α − k ) exp{ −∥x− xk∥ 2 2σ2 } +b−yk ⩽ ε+ξk ξk ⩾ 0 (10) c= 1, 1, ··· ,1 | {z } N ,1, 1, ··· ,1 | {z } N ,C, C, ··· ,C | {z } N T β L1 ∥β∥ 1 = 1, 1, ··· ,1 | {z } N , 1, 1, ··· ,1 | {z } N ( α ∗ α ) α + = (α + 1 ,α+ 2 ,··· ,α+ N ) T , α − = (α − 1 ,α− 2 ,··· ,α− N ) T 现定义向量 , 向量 的 -范数 , 。 以向量 形式将优化问题(10)构造为线性规划问题如下: min c T α + α − ξ s.t. ( K − K − I −K K − I ) · α + α − ξ ⩽ ( y+ε ε− y ) α + , α − ⩾ 0, ξ ⩾ 0 (11) ξ = (ξ1, ξ2,··· , ξN) T I N ×N y = (y1, y2,··· , yN) T 其 中 , 为 的单位矩阵, , Ki j = k(xi , xj) = exp − xi − xj 2 2σ2 ε ε ε 线性规划问题(11)可通过单纯型算法或原− 对偶内点算法进行求解 [ 2 2 ]。对于二次规划 − SVR(QP-SVR),在 域之外的所有数据点将被选择 为 SVs;而对于线性规划−支持向量回归 (linear programming-support vector regression, LP-SVR),即 便 域选择为 0 时,由于软约束在优化问题中的使 用,LP-SVR 仍然能够获取稀疏解。通常情况下, 稀疏解往往通过设定非零的 域来获取。 2 基于ℓ 1 范数的回归模型辨识 ℓ1 {(x1, y1), (x2, y2),··· ,(xN, yN)} {x1, x2, ··· , xN} {y1, y2,··· , yN} 基于第 1 节介绍的支持向量回归及优化问题 转化的基础上,该部分将讨论模型参数估计的另 一种方法,即使用 范数作为建模误差的评判标 准。假设通过传感器或数据获取设备一组测量 数据 ,其中 描述输入测量数据,对应的输出定义为 。 设测量满足如下非线性系统模型: yk = g(xk), k = 1,2,··· ,N 根据统计学理论理可知[12] ,存在以式 (6) 描述 f g g η > 0 f 的非线性回归模型 对测量模型 的任意逼近,当 逼近精度越小时,需要的支持向量越少;反之,逼 近精度越高,则支持向量越多。因此,对任意给定 的实连续函数 及 ,存在如下回归模型 满足: sup xk∈S | f(xk)−g(xk)| < η ∀k η ek 值得指出的是,较小的 值,对应式 (11) 较多 的支持向量。现讨论回归模型,式 (11) 的另一种 参数求解方法。在非线性系统模型的逼近情况 下,定义实际输出与由式 (6) 定义的 SVR 模型输 出之间的偏差 : ek = yk − f(xk) ∀k (12) 为了估计 SVR 模型的最优参数,考虑所有建 模误差的最小化: min xk∈Z |yk − f(xk)| ∀k (13) Z σ 表示整个输入数据集。显然,这是一个最 小(min)优化问题。在式(6)描述的回归模型情 况下,式(12)的最小化可通过两个阶段完成:1)核 函数中的核宽度 的参数寻优,通常采用经典的 交叉验证或其他方法来实现,其详细过程在本文 中不再讨论;2)式(6)的参数确定可通过 min 优 化问题求解,即 β = arg min β , xk∈Z yk − ∑N i=1 βi exp( −∥xi − xk∥ 2 2σ2 ) −b 3 最优下边界回归模型辨识 Γ 假定不确定非线性函数或非线性系统属于函 数簇 : Γ = {g : S → R 1 | g(x) = gnom(x)+ ∆g(x), x ∈ S} gnom ∆g(z) sup x∈S |∆g(x)| ⩽ γ γ ∈ R Γ g x ∈ R d x Y = {y1, y1,··· , yN} yk = g(xk) g ∈ Γ xk ∈ S k = 1,2,··· ,N f(xk) 为标称函数,不确定性 满 足 , 。现考虑来自函数簇 的成员 函数 , ,对应输入 上的测量输出 , 即 , , , 。 LBRM 建模的思想是,在满足如下约束条件 (14) 的条件下,建模下界回归模型 : f(xk) ⩽ g(xk) ∀xk ∈ S (14) ℓ1 在式 (14) 约束的意义下,来自函数簇的任一 成员函数总能在 LBRM 上方中找到。显然,这样 的 LBRM 有无穷多个,本文的目的就是根据提出 的约束 (14),确定尽可能逼近成员函数的下界。 为了确定 LBRM 的最优逼近,提出的方法将逼近 误差的 范数作为模型辨识精度的保证,而基于 SVM 的结构风险最小化理论用于提高模型的稀 疏特性。由式 (6) 给出下界回归模型的表达式: f(x,β,b) = ∑N k=1 βk exp( −∥x− xk∥ 2 2σ2 ) +b 第 5 期 刘小雍,等:ℓ 1−ℓ 1 双范数的最优下边界回归模型辨识 ·937·
·938· 智能系统学报 第15卷 下界回归模型fx)可通过线性规划对如下优 题,可用向量及矩阵形式表述如下: 化问题进行求解: a 0m-f》st-f)≥0 (15) min 因此,模型fx)的参数B、b的求解,对应min 优化问题(15)可通过最小化入,且满足如下不等 式约束的线性规划求解,即 5 min m,≥0,E≥0,0≤4≤1 (18) :-x 2c2 b≤,k=1,2,…,N 其中,c= 11…lL1,…,C,C,…,C1,1 xi-xkl N B.exp B≥0k=1,2,…,N 2r2 y=12,…yw),=(d1,d2,…,w),a吃=(a,a吃,…, a),a=(ai,a2,…,a)月专=(51,点2,…,5w)月Z=0ww (16) I为N×N单位矩阵,E=1wx,核矩阵K的元素定义为 其中心表示逼近误差。 证明上述定理2直接通过定理1推出。 K)=K(x,x)=exp --x σ为可调核参 2σ2 从上述回归模型辨识的思想来看,仅考虑上 数。显然,应用内点法或单纯性方法可以求解优 边模型输出与实际输出之间的逼近误差,而回 化问题(18),进而得到下界回归模型fx): 归模型本身的结构复杂性却没有被考虑,这样 一来,通过上述优化问题获取的参数解有可能 fw)=∑(at-a)exp -r-x 2σ2 (19) k=1 出现不全为零的情况,不具有稀疏特性,对应 从应用提出方法来建立fx)的整个过程来 N个样本数据可能都是支持向量,导致模型结构 看,优化问题既包括了对模型结构复杂性控制的 复杂。为了解决模型稀疏解的问题,在求解下 目标函数,又包括了如何获取较好的模型精度所 边回归模型的优化问题中,有必要将结构风险 对应的逼近误差作为目标函数,而且模型结构复 最小化的思想融合其中,在保证回归模型逼近 杂性控制和模型精度之间的权衡可以通过规则化 精度的同时,尽可能让模型结构复杂性得到有 参数进行调整。总而言之,提出方法在保证获取 效控制。基于此,将下界回归模型优化问题 下界模型建模精度的同时,而且还对模型结构复 (16)(式(16),融合到基于结构风险最小化的优化 杂性进行有效控制,从而提高下界回归模型的泛 问题(10)(式(10))。因此,对于下界回归模型 化性能。 fx)的优化问题,有 4实验分析 c2+i+oi+∑”+b 将通过如下实验分析,论证所提出方法的最 ∑ai-iep --x 2r2 +b-y≤+5: 优性与稀疏性;同时为了更直观地去评判提出的 方法,将考虑如下两个性能指标,即均方根误差 x->(ai-a )exp{ lx- (root man square error,.RMSE)和支持向量占整个 22 b≤E+ 样本数据的百分比SVs%。RMSE定义为 yk一 ∑(at-a)exp -x:-xalP 2r2 -b≤k: RMSE (i-a )exp -lx,-xxl 2r2 +b-y≤0, 式中:W表示测试数据的总数;为实际输出;是 东≥0,4≥0,k=1,2,…,N 模型的被估输出。RMSE反映了用提出方法所建 (17) 立下界回归模型(LBRM)在满足其约束条件下, 式中:4表示最大逼近误差;参数a岐、、b、E、与 即%-fx)≥0,模型输出与实际测量数据之间的 第2节的定义一样。 逼近程度;RMSE越小,逼近程度越好,反之越 从优化问题(17)可知,为典型的线性规划问 差。此外,对应优化问题(18)的求解,若有
下界回归模型 f(x) 可通过线性规划对如下优 化问题进行求解: min f, xk∈S ∑N k=1 (yk − f(xk)) s.t. yk − f(xk) ⩾ 0 (15) f(x) β、b λ 因此,模型 的参数 的求解,对应 min 优化问题 (15) 可通过最小化 ,且满足如下不等 式约束的线性规划求解,即 min : λ = ∑N k=1 λk yk − ∑N i=1 βi exp( −∥xi − xk∥ 2 2σ2 ) −b ⩽ λk , k = 1,2,··· ,N yk − ∑N i=1 βi exp( −∥xi − xk∥ 2 2σ2 ) −βi ⩾ 0 k = 1,2,··· ,N λk ⩾ 0 (16) 其中 λk表示逼近误差。 证明 上述定理 2 直接通过定理 1 推出。 f(x) 从上述回归模型辨识的思想来看,仅考虑上 边模型输出与实际输出之间的逼近误差,而回 归模型本身的结构复杂性却没有被考虑,这样 一来,通过上述优化问题获取的参数解有可能 出现不全为零的情况,不具有稀疏特性,对应 N 个样本数据可能都是支持向量,导致模型结构 复杂。为了解决模型稀疏解的问题,在求解下 边回归模型的优化问题中,有必要将结构风险 最小化的思想融合其中,在保证回归模型逼近 精度的同时,尽可能让模型结构复杂性得到有 效控制。基于此,将下界回归模型优化问 题 (16)(式 (16)),融合到基于结构风险最小化的优化 问题 (10)(式 (10))。因此,对于下界回归模型 的优化问题,有 min : C ∑N k=1 ξk + ∑N i=1 (α + k +α − k )+ ∑N k=1 λk +b ∑m k=1 (α + k −α − k ) exp{ −∥x− xk∥ 2 2σ2 } +b−yk ⩽ ε+ξk , yk − ∑m k=1 (α + k −α − k ) exp{ −∥x− xk∥ 2 2σ2 } −b ⩽ ε+ξk , yk − ∑N i=1 (α + k −α − k ) exp( −∥xi − xk∥ 2 2σ2 ) −b ⩽ λk , ∑N i=1 (α + k −α − k ) exp( −∥xi − xk∥ 2 2σ2 ) +b−yk ⩽ 0, ξk ⩾ 0, λk ⩾ 0, k = 1,2,··· ,N (17) λk α + k α − k 式中: 表示最大逼近误差;参数 、 、b、ε、ξk与 第 2 节的定义一样。 从优化问题 (17) 可知,为典型的线性规划问 题,可用向量及矩阵形式表述如下: min c T α + α − ξ λ b s.t. K − K − I Z E −K K − I Z E −K K Z − I E K − K Z Z E · α + α − ξ λ b ⩽ y+ε ε− y −y y α + , α − ⩾ 0, ξ ⩾ 0, 0 ⩽ λk ⩽ 1 (18) c = 1, 1, ··· ,1 | {z } N , 1, 1, ··· ,1 | {z } N ,C, C, ··· ,C | {z } N ,1,1 T y = (y1, y2,··· , yN) T ,λ = (λ1, λ2,··· , λN) T α + U = (α + 1 ,α+ 2 ,··· , α + N ) T , α − U = (α − 1 ,α− 2 ,··· ,α− N ) T ξ = (ξ1, ξ2,··· , ξN) T Z =0N×N I N ×N E = 1N×1 K 其中, , , , , , 为 单位矩阵, ,核矩阵 的元素定义为 Ki j = K(xi , xj) = exp − xi − xj 2 2σ2 σ f(x) , 为可调核参 数。显然,应用内点法或单纯性方法可以求解优 化问题 (18),进而得到下界回归模型 : f(x) = ∑N k=1 (α + k −α − k ) exp( −∥x− xk∥ 2 2σ2 ) +b (19) 从应用提出方法来建立 f(x) 的整个过程来 看,优化问题既包括了对模型结构复杂性控制的 目标函数,又包括了如何获取较好的模型精度所 对应的逼近误差作为目标函数,而且模型结构复 杂性控制和模型精度之间的权衡可以通过规则化 参数进行调整。总而言之,提出方法在保证获取 下界模型建模精度的同时,而且还对模型结构复 杂性进行有效控制,从而提高下界回归模型的泛 化性能。 4 实验分析 SVs% RMSE 将通过如下实验分析,论证所提出方法的最 优性与稀疏性;同时为了更直观地去评判提出的 方法,将考虑如下两个性能指标,即均方根误差 (root man square error,RMSE)和支持向量占整个 样本数据的百分比 。 定义为 RMSE = 1 N vt∑N k=1 (yk −yˆk) 2 N yk yˆk RMSE yk − f(xk) ⩾ 0 RMSE 式中: 表示测试数据的总数; 为实际输出; 是 模型的被估输出。 反映了用提出方法所建 立下界回归模型 (LBRM) 在满足其约束条件下, 即 ,模型输出与实际测量数据之间的 逼近程度; 越小,逼近程度越好,反之越 差。此外,对应优化问 题 (18 ) 的求解,若有 ·938· 智 能 系 统 学 报 第 15 卷