工程科学学报,第39卷.第10期:1552-1558,2017年10月 Chinese Journal of Engineering,Vol.39,No.10:1552-1558,October 2017 DOI:10.13374/j.issn2095-9389.2017.10.014;http://journals.ustb.edu.cn 基于软超球体的高维非线性数据异常点识别算法 徐 钢2),张晓彤)四,黎敏2),徐金梧2) 1)北京科技大学计算机与通讯工程学院,北京1000832)钢铁共性技术协同创新中心,北京100083 ☒通讯作者,E-mail:ZXT@ies.usth.edu.cn 摘要在治金、化工等流程型工业领域,生产中的过程控制参数往往具有高维非线性结构特征.为了解决这类高维复杂数 据的异常点检测问题,本文引入了软超球体的概念,采用非线性核函数将原始数据映射到高维的特征空间,并在特征空间中 确定软超球体的边界.通过检测待识别样本映射到特征空间的位置信息来判定过程参数的设定值是否为异常点,从而避免 出现批量的产品质量问题.以某类汽车用钢为应用实例,对实际生产数据进行检测,证明了所提出的基于软超球体的异常点 识别算法对于高维的非线性数据具有良好的检测能力. 关键词软超球体;高维非线性数据:异常点识别:核映射 分类号TG277 An outlier detection algorithm based on a soft hyper-sphere for high dimension nonlin- ear data XU Gang2),ZHANG Xiao-tong,LI Min2),XU Jin-wu 1)School of Computer and Communication Engineering.University of Science and Technology Beijing,Beijing 100083,China 2)Collaborative Innovation Center of Steel Technology,Beijing 100083,China Corresponding author,E-mail:ZXT@ies.ustb.edu.en ABSTRACT In process industries,such as metallurgy and chemistry,real procedure parameters usually possess high-dimensional nonlinear features.To solve the problem of outlier detection in complex high-dimensional data,the concept of a soft hyper-sphere is in- troduced in this paper.An original data set is projected into a high-dimensional feature space using a nonlinear kernel function,and the boundary of the soft hyper-sphere is determined within this feature space.To avoid a mass product quality incident,location infor- mation on the testing samples,which are projected into the feature space,is used to decide whether they are outliers.As an applied example,practical procedure data obtained from a type of auto steel product were tested.The results verify that the proposed outlier detection algorithm based on a soft hyper-sphere has a better ability for outlier detection in high-dimensional nonlinear data than tradi- onal methods. KEY WORDS soft hyper-sphere;high dimension nonlinear data;outlier detection algorithm;Kernel mapping 在实际工业生产中,经常需要确定工艺参数在什用,它改变了通常采用的“事后”质量抽检的方式,在 么范围内产品质量是可控的,即需要确定过程参数的过程参数设定过程中就能判定出产品质量是否在可控 控制范围.当工艺参数(也包括原料参数)在该范围 区范围内,避免了出现大量的质量判废.异常点(oui- 内,可以认为所设定的过程参数能满足产品质量要求, er)检测[-]的目的就是根据所确定的边界来判断过程 反之,则可能出现质量异常.这种通过实际生产数据 参数的设定值是否会造成产品质量异常.异常点检测 来确定产品质量可控区的方法在工业生产中非常有 方法还常用于在质量追溯过程中,判断出现质量异常 收稿日期:2016-07-07 基金项目:国家高技术研究发展计划(863计划)资助项目(2014AA041801-2)
工程科学学报,第 39 卷,第 10 期:1552鄄鄄1558,2017 年 10 月 Chinese Journal of Engineering, Vol. 39, No. 10: 1552鄄鄄1558, October 2017 DOI: 10. 13374 / j. issn2095鄄鄄9389. 2017. 10. 014; http: / / journals. ustb. edu. cn 基于软超球体的高维非线性数据异常点识别算法 徐 钢1,2) , 张晓彤1) 苣 , 黎 敏2) , 徐金梧2) 1) 北京科技大学计算机与通讯工程学院, 北京 100083 2) 钢铁共性技术协同创新中心, 北京 100083 苣通讯作者, E鄄mail: ZXT@ ies. ustb. edu. cn 摘 要 在冶金、化工等流程型工业领域,生产中的过程控制参数往往具有高维非线性结构特征. 为了解决这类高维复杂数 据的异常点检测问题,本文引入了软超球体的概念,采用非线性核函数将原始数据映射到高维的特征空间,并在特征空间中 确定软超球体的边界. 通过检测待识别样本映射到特征空间的位置信息来判定过程参数的设定值是否为异常点,从而避免 出现批量的产品质量问题. 以某类汽车用钢为应用实例,对实际生产数据进行检测,证明了所提出的基于软超球体的异常点 识别算法对于高维的非线性数据具有良好的检测能力. 关键词 软超球体; 高维非线性数据; 异常点识别; 核映射 分类号 TG277 An outlier detection algorithm based on a soft hyper鄄sphere for high dimension nonlin鄄 ear data XU Gang 1,2) , ZHANG Xiao鄄tong 1) 苣 , LI Min 2) , XU Jin鄄wu 2) 1) School of Computer and Communication Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Collaborative Innovation Center of Steel Technology, Beijing 100083, China 苣Corresponding author, E鄄mail: ZXT@ ies. ustb. edu. cn ABSTRACT In process industries, such as metallurgy and chemistry, real procedure parameters usually possess high鄄dimensional nonlinear features. To solve the problem of outlier detection in complex high鄄dimensional data, the concept of a soft hyper鄄sphere is in鄄 troduced in this paper. An original data set is projected into a high鄄dimensional feature space using a nonlinear kernel function, and the boundary of the soft hyper鄄sphere is determined within this feature space. To avoid a mass product quality incident, location infor鄄 mation on the testing samples, which are projected into the feature space, is used to decide whether they are outliers. As an applied example, practical procedure data obtained from a type of auto steel product were tested. The results verify that the proposed outlier detection algorithm based on a soft hyper鄄sphere has a better ability for outlier detection in high鄄dimensional nonlinear data than tradi鄄 onal methods. KEY WORDS soft hyper鄄sphere; high dimension nonlinear data; outlier detection algorithm; Kernel mapping 收稿日期: 2016鄄鄄07鄄鄄07 基金项目: 国家高技术研究发展计划(863 计划)资助项目(2014AA041801鄄鄄2) 在实际工业生产中,经常需要确定工艺参数在什 么范围内产品质量是可控的,即需要确定过程参数的 控制范围. 当工艺参数(也包括原料参数) 在该范围 内,可以认为所设定的过程参数能满足产品质量要求, 反之,则可能出现质量异常. 这种通过实际生产数据 来确定产品质量可控区的方法在工业生产中非常有 用,它改变了通常采用的“事后冶质量抽检的方式,在 过程参数设定过程中就能判定出产品质量是否在可控 区范围内,避免了出现大量的质量判废. 异常点(outli鄄 er)检测[1鄄鄄2]的目的就是根据所确定的边界来判断过程 参数的设定值是否会造成产品质量异常. 异常点检测 方法还常用于在质量追溯过程中,判断出现质量异常
徐钢等:基于软超球体的高维非线性数据异常点识别算法 ·1553· 的原因34 下面分别从硬超球体、线性软超球体和非线性软超球 传统的统计过程控制(statistical process control, 体三个方面来讨论单一类的分类问题 SP℃)方法主要是通过过程参数和质量指标的统计规 1.1硬超球体 律来控制引起产品质量变化的各种因素,避免产品质 假设给定一个数据集S={x1,x2,…,x},其中x 量出现异常.目前,企业中大多采用6σ方法对单变量 为p维的数据向量,需确定该数据集的边界,即求解包 进行统计过程控制,以保证每个单独变量在设定的控 含该数据集的最小封闭超球体.数据集中的每个样本 制限内.但是,在实际的工业生产过程中,往往存在各 点与超椭球体的中心C的距离均应小于球体的半径 种高度相关的过程变量,单变量统计过程控制忽略了 r,如图1所示. 变量间的相关性,因此难以准确判别生产过程中的复 Feature 2 杂行为.多变量统计过程控制(multivariate statistical 半径r process control,MSPC)综合考虑各变量间的相关关 系,可实现多变量生产过程的质量监控[) XX 随着统计数据降维技术的发展,多变量统计控制 XX X 图的研究应用出现了新的趋势,过程控制的对象从基 X球心C XX Feature 1 于距离的统计量,转向了一些基于统计降维方法所构 XX XX 建的综合变量.根据统计降维的原理,Jacksont6]提出 十 了基于主成分分析(principal component analysis,PCA) 方法的多变量统计控制图,随后Wold等[)提出了基于 图1最小封闭超球体示意图 偏最小二乘法(partial least squares,PLS)的多变量统 Fig.1 Minimum hyper-sphere diagram 计控制图.但是,无论主成分分析还是偏最小二乘法 的多变量统计控制图都有一个假设前提:所有变量服 最小封闭超球体可以转化为如下的优化问题 从多变量正态分布(multivariate normality,MVN).在 minr2 (1) 这个假设条件下,对于一个稳定的生产过程,正常样本 约束条件为: 点分布在高维空间中的某个超椭球体内:一旦样本点 Ix-CI2=(x-C)T(x:-C)≤2, 超出超椭球体的边界,可以认为该生产过程出现了异 i=1,2,…,n. 常.多变量统计控制图(如Hotelling控制图)的本质是 对上式的约束条件附加拉格朗日乘子α,≥0,对 通过历史数据来确定高维空间中这个超椭球的位置和 应的拉格朗日函数为 大小.其中,超椭球的位置主要取决于各变量的均值 大小和变量间的相关性,而超椭球的大小则主要取决 L(C,r,a)=2+ a,[(x,-C2-1.(2) 于变量的方差. 分别对C和r求偏导且令导数值为0,求得优化 虽然,通过确定超椭球边界的方法能够较好的解 决服从多变量正态分布的异常点识别问题,但是在实 解最终可以得到: 名x=C,名g=1由于 际工业生产过程中,尤其对于治金和化工这类复杂流 程工业,生产数据中往往存在非线性特征,数据分布在 会a=,式(2)也可以表示为另一种形式: 软性的超球体内,即超球体的边界是一组复杂的超曲 面.对于这类复杂的数据结构,采用传统的超椭球边 c,)=f+会a[-c9-f]= 界的方法来判别异常点会造成大量的误判.本文针对 -0 工业生产中常见的这类非线性数据结构,引入了软超 球体的概念,通过非线性核函数将原始数据映射到高 豆a医)- a,,K(x,x.(3) 1j-1 维的特征空间中,并在特征空间中来确定软超球体的 其中,K(x,x)表示变量的内积,令w(a)= 边界,解决复杂数据的异常点检测难题.通过某类汽 车用钢制造过程中的工业应用实例证明了新方法的有 三asK)-名 ak(x,x),式(2)转化为 效性 求下面优化解 1异常点检测方法 maxo(a), (4) 异常点检测方法主要是通过实际生产数据来确定 g=1,a≥0,i=1,2,…,m 过程参数可控区的边界,也称为单一类的分类问题[劉 由式(4)可以求得最小超球体的半径r和球心C
徐 钢等: 基于软超球体的高维非线性数据异常点识别算法 的原因[3鄄鄄4] . 传统的统计过程控制( statistical process control, SPC)方法主要是通过过程参数和质量指标的统计规 律来控制引起产品质量变化的各种因素,避免产品质 量出现异常. 目前,企业中大多采用 6滓 方法对单变量 进行统计过程控制,以保证每个单独变量在设定的控 制限内. 但是,在实际的工业生产过程中,往往存在各 种高度相关的过程变量,单变量统计过程控制忽略了 变量间的相关性,因此难以准确判别生产过程中的复 杂行为. 多变量统计过程控制 ( multivariate statistical process control, MSPC) 综合考虑各变量间的相关关 系,可实现多变量生产过程的质量监控[5] . 随着统计数据降维技术的发展,多变量统计控制 图的研究应用出现了新的趋势,过程控制的对象从基 于距离的统计量,转向了一些基于统计降维方法所构 建的综合变量. 根据统计降维的原理,Jackson [6] 提出 了基于主成分分析(principal component analysis,PCA) 方法的多变量统计控制图,随后 Wold 等[7]提出了基于 偏最小二乘法( partial least squares, PLS) 的多变量统 计控制图. 但是,无论主成分分析还是偏最小二乘法 的多变量统计控制图都有一个假设前提:所有变量服 从多变量正态分布( multivariate normality, MVN). 在 这个假设条件下,对于一个稳定的生产过程,正常样本 点分布在高维空间中的某个超椭球体内;一旦样本点 超出超椭球体的边界,可以认为该生产过程出现了异 常. 多变量统计控制图(如 Hotelling 控制图)的本质是 通过历史数据来确定高维空间中这个超椭球的位置和 大小. 其中,超椭球的位置主要取决于各变量的均值 大小和变量间的相关性,而超椭球的大小则主要取决 于变量的方差. 虽然,通过确定超椭球边界的方法能够较好的解 决服从多变量正态分布的异常点识别问题,但是在实 际工业生产过程中,尤其对于冶金和化工这类复杂流 程工业,生产数据中往往存在非线性特征,数据分布在 软性的超球体内,即超球体的边界是一组复杂的超曲 面. 对于这类复杂的数据结构,采用传统的超椭球边 界的方法来判别异常点会造成大量的误判. 本文针对 工业生产中常见的这类非线性数据结构,引入了软超 球体的概念,通过非线性核函数将原始数据映射到高 维的特征空间中,并在特征空间中来确定软超球体的 边界,解决复杂数据的异常点检测难题. 通过某类汽 车用钢制造过程中的工业应用实例证明了新方法的有 效性. 1 异常点检测方法 异常点检测方法主要是通过实际生产数据来确定 过程参数可控区的边界,也称为单一类的分类问题[8] . 下面分别从硬超球体、线性软超球体和非线性软超球 体三个方面来讨论单一类的分类问题. 1郾 1 硬超球体 假设给定一个数据集 S = { x1 ,x2 ,…,xn },其中 xi 为 p 维的数据向量,需确定该数据集的边界,即求解包 含该数据集的最小封闭超球体. 数据集中的每个样本 点与超椭球体的中心 C 的距离均应小于球体的半径 r,如图 1 所示. 图 1 最小封闭超球体示意图 Fig. 1 Minimum hyper鄄sphere diagram 最小封闭超球体可以转化为如下的优化问题 min C,r r 2 . (1) 约束条件为: 椰xi - C椰2 = (xi - C) T (xi - C)臆r 2 , i = 1,2,…,n. 对上式的约束条件附加拉格朗日乘子 琢i逸0,对 应的拉格朗日函数为 L(C,r,琢) = r 2 + 移 n i = 1 琢i[(xi - C) 2 - r 2 ]. (2) 分别对 C 和 r 求偏导且令导数值为 0,求得优化 解. 最终可以得到: 移 n i = 1 琢ixi = C, 移 n i = 1 琢i = 1. 由于 移 n i = 1 琢i r 2 = r 2 ,式(2)也可以表示为另一种形式[8鄄鄄9] : L(C,r,琢) = r 2 + 移 n i = 1 琢i[(xi - C) 2 - r 2 ] = 移 n i = 1 琢i(xi - C) 2 = 移 n i = 1 琢i资(xi,xi) - 移 n i = 1 移 n j = 1 琢i琢j资(xi,xj). (3) 其中, 资 ( xi, xj ) 表 示 变 量 的 内 积, 令 棕 ( 琢 ) = 移 n i = 1 琢i资(xi,xi) - 移 n i = 1 移 n j = 1 琢i琢j资( xi,xj ),式(2) 转化为 求下面优化解 max 琢 棕(琢), 移 n i = 1 琢i = 1, 琢i逸0, i = 1,2,…,n. (4) 由式(4)可以求得最小超球体的半径 r 和球心 C, ·1553·
·1554· 工程科学学报,第39卷,第10期 r=√a(a), 在控制半径最大化与控制松弛变量之间做出权衡.常 C点 数A的选择与第一类错误和第二类错误有关[],通常 (5) A可以取0.1或0.05. 其中,α是由式(4)求得的最优解 同样,引入拉格朗日乘子a≥0,B≥0,对应的拉 对待测的检测点x,可以由下式来判断该检测点 格朗日函数为 是否正常 )=H[k(x,)-2axx,)+D] (Ca,)=+45-2B+ 含[I-C-- (8) (6) 分别对式(8)求C,「,:的偏导,且令导数值为0, 其中,H(x)表示Heaviside函数.当k(x,r)- 求得下面的优化解 2三心)+]小>0,)=1,则该检测点被 ⊙(C,.a2=2a,(x,-C)=0, ac 判为异常点 pCga且=2-三u)=0,o) 1.2线性软超球体 上面所讨论的最小封闭超球体实质上是一种硬球 8L(C,&,2=A-a,-B=0. 0: 体,球体的最小半径为离球心最远的样本点的距离. 这意味着,如果样本中有少数样本点偏离了其他样本, 从面得到三=C, 0=1A=4-a30,a≤ 球体的最小半径将会扩大.这时异常点的检测存在一 A把这些约束条件代入式(8),有 定的风险,即:扩大球体的最小半径会将异常点判为正 常点,如图2所示.在实际工业生产中,由于异常点 以c,a-+4gi+会a[l-cI- 与正常点的部分边界有可能是交叉重叠的,因此需 要考虑允许有少数正常的样本点被划在边界外.通 户--豆陆=三ax-C-c= 常,将包含绝大部分样本点的封闭超球体称为封闭 ,(10) 软超球体9-o],它是在硬球体的基础上对边界作了松 含a()-名aa 弛处理. 同样,令a(a)=豆a)-名三a4( Feature 2 x),式(7)转化为求下面优化解 △表示异常点 X表示可控点 maxo(a), X XX XX ∑a=l,0≤a,≤A=l/m,y=1/hn XX Feature 1 lξ川,= 5,i=12,…,m (11) 由式(11)可以求得最小超球体的半径r和球心C 图2扩大球体的最小半径会将异常点判为正常点 Fig.2 Outliers are regarded as normal samples when the minimum r= radius of the hyper-sphere increases 7 K(xix)- 之x(xx)+】 aiak(x), 封闭软超球体的求解过程与式(2)相似,引入松 台 弛变量 cgo (12) 专=忘(C,r,x)=(Ix-C2-r2), 其中a是由式(11)求得的最优解 封闭软超球体的优化解为 对待检测的样本点x,可以由下式来判断该检测 minr+A‖ξl (7) 点是否正常 约束条件为: Ix,-C‖2=(x:-C)(x,-C)≤2+专, )=(-2宫g+D小 5≥0,i=1,2,…,n. D= 中,=∑,式(7)中的4为一常数,其值 ()) 其中,y为惩罚因子.当f(x)=1,则该检测点被判为
工程科学学报,第 39 卷,第 10 期 r = 棕(琢 * ), C = 移 n i = 1 琢 * i xi . (5) 其中,琢 * i 是由式(4)求得的最优解. 对待测的检测点 x,可以由下式来判断该检测点 是否正常 f(x) = H [ 资(x,x) - 2 移 n i = 1 琢 * i 资(x,xi) + D ] , D = 移 n i = 1 移 n j = 1 琢 * i 琢 * j 资(xi,xj) - r 2 . (6) 其中, H ( x ) 表 示 Heaviside 函 数. 当 [ 资 ( x, x ) - 2 移 n i = 1 琢 * i 资(x,xi) + D ] > 0 , f( x) = 1,则该检测点被 判为异常点. 1郾 2 线性软超球体 上面所讨论的最小封闭超球体实质上是一种硬球 体,球体的最小半径为离球心最远的样本点的距离. 这意味着,如果样本中有少数样本点偏离了其他样本, 球体的最小半径将会扩大. 这时异常点的检测存在一 定的风险,即:扩大球体的最小半径会将异常点判为正 常点,如图 2 所示. 在实际工业生产中,由于异常点 与正常点的部分边界有可能是交叉重叠的,因此需 要考虑允许有少数正常的样本点被划在边界外. 通 常,将包含绝大部分样本点的封闭超球体称为封闭 软超球体[9鄄鄄10] ,它是在硬球体的基础上对边界作了松 弛处理. 图 2 扩大球体的最小半径会将异常点判为正常点 Fig. 2 Outliers are regarded as normal samples when the minimum radius of the hyper鄄sphere increases 封闭软超球体的求解过程与式(2) 相似,引入松 弛变量 孜i = 孜i(C,r,xi) = (椰xi - C椰2 - r 2 ) + . 封闭软超球体的优化解为 min C,r,孜 r 2 + A 椰孜椰1 . (7) 约束条件为: 椰xi - C椰2 = (xi - C) T (xi - C)臆r 2 + 孜i, 孜i逸0, i = 1,2,…,n. 其中椰孜椰1 = 移 n i = 1 孜i,式(7) 中的 A 为一常数,其值需 在控制半径最大化与控制松弛变量之间做出权衡. 常 数 A 的选择与第一类错误和第二类错误有关[5] ,通常 A 可以取 0郾 1 或 0郾 05. 同样,引入拉格朗日乘子 琢i逸0, 茁i逸0,对应的拉 格朗日函数为 L(C,r,琢,孜) = r 2 + A 移 n i = 1 孜i - 移 n i = 1 茁i 孜i + 移 n i = 1 琢i[椰xi - C椰2 - r 2 - 孜i]. (8) 分别对式(8)求 C,r,孜i 的偏导,且令导数值为 0, 求得下面的优化解 鄣 L(C,r,琢,孜) 鄣 C = 2移 n i = 1 琢i(xi - C) = 0, 鄣 L(C,r,琢,孜) 鄣 r = 2r ( 1 - 移 n i = 1 琢i ) = 0, 鄣 L(C,r,琢,孜) 鄣 孜i = A - 琢i - 茁i = 0 ì î í ï ï ï ï ï ï . (9) 从而得到 移 n i = 1 琢ixi = C, 移 n i = 1 琢i = 1,茁i = A - 琢i逸0,琢i臆 A 把这些约束条件代入式(8),有 L(C,r,琢,孜) = r 2 + A 移 n i = 1 孜i + 移 n i = 1 琢i[椰xi - C椰2 - r 2 - 孜i] - 移 n i = 1 茁i 孜i = 移 n i = 1 琢i掖xi - C,xi - C业 = 移 n i = 1 琢i资(xi,xi) - 移 n i,j = 1 琢i琢j资(xi,xj). (10) 同样,令 棕( 琢) = 移 n i = 1 琢i资( xi,xi ) - 移 n i = 1 移 n j = 1 琢i琢j资( xi, xj),式(7)转化为求下面优化解 max 琢 棕(琢), 移 n i = 1 琢i = 1, 0 臆 琢i 臆 A = 1 / 酌n,酌 = 1 / An, 椰孜椰1 = 移 n i = 1 孜i, i = 1,2,…,n. (11) 由式(11)可以求得最小超球体的半径 r 和球心 C r = 资(xi,xi) - 移 n i =1 琢 * i 资(xi,xj) + 移 n i =1 移 n j =1 琢 * i 琢 * j 资(xi,xj) , C = 移 n i = 1 琢 * i xi . (12) 其中 琢 * i 是由式(11)求得的最优解. 对待检测的样本点 x,可以由下式来判断该检测 点是否正常 f(x) = H [ 资(x,x) - 2 移 n i = 1 琢 * i 资(x,xi) + D ] , D = 移 n i = 1 移 n j = 1 琢 * i 琢 * j 资(xi,xj) - r 2 - 酌. (13) 其中,酌 为惩罚因子. 当 f( x) = 1,则该检测点被判为 ·1554·
徐钢等:基于软超球体的高维非线性数据异常点识别算法 ·1555· 异常点 差别主要是选择线性核函数还是非线性核函数,而求 1.3非线性软超球体 解的过程与第二节所讨论的方法是一致的 前面所讨论的方法属于线性的映射方法.当数据 常用的核函数有: 集中存在非线性的复杂边界时,这种线性的表达形式 (1)线性核函数. 对于非线性的数据结构会造成大量的误判,如图3所 k(x,z)=xz. (17) 示.下面讨论非线性的数据结构的封闭超球体求解 (2)多项式核函数. 方法. k(x,z)=(x'z+c)4 (18) Feature2◆ 其中,c和d均为常数 △表示异常点 X表示可控点 (3)高斯核函数(径向基核函数) k(x,z)=exp ‖x-z川2 (19) Feature 1 其中,0为大于0的常数 (4)Sigmoid(S形的)核函数. k(x,z)=tanh (Box'z+B). (20) 其中,B。>0,B,<0为常数. 图3对于非线性的数据可能造成误判 实际上,高斯核(也称为径向基函数)是高次级数 Fig.3 Nonlinear data may result in erroneous judgment 展开的极限形式,因此这类核函数能更精确地表达复 杂非线性的数据结构.当核参数σ取较大值时,高次 设X是一个R的紧凑子集,k(x,z)是X×X上的 项会迅速衰减:当核参数σ取较小值时,高次项的影 一个连续的实值对称函数.如果存在一个从原始X空 响将更加突出,但容易造成过拟合.原则上可以通过 间到高维特征空间F的映射中:x→中(x),对所有Vx, 第一类错误率和第二类错误率来检验取值是否合理. z∈X都有 在实际工业生产中,由于过程参数间的多重耦合 k(x,z)=〈(x),(z)〉=中(x)T(z).(14) 关系,不可避免的存在非线性现象2-],因此处理这 则称k(x,z)为定义在X×X上的核函数 类复杂数据结构需要采用非线性封闭超球体的边界确 根据Mercer定理,如果核矩阵K是一个半正定矩 定方法.该方法的核心思路是:借助高斯核的非线性 阵,则k(x,z)=((x),(z)》是一个有效核,因而 映射方法,将原始空间的样本点映射到高维特征空间 核函数k(x,z)等价于高维特征空间中映射点中(x)和 中,通过计算映射到特征空间中的样本点间的内积,构 (z)的内积这意味着,可以通过非线性核函数将原 建核矩阵,并由式(12)和式(13)分别来确定数据的边 始空间上的数据集映射到高维的特征空间中,采用映 界及检验新的检测点是否异常.需要说明的是,在计 射点(x)和中(z)的内积(对偶形式)来求解非线性 算核矩阵的每个元素值时,实际上并不需要知道样本 情况下的封闭超球体.根据式(7)的方式来建立特征 点映射到特征空间中的具体数值大小,而是将原始空 空间中封闭超球体的优化解. 间中的样本点代入到核函数中直接计算即可得到. inr+Al专l. 图4给出了核参数σ取不同值时2维数据的边界 约束条件为: 限,其中椭圆边界的σ值为50(即线性核,表示用传统 ‖(x:)-C‖2=((x)-C)((x)-C)≤r2+ 的方法所确定的硬球体边界):而曲线边界的σ值为 5≥0,i=1,2,…,n (15) 3,表示非线性软球体.从中可以看出,椭圆边界为线 拉格朗日函数为 性核的边界,而曲线边界为非线性软边界 L(C,r,a,)=2+A∑东+ 2基于支持向量的封闭超球体 三a[I)-CI2--1-2B= 实际上,前面讨论的超球体内的多数样本点所对 应的a=0,仅在边界附近的点α,>0.这意味着,实际 ∑a,(x)-C,(x,)-C)= 应用中只需边界附近α:>0的点作为异常点的判别依 ∑K(x,x)-∑aaK(x) 据.这些位于边界的点称为支持向量(support vector). (16) 由支持向量所确定的边界在本质上与前面讨论的非线 上式与式(10)不同之处在于,式(10)是采用线性 性超球体的边界是相同的,不同之处在于异常点的识 核函数,因而只能解决简单边界问题.而式(16)采用 别时只需考虑少数几个与支持向量相对应的样本点x 的是非线性核函数来解决复杂非线性边界问题.两者 和α·因此,支持向量简化了异常点的识别过程,提高
徐 钢等: 基于软超球体的高维非线性数据异常点识别算法 异常点. 1郾 3 非线性软超球体 前面所讨论的方法属于线性的映射方法. 当数据 集中存在非线性的复杂边界时,这种线性的表达形式 对于非线性的数据结构会造成大量的误判,如图 3 所 示. 下面讨论非线性的数据结构的封闭超球体求解 方法. 图 3 对于非线性的数据可能造成误判 Fig. 3 Nonlinear data may result in erroneous judgment 设 X 是一个 R p 的紧凑子集,k(x,z)是 X 伊 X 上的 一个连续的实值对称函数. 如果存在一个从原始 X 空 间到高维特征空间 F 的映射 准:x寅准(x),对所有坌x, z沂X 都有 k(x,z) = 掖准(x),准(z)业 = 准 (x) T准(z). (14) 则称 k(x,z)为定义在 X 伊 X 上的核函数. 根据 Mercer 定理,如果核矩阵 K 是一个半正定矩 阵,则 k(x,z) = 掖准(x),准(z)业是一个有效核[11] ,因而 核函数 k(x,z)等价于高维特征空间中映射点 准( x)和 准(z)的内积. 这意味着,可以通过非线性核函数将原 始空间上的数据集映射到高维的特征空间中,采用映 射点 准(x)和 准( z)的内积(对偶形式)来求解非线性 情况下的封闭超球体. 根据式(7)的方式来建立特征 空间中封闭超球体的优化解. min C,r,孜 r 2 + A 椰孜椰1 . 约束条件为: 椰准(xi) - C椰2 = (准(xi) - C) T (准(xi) - C)臆r 2 + 孜i 孜i逸0, i = 1,2,…,n. (15) 拉格朗日函数为 L(C,r,琢,孜) = r 2 + A 移 n i = 1 孜i + 移 n i = 1 琢i[椰准(xi) - C椰2 - r 2 - 孜i] - 移 n i = 1 茁i 孜i = 移 n i = 1 琢i掖准(xi) - C,准(xi) - C业 = 移 n i = 1 琢i资(xi,xi) - 移 n i,j = 1 琢i琢j资(xi,xj). (16) 上式与式(10)不同之处在于,式(10)是采用线性 核函数,因而只能解决简单边界问题. 而式(16)采用 的是非线性核函数来解决复杂非线性边界问题. 两者 差别主要是选择线性核函数还是非线性核函数,而求 解的过程与第二节所讨论的方法是一致的. 常用的核函数有: (1)线性核函数. k(x,z) = x T z. (17) (2)多项式核函数. k(x,z) = (x T z + c) d . (18) 其中,c 和 d 均为常数. (3)高斯核函数(径向基核函数). k(x,z) = exp ( - 椰x - z椰2 ) 滓 . (19) 其中,滓 为大于 0 的常数. (4)Sigmoid(S 形的)核函数. k(x,z) = tanh (茁0 x T z + 茁1 ). (20) 其中,茁0 > 0,茁1 < 0 为常数. 实际上,高斯核(也称为径向基函数)是高次级数 展开的极限形式,因此这类核函数能更精确地表达复 杂非线性的数据结构. 当核参数 滓 取较大值时,高次 项会迅速衰减;当核参数 滓 取较小值时,高次项的影 响将更加突出,但容易造成过拟合. 原则上可以通过 第一类错误率和第二类错误率来检验取值是否合理. 在实际工业生产中,由于过程参数间的多重耦合 关系,不可避免的存在非线性现象[12鄄鄄13] ,因此处理这 类复杂数据结构需要采用非线性封闭超球体的边界确 定方法. 该方法的核心思路是:借助高斯核的非线性 映射方法,将原始空间的样本点映射到高维特征空间 中,通过计算映射到特征空间中的样本点间的内积,构 建核矩阵,并由式(12)和式(13)分别来确定数据的边 界及检验新的检测点是否异常. 需要说明的是,在计 算核矩阵的每个元素值时,实际上并不需要知道样本 点映射到特征空间中的具体数值大小,而是将原始空 间中的样本点代入到核函数中直接计算即可得到. 图 4 给出了核参数 滓 取不同值时 2 维数据的边界 限,其中椭圆边界的 滓 值为 50(即线性核,表示用传统 的方法所确定的硬球体边界);而曲线边界的 滓 值为 3,表示非线性软球体. 从中可以看出,椭圆边界为线 性核的边界,而曲线边界为非线性软边界. 2 基于支持向量的封闭超球体 实际上,前面讨论的超球体内的多数样本点所对 应的 琢i = 0,仅在边界附近的点 琢i > 0. 这意味着,实际 应用中只需边界附近 琢i > 0 的点作为异常点的判别依 据. 这些位于边界的点称为支持向量(support vector). 由支持向量所确定的边界在本质上与前面讨论的非线 性超球体的边界是相同的,不同之处在于异常点的识 别时只需考虑少数几个与支持向量相对应的样本点 xi 和 琢i . 因此,支持向量简化了异常点的识别过程,提高 ·1555·
·1556· 工程科学学报,第39卷,第10期 香蕉数据集 确定训练数据集 选定核参数o和参数v 寻找如下优化问题的解 goia∑ak,时∑ag, t立ea10sa< -2 0 2468 选择,使得0ka<品 X 计算出超球体半径r、球心C: 图4核参数σ取不同值时2维数据的边界限 ey-2on2og9 Fig.4 Boundary of two-dimensional data with different kemel values C) 了在线识别系统的实时性.基于支持向量的异常点检 测方法为 输人待检测样本,求得判别结果 =lkx-2会ai)+D小 f国=.-2∑a#立au-y D= 宫宫%)-f-y2) f(x)=1 否 过程异常 其中,x表示待检测点,g表示支持向量的个数,x表 是 示支持向量,α表示支持向量对应的权重系数.实际 过程正常 上,在判别式(21)中与待检测点x有关的项只有 图5基于支持向量的异常点检测流程图 ∑a广K(x,),从高斯核函数的定义k(x,x)=l, Fig.5 Flowchart of outlier detection based on the support vector 余的其他项都是根据历史数据集求得的常量.基于支 原始数据库 持向量的异常点检测方法的流程图如图5所示 在实际工业应用中,可以通过采集满足质量要求 的样本集作为历史数据,按照前面讨论的方法确定非 线性软超球体的边界,并从中选择出支持向量x和 对应的权重系数a.通过判别函数可以在线判断待 检测样本点是否为异常点,一旦发现过程参数的设定 值超出了边界,系统将给予警示,从而避免发生批量的 产品质量判废 0 3应用实例分析 Feature 1 图62维仿真数据的分布图及软边界 为了验证基于软边界的异常点检验方法的有效 Fig.6 Distribution graph and soft boundary of two-dimensional simu- 性,分别对2维仿真数据和实际工业数据进行分析与 lation data 验证.图6表示从2维仿真数据得到的50个样本点的 性,从实际生产数据中采集F钢中不同等级汽车板在 分布图,采用基于支持向量的封闭超球体方法对样本 各生产工序中的15个主要工艺参数,包括钢中主要成 进行边界划定,参数σ值为3,A取值0.1,支持向量的 分、热轧、冷轧和退火过程中关键工艺参数.主要工艺 个数为6.通过式(21)计算结果发现:有4个点的 参数名称及统计量如表1如示. (x)=1,这些点被判为异常点,在图6中可以看出这 通过采集F汽车用钢中3个主要系列钢种 4个点在边界线外部.通过上面仿真数据可以证明采 DC03、DC04和DC05的实际生产数据作为历史数据 用核函数的非线性软边界确定方法能较好的处理复杂 集,并采用基于核函数的非线性软边界确定方法求得 边界问题 支持向量x,和对应的权重系数α,最小超球体半径 但在实际工业应用中,过程数据中通常具有高维、 r,且遴选出36个支持向量.然后,按照图5所示的流 强耦合、非线性等特征.为了验证所提出方法的有效 程,分别从炼钢、热轧、冷轧和退火工序中采集待检测
工程科学学报,第 39 卷,第 10 期 图 4 核参数 滓 取不同值时 2 维数据的边界限 Fig. 4 Boundary of two鄄dimensional data with different kernel values 了在线识别系统的实时性. 基于支持向量的异常点检 测方法为 f(x) = H [ 资(x,x) - 2 移 q i = 1 琢 * i 资(x,x * i ) + D ] , D = 移 q i = 1 移 q j = 1 琢 * i 琢 * j 资(x * i ,x * j ) - r 2 - 酌. (21) 其中,x 表示待检测点,q 表示支持向量的个数,x * i 表 示支持向量,琢 * i 表示支持向量对应的权重系数. 实际 上,在判别式 ( 21 ) 中与待检测点 x 有关的项只有 移 q i = 1 琢 * i 资(x,x * i ),从高斯核函数的定义 资( x,x) = 1,剩 余的其他项都是根据历史数据集求得的常量. 基于支 持向量的异常点检测方法的流程图如图 5 所示. 在实际工业应用中,可以通过采集满足质量要求 的样本集作为历史数据,按照前面讨论的方法确定非 线性软超球体的边界,并从中选择出支持向量 x * i 和 对应的权重系数 琢 * i . 通过判别函数可以在线判断待 检测样本点是否为异常点,一旦发现过程参数的设定 值超出了边界,系统将给予警示,从而避免发生批量的 产品质量判废. 3 应用实例分析 为了验证基于软边界的异常点检验方法的有效 性,分别对 2 维仿真数据和实际工业数据进行分析与 验证. 图6 表示从2 维仿真数据得到的50 个样本点的 分布图,采用基于支持向量的封闭超球体方法对样本 进行边界划定,参数 滓 值为 3,A 取值 0郾 1,支持向量的 个数为 6. 通过式(21) 计算结果发现:有 4 个点的 f(x) = 1,这些点被判为异常点,在图 6 中可以看出这 4 个点在边界线外部. 通过上面仿真数据可以证明采 用核函数的非线性软边界确定方法能较好的处理复杂 边界问题. 但在实际工业应用中,过程数据中通常具有高维、 强耦合、非线性等特征. 为了验证所提出方法的有效 图 5 基于支持向量的异常点检测流程图 Fig. 5 Flowchart of outlier detection based on the support vector 图 6 2 维仿真数据的分布图及软边界 Fig. 6 Distribution graph and soft boundary of two鄄dimensional simu鄄 lation data 性,从实际生产数据中采集 IF 钢中不同等级汽车板在 各生产工序中的 15 个主要工艺参数,包括钢中主要成 分、热轧、冷轧和退火过程中关键工艺参数. 主要工艺 参数名称及统计量如表 1 如示. 通过采 集 IF 汽 车 用 钢 中 3 个 主 要 系 列 钢 种 DC03、DC04 和 DC05 的实际生产数据作为历史数据 集,并采用基于核函数的非线性软边界确定方法求得 支持向量 x * i 和对应的权重系数 琢 * i ,最小超球体半径 r,且遴选出 36 个支持向量. 然后,按照图 5 所示的流 程,分别从炼钢、热轧、冷轧和退火工序中采集待检测 ·1556·