《工程科学学报》录用稿,https://doi.org/10.13374/i,issn2095-9389.2021.05.08.002©北京科技大学2020 工程科学学报DO: 机器学习在深冲钢质量自动判级中的应用 徐钢)2区,黎敏),徐金梧) 1)北京科技大学钢铁共性技术协同创新中心,北京1000832)苏州宝联重工有限公司,江苏苏州215131 ☒通信作者,E-mail:watermoon999@126.com 摘要在流程工业中,生产过程需根据客户对产品质量要求进行判级,以满足客户提出的产品量需求。目前,企 业主要采用“事后”抽检方式,但因无法对所有产品实现在线自动判级,常发生索赔和退货,导致我国钢铁企业每 年近100亿元损失。为了实现产品质量在线自动判级,提出基于高维数据非线性同等缩放与核简支集类边界确定相 结合的质量在线智能判级方法。首先,将高维的工艺参数通过非线性同等缩放算法变换城低维的数据集,并对缩放 后数据集进行聚类,分析工艺参数的类分布特征。然后,根据分类后样本的质量指标值分布,采用核简支集类边界 算法来确定不同产品质量级别的类边界。最后,依据已确定的类边界, 通过质量指标预测实现产品在线判级。通过深 冲钢(F钢)应用实例,证实该方法在训练阶段的在线自动判级准确率达到97.2%, 测试阶段的准确率为96%。 关键词机器学习:信息物理系统:深冲钢:产品质量:自动判级 分类号TP274 Application of Machine Learning inAutomatic Discrimination of Product Quality of Deep Drawn Steel XU Gang LI Min,XUJinwu 1)Collaborative Innovation Center of Steel Technology,University of Science and Technology Beijing,Beijing 100083,China 2)Suzhou Baolian Heavy Industry Co.Suzhod 215131.China Corresponding author,E-mail:watermoon 126.com ABSTRACT In process ies.the discrimination of final product quality must be implemented in manufacturing process.At present,the main method is "after spot test ward",but the method is no possibility to realize on-line automatic discrimination for all products thus often leading to customers'returned purchase and claims about the product quality,and annual economic loss of 10 billion Yuan in Chinese steel enterprises.To realize on-line automatic discrimination for all products,the on-ine preduct quality automatic discrimination method based on machine learning is proposed in this paper. Firstly,through the honlinear multi-dimensional parity scaling(MDPS),multi-dimensional process parameters are mapped into low-dimensional data set and the data set is clustered,and the distribution feature in the data set is analyzed.Then,the quality index values with the class labels determined by process parameter clustering are transformed into the low- dimensional map,and the diverse class margins are determined by means of support vector machine(SVM)with L2-soft margin.To simplify the class boundary,the method of kernel reduced set is used to reduce the number of support vectors and the actual class margins are determined by the reduced set.Finally,the quality indexes are predicted by means of machine learning algorithms,such as BPN(Back-Propagation Network)LSTM (Long Short-Team Memory)KPLS(Kernel Partial Least Squares).KNN(K-Nearest Neighbors)and the on-line automatic discrimination of product quality is realized through 收清日期: 盒演自:“十三五”国家科技支撑计划资助项目(2015BAF30B01)
工程科学学报 DOI: 机器学习在深冲钢质量自动判级中的应用1 徐 钢 1) 2),黎 敏 1) ,徐金梧 1) 1) 北京科技大学钢铁共性技术协同创新中心,北京 100083 2) 苏州宝联重工有限公司, 江苏苏州 215131 通信作者,E-mail: watermoon999@126.com 摘 要 在流程工业中,生产过程需根据客户对产品质量要求进行判级,以满足客户提出的产品质量需求。目前,企 业主要采用“事后”抽检方式,但因无法对所有产品实现在线自动判级,常发生索赔和退货,导致我国钢铁企业每 年近 100 亿元损失。为了实现产品质量在线自动判级,提出基于高维数据非线性同等缩放与核简支集类边界确定相 结合的质量在线智能判级方法。首先,将高维的工艺参数通过非线性同等缩放算法变换成低维的数据集,并对缩放 后数据集进行聚类,分析工艺参数的类分布特征。然后,根据分类后样本的质量指标值分布,采用核简支集类边界 算法来确定不同产品质量级别的类边界。最后,依据已确定的类边界,通过质量指标预测实现产品在线判级。通过深 冲钢(IF 钢)应用实例,证实该方法在训练阶段的在线自动判级准确率达到 97.2%,测试阶段的准确率为 96%。 关键词 机器学习;信息物理系统;深冲钢;产品质量;自动判级; 分类号 TP274 Application of Machine Learning in Automatic Discrimination of Product Quality of Deep Drawn Steel XU Gang1) , LI Min1) , XU Jinwu1) 1) Collaborative Innovation Center of Steel Technology, University of Science and Technology Beijing, Beijing 100083, China 2) Suzhou Baolian Heavy Industry Co. Suzhou, 215131, China Corresponding author, E-mail: watermoon999@126.com ABSTRACT In process industries, the discrimination of final product quality must be implemented in manufacturing process. At present, the main method is “after spot test ward”, but the method is no possibility to realize on-line automatic discrimination for all products, thus often leading to customers’ returned purchase and claims about the product quality, and annual economic loss of 10 billion Yuan in Chinese steel enterprises. To realize on-line automatic discrimination for all products, the on-line product quality automatic discrimination method based on machine learning is proposed in this paper. Firstly, through the nonlinear multi-dimensional parity scaling(MDPS), multi-dimensional process parameters are mapped into low-dimensional data set and the data set is clustered, and the distribution feature in the data set is analyzed. Then, the quality index values with the class labels determined by process parameter clustering are transformed into the lowdimensional map, and the diverse class margins are determined by means of support vector machine(SVM) with L2-soft margin. To simplify the class boundary, the method of kernel reduced set is used to reduce the number of support vectors and the actual class margins are determined by the reduced set. Finally, the quality indexes are predicted by means of machine learning algorithms, such as BPN(Back-Propagation Network)、LSTM(Long Short-Team Memory)、KPLS(Kernel Partial Least Squares)、KNN(K-Nearest Neighbors) and the on-line automatic discrimination of product quality is realized through 1收稿日期: 基金项目:“十三五”国家科技支撑计划资助项目(2015BAF30B01) 《工程科学学报》录用稿,https://doi.org/10.13374/j.issn2095-9389.2021.05.08.002 ©北京科技大学 2020 录用稿件,非最终出版稿
the determined class margins and the predicted values of quality indexes.The industrial production data of Interstitial-Free (IF)steel is used to demonstrate that the accuracy of the on-line automatic discrimination of steel types is up to 97%in training stage,and up to 96%in testing stage KEY WORDS Machine Learning:Cyber-physical system;Deep drawn steel Product Quality:Automatically Discrimination 流程工业,如治金、化工等工业领域,产品在制造过程中涉及多个连续衔接的工序,为了确保 成品的最终质量,要求每道工序的工艺参数设定在工艺规范所确定的区间内。目前,企业对产品质 量管控的主要手段是通过制订合适的工艺规范,并采用“事后”抽样检测方式来判定产品的品质。 但是,这种依赖于生产经验制订的工艺规范及“事后”抽检的方式容易出现批量的产品质量判废, 或导致用户由于质量异议提出索赔和退货。中国钢铁企业每年仅质量判废和质量异议所造成的经济 损失近百亿元。因此,如何利用大数据分析和人工智能方法,实现产品质量在线动判级,提高产 品质量可靠性是当前企业亟待解决的关键问题。 以大数据分析、人工智能、物联网+、云计算为代表的新一代信息心技术已经成为企业突破增长 极限、保持稳定发展的重要途径。随着“工业4.0”时代的来临,制造技术正逐步从自动化、数字 化、网络化向智能化方向发展。作为工业4.0的重要策略一信息物理系统(Cyber-Physical System, CPS),由于其具有自主判断、自主决策、自主调控的能力,将CPS的核心技术一数字李生模型, 应用于流程工业的智能制造引起了业内的高度关注6-1。如何从海量的高维数据中提取出有价值的信 息和知识是目前机器学习、人工智能、大数据分析、数字攀生模型等主要研究课题。 由于工业生产数据中往往具有多元、强耦合、非线性的特征,因此在建立产品质量数字李生模型 时存在一些问题2)。本质上,产品质量数字李生模型是建立工艺装备所设定的工艺参数与产品质 量指标之间的对应关系4(,并根据各工序的实际艺参数值来预测产品质量指标区间,实现产品 质量在线智能判级和质量持续优化。目前、生要采用多元回归模型来建立质量预测模型,包括 偏最小二乘法、神经元网络等回归方法。近年来,机器学习方法已广泛应用于材料加工和材料研发领 域P-2刘。卷积神经网络(CNN)、循环神经网络(RNN)和图神经网络(GNN)等深度学习方法也 用于材料研发和工业应用s2。 针对钢铁企业在产品质量在线自动判级中存在的问题,提出了基于高维数据非线性同等缩放与 核简支集类边界计算相结合的机器学习方法,实现大类钢种的质量在线智能分类和自动判级。通过 F钢中三类钢种的样本数据进标验证结果分析,证实方法的有效性和实时性。 1质量在线智能判级方法 质量在线智能判级方法是通过建立工艺参数与质量指标间的数字孪生模型,实现质量在线智能 判级。主要包括3个部分:1)从实际生产线上,收集不同类别样本的工艺参数及对应的质量指标数 据,并对训练本的工艺参数进行聚类,形成低维的聚类映射图:2)对不同工艺参数类所对应的 质量指标进行分类确定类边界并验证分类的准确性,然后建立工艺参数与质量指标间的数字孪生 模型:3)通过李生模型将待判级样本的工艺参数映射到已建立的低维聚类图中,寻找若干邻近点 的类别和预测的质量指标值来确定待检样本的所属类,实现产品质量的在线智能判级。 1.1非线性同等缩放的廉类算法 在实际生产数据中,工艺参数、质量指标间往往存在多重耦合,变量间的非线性特征不可避免。 近来年,基于核方法的非线性模式分析算法受到关注。核方法是通过非线性核函数来表示数据内在 的非线性结构特征,其中高斯核是核函数中最常用的表达形式。为了揭示高维数据中内在的非线性 低维的潜在结构,需要在高维数据空间中嵌入一个低维的子空间,并将样本数据映射到低维子空间 来观察数据内在的结构特征,这种方法也称为数据可视化6,2。数据可视化的目的是通过高维数据的
the determined class margins and the predicted values of quality indexes. The industrial production data of Interstitial-Free (IF) steel is used to demonstrate that the accuracy of the on-line automatic discrimination of steel types is up to 97% in training stage, and up to 96% in testing stage. KEY WORDS Machine Learning; Cyber-physical system; Deep drawn steel ; Product Quality; Automatically Discrimination ; 流程工业,如冶金、化工等工业领域,产品在制造过程中涉及多个连续衔接的工序,为了确保 成品的最终质量,要求每道工序的工艺参数设定在工艺规范所确定的区间内。目前,企业对产品质 量管控的主要手段是通过制订合适的工艺规范,并采用“事后”抽样检测方式来判定产品的品质。 但是,这种依赖于生产经验制订的工艺规范及“事后”抽检的方式容易出现批量的产品质量判废, 或导致用户由于质量异议提出索赔和退货。中国钢铁企业每年仅质量判废和质量异议所造成的经济 损失近百亿元。因此,如何利用大数据分析和人工智能方法,实现产品质量在线自动判级,提高产 品质量可靠性是当前企业亟待解决的关键问题。 以大数据分析、人工智能、物联网+、云计算为代表的新一代信息化技术已经成为企业突破增长 极限、保持稳定发展的重要途径[1-2]。随着“工业 4.0”时代的来临,制造技术正逐步从自动化、数字 化、网络化向智能化方向发展。作为工业 4.0 的重要策略—信息物理系统(Cyber-Physical System, CPS)[3-5],由于其具有自主判断、自主决策、自主调控的能力,将 CPS 的核心技术—数字孪生模型, 应用于流程工业的智能制造引起了业内的高度关注[6-8]。如何从海量的高维数据中提取出有价值的信 息和知识是目前机器学习、人工智能、大数据分析、数字孪生模型等主要研究课题[9-11]。 由于工业生产数据中往往具有多元、强耦合、非线性的特征,因此在建立产品质量数字孪生模型 时存在一些问题[12-13]。本质上,产品质量数字孪生模型是建立工艺装备所设定的工艺参数与产品质 量指标之间的对应关系[14-16],并根据各工序的实际工艺参数值来预测产品质量指标区间,实现产品 质量在线智能判级和质量持续优化[17-19]。目前,主要采用多元回归模型来建立质量预测模型,包括 偏最小二乘法、神经元网络等回归方法。近年来,机器学习方法已广泛应用于材料加工和材料研发领 域[20-24]。卷积神经网络(CNN)、循环神经网络(RNN)和图神经网络(GNN)等深度学习方法也 用于材料研发和工业应用[25-28]。 针对钢铁企业在产品质量在线自动判级中存在的问题,提出了基于高维数据非线性同等缩放与 核简支集类边界计算相结合的机器学习方法,实现大类钢种的质量在线智能分类和自动判级。通过 IF 钢中三类钢种的样本数据进行验证结果分析,证实方法的有效性和实时性。 1 质量在线智能判级方法 质量在线智能判级方法是通过建立工艺参数与质量指标间的数字孪生模型,实现质量在线智能 判级。主要包括 3 个部分:1)从实际生产线上,收集不同类别样本的工艺参数及对应的质量指标数 据,并对训练样本的工艺参数进行聚类,形成低维的聚类映射图;2)对不同工艺参数类所对应的 质量指标进行分类,确定类边界并验证分类的准确性,然后建立工艺参数与质量指标间的数字孪生 模型;3)通过孪生模型将待判级样本的工艺参数映射到已建立的低维聚类图中,寻找若干邻近点 的类别和预测的质量指标值来确定待检样本的所属类,实现产品质量的在线智能判级。 1.1 非线性同等缩放的聚类算法 在实际生产数据中,工艺参数、质量指标间往往存在多重耦合,变量间的非线性特征不可避免。 近来年,基于核方法的非线性模式分析算法受到关注。核方法是通过非线性核函数来表示数据内在 的非线性结构特征,其中高斯核是核函数中最常用的表达形式。为了揭示高维数据中内在的非线性 低维的潜在结构,需要在高维数据空间中嵌入一个低维的子空间,并将样本数据映射到低维子空间 来观察数据内在的结构特征,这种方法也称为数据可视化[6,29]。数据可视化的目的是通过高维数据的 录用稿件,非最终出版稿
多维缩放算法将数据映射到2D或3D空间,并保持原始数据结构的基本特征不变。 经典的降维算法,如主成分分析(principal components analysis,PCA)和核主成分分析 (kernel principal components analysis,KPCA)在模式分析中已被广泛应用o-3。PCA是通过从协方 差矩阵中提取最大的几个特征向量组成的单位主方向,并将数据映射到互相正交的主方向上,从而 构成低维的数据主成分。KPCA是从核内积矩阵中求核主方向,计算特征空间中样本点在核主方向 上的投影,实现数据低维可视化,并消除数据噪声和非线性耦合。由于核方法能更好的表示非线性 特征,所以KPCA的多维缩放在处理复杂的数据结构时具有一定的优势。无论PCA、还是KPCA, 从概念上是将数据在低维子空间的表示形式与原始空间中数据之间残差的范数平方和最小化。但是, 这种通过这类高维数据进行缩放方法,容易造成复杂高维数据的内在结构特征在降维后出现畸变。 为了解决非线性数据在降维后易出现畸变问题,提出了新的数据降维方法。该方法将特征空间 的样本点间的平方距离与投影到低维子空间的平方距离的相关性最大化来实现非线性多维缩放。新 方法在对非线性数据多维同等缩放(multi-.dimensional parity scaling,MDPS)过程最大程度地使原 始空间中的样本点之间的距离与经过2D或3D缩放后样本点之间的距离保持同等缩放 给定由核定义的特征空间F中的一个样本集 S=[)b(x…x月 (1) 选择较小的1,如1=2,3,寻求原始数据X从s维特征空间投影到维空间x,使得 (x)-t(x)川≈(x)-(x)=1,2, (2) 其中,川表示模长,π是嵌入在特征空间F中1维低维学空间。 为了建立特征空间中样本对的距离与在低维空间中样本对的投影距离相关性最大化,即累积误 差E()最小化,可求解下面的优化问题 (3) z=1,t⊥js=1,2,1 ta⊥te,d,e=l,2,.,l (4) 其中j表示所有分量均为 1的列向量,ta,t。为t子空间中相互正交的单位向量。 式(3) 的优花问题还可以理解为另一种表达形式 E())) (5) 进一步分析可知
多维缩放算法将数据映射到 2D 或 3D 空间,并保持原始数据结构的基本特征不变。 经典的降维算法,如主成分分析(principal components analysis,PCA)和核主成分分析 (kernel principal components analysis,KPCA)在模式分析中已被广泛应用[30-31]。PCA 是通过从协方 差矩阵中提取最大的几个特征向量组成的单位主方向,并将数据映射到互相正交的主方向上,从而 构成低维的数据主成分。KPCA 是从核内积矩阵中求核主方向,计算特征空间中样本点在核主方向 上的投影,实现数据低维可视化,并消除数据噪声和非线性耦合。由于核方法能更好的表示非线性 特征,所以 KPCA 的多维缩放在处理复杂的数据结构时具有一定的优势。无论 PCA、还是 KPCA, 从概念上是将数据在低维子空间的表示形式与原始空间中数据之间残差的范数平方和最小化。但是, 这种通过这类高维数据进行缩放方法,容易造成复杂高维数据的内在结构特征在降维后出现畸变。 为了解决非线性数据在降维后易出现畸变问题,提出了新的数据降维方法。该方法将特征空间 的样本点间的平方距离与投影到低维子空间的平方距离的相关性最大化来实现非线性多维缩放。新 方法在对非线性数据多维同等缩放(multi-dimensional parity scaling, MDPS)过程中,最大程度地使原 始空间中的样本点之间的距离与经过 2D 或 3D 缩放后样本点之间的距离保持同等缩放。 给定由核定义的特征空间 F 中的一个样本集 T S ( ), ( ), , ( ) 1 2 x x x n (1) 选择较小的 l,如 l = 2,3,寻求原始数据 X 从 s 维特征空间投影到 l 维空间 τ,使得 ( ) ( ) ( ) ( ) , 1,2,..., i j i j x x x x ≈ i j n (2) 其中, . 表示模长,τ 是嵌入在特征空间 F 中 l 维低维子空间。 为了建立特征空间中样本对的距离与在低维空间中样本对的投影距离相关性最大化,即累积误 差 E(τ)最小化,可求解下面的优化问题 2 , 1 2 , 1 min ( ) ( ), ( ) ( ) ( ) ( , ) ( ) ( ) x x x x x x x x n i j i j i j n i j i j i j E K τ (3) 约束条件为: 2 1 s , , 1,2,... s j s l , , 1,2,..., d e d e l (4) 其中 j 表示所有分量均为 1 的列向量, d e 为 子空间中相互正交的单位向量。 式(3)的优化问题还可以理解为另一种表达形式 2 2 , 1 ( ) (1 ( ) ( ) ) ( ) ( ) n i j i j i j E x x x x (5) 进一步分析可知 录用稿件,非最终出版稿
k)-Gf-e-r i,j=l d=l )c》 (6) =222xP-立Grx,》 =2nl 由于x是子空间中相互正交的单位向量,因此式(3)可简化为: 会,--g-空, i,i=l i.jal =2tT Dt-2tT KT 稿 (7 =2t L(K) 其中,Da=之K为对角矩阵,L因=D-K为拉普拉斯矩阵。 式(7)的解可由拉普拉斯矩阵(的的特征值分解中求得中t为矩阵L()的特征向量。由 前两个最大特征值所张成的特征向量子空间可以实现高维数据的2D缩放。高维数据经非线性同等 缩放后的效果,将在下一章节中讨论。 1.2核简支桌分类算法 实现产品质量在线判级需要建立工艺参数与质指标之向映射关系,根据工艺参数聚类结果确 定类标记,并对带有标记的质量指标样本划定类边办人分类方法有基于概率分布的Byes算法、 Anderson算法:基于规则的决策树,如随机森林和Boosted树:基于距离的支持向量机、K-邻近分 类以及二次规划分类、逻辑回归以及神经元网貉深度学习等。 基于距离的分类算法可分为两种形式,硬间隔和软间隔分类算法。硬间隔分类采用线性(超平 面)判别函数,软间隔采用非线性(曲面)判别函数。由于工艺参数与质量指标间存在多重耦合, 类边界往往较复杂,因此宜用非线性判别函数,即采用软间隔分类器。引入间隔松弛向量,即允 许训练集中个别样本被错误分类,《软间隔支持向量机分类方法可转化为求如下最优解 典7容数 (8) >约束条件:f(《W,y,)》+b)≥?-,5≥0,IW=1。 其中,参数C为权衡系数,表示允许错误分类比例,当松弛向量飞的上标p为1时,表示一范 数软间隔(Lsof托margin),p为2表示二范数软间隔(L2-soft margin)。式(8)可以通过拉格朗 日函数求得权同量7和截距b,对偶解α,和类间隔'。类边界可由分布在边界两侧的支持向量来确 定,但若类间存在交叉重叠区域,支持向量的数目会显著增加,造成类边界划分的复杂性,并增加 在线自动判级的时间和准确率。 为了简化类边界判定函数,提出通过少量简支集(Reduced Set,RS)来确定类边界判定函数 的方法。设Y-y,2,ym}为支持向量集,nsY为支持向量个数,则基于支持向量的类判别函数 f0)=2ak0,)+b=w,》+b (9) = 由若干简支集向量来替代原来的支持向量集,则简支集的类判别函数 f()-2Bk(yi.y)+6=aK(y.)+b (10) -1
2 2 , 1 , 1 1 2 1 , 1 2 1 1 , 1 ( ) ( ) ( ) ( )) ( ) ( )) 2 ( ( ) ( ) ( )) 2 x x x x x x x x x ( ( - n n l i j d i d j i j i j d l n d i d j d i j l n n d i d i d j d i i j n nl (6) 由于 τ 是子空间中相互正交的单位向量,因此式(3)可简化为: 2 2 1 1 1 T T T 2 2 2 2 2 , , , K τ τ K K τ τ τ τ Dτ τ K τ τ L(K)τ n n n i j ij i ij i j i j i j i j ij (7) 其中, n ij j=1 D = K ii 为对角矩阵, L(K) = D - K 为拉普拉斯矩阵。 式(7)的解可由拉普拉斯矩阵 L(K)的特征值分解中求得,其中 为矩阵 L(K)的特征向量。由 前两个最大特征值所张成的特征向量子空间可以实现高维数据的 2D 缩放。高维数据经非线性同等 缩放后的效果,将在下一章节中讨论。 1.2 核简支集分类算法 实现产品质量在线判级需要建立工艺参数与质量指标之间映射关系,根据工艺参数聚类结果确 定类标记,并对带有标记的质量指标样本划定类边界。分类方法有基于概率分布的 Bayes 算法 、 Anderson 算法;基于规则的决策树,如随机森林和 Boosted 树;基于距离的支持向量机、K-邻近分 类以及二次规划分类、逻辑回归以及神经元网络、深度学习等。 基于距离的分类算法可分为两种形式,硬间隔和软间隔分类算法。硬间隔分类采用线性(超平 面)判别函数,软间隔采用非线性(曲面)判别函数[29]。由于工艺参数与质量指标间存在多重耦合, 类边界往往较复杂,因此宜用非线性判别函数,即采用软间隔分类器。引入间隔松弛向量 ξ,即允 许训练集中个别样本被错误分类,软间隔支持向量机分类方法可转化为求如下最优解 , , , min b C n p i γ ξ i w =1 γ ξ (8) 约束条件: ( , ( ) ) , i i i i f W y b γ ξ ξ , 2 W 1。 其中,参数 C 为权衡系数,表示允许错误分类比例,当松弛向量 ξ 的上标 p 为 1 时,表示一范 数软间隔(L1-soft margin),p 为 2 表示二范数软间隔(L2-soft margin)。式(8)可以通过拉格朗 日函数求得权向量 W 和截距 b,对偶解i 和类间隔 γ。类边界可由分布在边界两侧的支持向量来确 定,但若类间存在交叉重叠区域,支持向量的数目会显著增加,造成类边界划分的复杂性,并增加 在线自动判级的时间和准确率。 为了简化类边界判定函数,提出通过少量简支集(Reduced Set,RS)来确定类边界判定函数 的方法。设 1 2 , ..., , Y y y ynsv 为支持向量集,nsv 为支持向量个数,则基于支持向量的类判别函数 1 ( ) ( , ) , ( ) nsv i i i f k y y α y W y b b (9) 由若干简支集向量来替代原来的支持向量集,则简支集的类判别函数 1 * 1 1 ( ) ( , ) ( , ) RS l nsv i i i i i i f k y k y y β y b b α y (10) 录用稿件,非最终出版稿
其中,1表示简支集向量个数,1<nsw。式(10)优化解 (B,Y)=argmin (11) 式(ll)中,参数B,Y*优化解可以采用迭代贪婪算法(Iterative Greedy Algorithm)求得。如果采 用径向基核函数,式(11)可进一步简化为下面优化解 y-arg maxexp(-0.y /' (12) 其中,σ为核函数参数,n表示参与学习的部分支持向量个数。由于简支集分布在类边界曲线(或 曲面)上,因此可以实现正确、快捷的类判别。上面所讨论的利用简支集确定类边界的方法可简化质 量自动判别的过程,并为不同钢种的工艺规范的制定提供依据,具体应用在下面掌节中讨论。 为了验证方法的有效性,下面讨论应用实例。数据取自两个不同类的数据由于类间数据交叉 重叠,因此类边界较复杂,且支持向量较多。为了合理划分类边界,首先采用软间隔支持向量机, 求出76个支持向量,如图1所示。然后,取简支集的个数为10,从支芽向量集中随机抽取部分支持 向量组成10个子集,通过式(11)和式(12),求出各子集的简支集优化解。最后,通过函数拟合 方法求得类边界曲线,如图1所示。 1.2 reduced set 0.8 R N 0.6 support vecto 品 0.4 0.2 oo class 1 x class 2 class margin 025 -0.5 0 0.5 Variable 1 图1利用简支集确定类边界的例子 e of determined class boundaries using reduced sets 1.3质量在线评级与质指标预测 实现产品质量在线智能判级,首先需将待判样本通过同等缩放后投影到经过训练的工艺参数聚 类图上,并根锯映射点的位置选取距该点最近的K个训练集中的样本点作为参考样本集。然后,从 质量指标分类图找出这些参考样本集的类属性,采用K邻近分类法(KNN)确定待判样本的类 别。KNN算法的核心是,一个样本在特征空间中的K个邻近样本(参考样本)中的大多数属于某一 个类别,则认为该样本也属于这一类别。由于KNN方法对类域存在交叉、重叠的待分样本集来说具 有快捷、准确分类的特点,因此这种方法可以实现产品质量的在线快速判级。 此外,还可以通过非线性回归模型,如核偏最小二乘法、神经元网络、深度学习等方法预测待测 样本的产品质量指标值,并根据2.2节中讨论的产品质量指标的类边界,利用综合判定的方法来判 定待测样本的产品质量类别。 基于机器学习的产品质量自动判级过程,包括以下4个步骤: 1)数据采集与预处理:从实际生产线上采集主要工序的工艺参数和质量指标数据,并对样本 集中的数据进行清洗,剔除数据集中缺失数据、异常点等不规范数据:
其中,l1 表示简支集向量个数,l1<nsv。式(10)优化解 2 1 * 1 1 ( ) arg min ( ) ( ) l nsv i i i i i i y y * * β,Y β,Y β α (11) 式(11)中,参数 β,Y*优化解可以采用迭代贪婪算法(Iterative Greedy Algorithm)求得。如果采 用径向基核函数,式(11)可进一步简化为下面优化解 2 * 2 * 1 arg max exp(-0.5 / ) nn i i y i y y α y (12) 其中,σ 为核函数参数,nn 表示参与学习的部分支持向量个数。由于简支集分布在类边界曲线(或 曲面)上,因此可以实现正确、快捷的类判别。上面所讨论的利用简支集确定类边界的方法可简化质 量自动判别的过程,并为不同钢种的工艺规范的制定提供依据,具体应用在下面章节中讨论。 为了验证方法的有效性,下面讨论应用实例。数据取自两个不同类的数据,由于类间数据交叉 重叠,因此类边界较复杂,且支持向量较多。为了合理划分类边界,首先采用软间隔支持向量机, 求出 76 个支持向量,如图 1 所示。然后,取简支集的个数为 10,从支持向量集中随机抽取部分支持 向量组成 10 个子集,通过式(11)和式(12),求出各子集的简支集优化解。最后,通过函数拟合 方法求得类边界曲线,如图 1 所示。 -1.5 -1 -0.5 0 0.5 1 -0.2 0 0.2 0.4 0.6 0.8 1 1.2 Variable 1 V ariable 2 class margin o class 1 x class 2 reduced set support vectors 图 1 利用简支集确定类边界的例子 Fig.1 Example of determined class boundaries using reduced sets 1.3 质量在线评级与质量指标预测 实现产品质量在线智能判级,首先需将待判样本通过同等缩放后投影到经过训练的工艺参数聚 类图上,并根据映射点的位置选取距该点最近的 K 个训练集中的样本点作为参考样本集。然后,从 质量指标分类图中找出这些参考样本集的类属性,采用 K-邻近分类法(KNN)确定待判样本的类 别。KNN 算法的核心是,一个样本在特征空间中的 K 个邻近样本(参考样本)中的大多数属于某一 个类别,则认为该样本也属于这一类别。由于 KNN 方法对类域存在交叉、重叠的待分样本集来说具 有快捷、准确分类的特点,因此这种方法可以实现产品质量的在线快速判级。 此外,还可以通过非线性回归模型,如核偏最小二乘法、神经元网络、深度学习等方法预测待测 样本的产品质量指标值,并根据 2.2 节中讨论的产品质量指标的类边界,利用综合判定的方法来判 定待测样本的产品质量类别。 基于机器学习的产品质量自动判级过程,包括以下 4 个步骤: 1) 数据采集与预处理:从实际生产线上采集主要工序的工艺参数和质量指标数据,并对样本 集中的数据进行清洗,剔除数据集中缺失数据、异常点等不规范数据; 录用稿件,非最终出版稿