工程科学学报,第40卷,第11期:1373-1379,2018年11月 Chinese Journal of Engineering,Vol.40,No.11:1373-1379,November 2018 DOI:10.13374/j.issn2095-9389.2018.11.011;http://journals.ustb.edu.cn 基于CART决策树的冲压成形仿真数据挖掘 王 伟12)四,黄宇星),余鸿敏) 1)福州大学机械工程及自动化学院,福州3501002)福建省高端装备制造协同创新中心,福州350100 ☒通信作者,E-mail:mkwang@fz.edu.cn 摘要油箱壳外形复杂,拉深成形过程中容易出现侧壁起皱和圆角处破裂的缺陷,成形工艺参数的确定非常重要.结合分 类与回归决策树(classification and regression tree,CART)的人工智能技术和模型交叉验证方法,通过调用Python平台开源库 Scikit-.Learn对油箱壳拉深成形数值模拟结果进行知识挖掘,筛选出对油箱壳拉深成形影响大的工艺参数:以基尼指数(Gini idex)最小化作为最优特征值及最优切分点选择的依据,构建了工艺参数与性能指标关系的CART决策树,提取出了可靠的 工艺设计规则.油箱壳拉深实例表明,CART决策树理论的知识发现技术是实现板料成形过程数值模拟结果潜在知识挖掘的 可行途径 关键词知识发现:数据挖掘:数值仿真:分类与回归树:主成分分析 分类号TG302 Data mining of deep drawing simulation results based on CART decision tree theory WANG Wei,HUANG Yu-xing",YU Hong-min 1)School of Mechanical Engineering Automation,Fuzhou University,Fuzhou 350100.China 2)Fujian Provincial Collaborative Innovation Center of High-End Equipment Manufacturing,Fuzhou 350001,China Corresponding author,E-mail:mkwang@fzu.edu.cn ABSTRACT Numerical simulation technology is widely used in material forming process optimization and mold design.Although large volumes of simulation result data can be obtained,it is difficult to directly derive the relationship between the forming quality and the forming process parameters.To extract the potential knowledge latent in the simulation results,a systematic,robust,and efficient knowledge discovery technology is necessary,such as artificial intelligence technology,which has become one of the important research directions of material forming and processing.In this study the deep drawing process of a motorcycle fuel tank cover was taken as an example.A motorcycle fuel tank has complicated surfaces and local small fillets,and during its formation,the side wall and fillet are likely to wrinkle and rupture,respectively,because of local deep and uneven deformation.It is important to determine the forming pa- rameters to produce high quality tank cover that satisfies the surface quality requirements.Compared with the iterative dichotomiser 3 (ID3)decision tree algorithm,the classification and regression decision tree (CART)algorithm is advantageous in terms of faster com- putation speed,higher stability,and supporting multiple segmentation of continuous data.Furthermore,compared with other algorithms such as support vector machines (SVM)and logistic regression (LR),using the CART decision tree algorithm,the decision tree dia- gram can be established,and knowledge rules can be visually extracted.Combining the artificial intelligence technology of CART deci- sion tree and the model cross validation method of FI score,Scikit-Learn,an open-source library of Python platform was used to carry out knowledge discovery from the numerical simulation results of the tank cover deep drawing process.The key forming process parame- ters of the tank cover,which are blank holder force,the height of the draw bead,and radius of the die fillet,were identified.The opti- mal eigenvalues and the optimal segmentation points of CART decision tree were selected according to the minimization criteria of Gini index,and the process rules were extracted from the CART decision tree of the forming quality index and the established process 收稿日期:2017-10-17 基金项目:国家自然科学基金资助项目(51375094):福建省科技计划资助项目(2018H0015)
工程科学学报,第 40 卷,第 11 期:1373鄄鄄1379,2018 年 11 月 Chinese Journal of Engineering, Vol. 40, No. 11: 1373鄄鄄1379, November 2018 DOI: 10. 13374 / j. issn2095鄄鄄9389. 2018. 11. 011; http: / / journals. ustb. edu. cn 基于 CART 决策树的冲压成形仿真数据挖掘 王 伟1,2)苣 , 黄宇星1) , 余鸿敏1) 1) 福州大学机械工程及自动化学院, 福州 350100 2) 福建省高端装备制造协同创新中心, 福州 350100 苣 通信作者, E鄄mail: mkwang@ fzu. edu. cn 摘 要 油箱壳外形复杂,拉深成形过程中容易出现侧壁起皱和圆角处破裂的缺陷,成形工艺参数的确定非常重要. 结合分 类与回归决策树( classification and regression tree,CART)的人工智能技术和模型交叉验证方法,通过调用 Python 平台开源库 Scikit鄄Learn 对油箱壳拉深成形数值模拟结果进行知识挖掘,筛选出对油箱壳拉深成形影响大的工艺参数;以基尼指数(Gini index)最小化作为最优特征值及最优切分点选择的依据,构建了工艺参数与性能指标关系的 CART 决策树,提取出了可靠的 工艺设计规则. 油箱壳拉深实例表明,CART 决策树理论的知识发现技术是实现板料成形过程数值模拟结果潜在知识挖掘的 可行途径. 关键词 知识发现; 数据挖掘; 数值仿真; 分类与回归树; 主成分分析 分类号 TG302 收稿日期: 2017鄄鄄10鄄鄄17 基金项目: 国家自然科学基金资助项目(51375094); 福建省科技计划资助项目(2018H0015) Data mining of deep drawing simulation results based on CART decision tree theory WANG Wei 1,2)苣 , HUANG Yu鄄xing 1) , YU Hong鄄min 1) 1) School of Mechanical Engineering & Automation, Fuzhou University, Fuzhou 350100, China 2) Fujian Provincial Collaborative Innovation Center of High鄄End Equipment Manufacturing, Fuzhou 350001, China 苣 Corresponding author, E鄄mail: mkwang@ fzu. edu. cn ABSTRACT Numerical simulation technology is widely used in material forming process optimization and mold design. Although large volumes of simulation result data can be obtained, it is difficult to directly derive the relationship between the forming quality and the forming process parameters. To extract the potential knowledge latent in the simulation results, a systematic, robust, and efficient knowledge discovery technology is necessary, such as artificial intelligence technology, which has become one of the important research directions of material forming and processing. In this study the deep drawing process of a motorcycle fuel tank cover was taken as an example. A motorcycle fuel tank has complicated surfaces and local small fillets, and during its formation, the side wall and fillet are likely to wrinkle and rupture, respectively, because of local deep and uneven deformation. It is important to determine the forming pa鄄 rameters to produce high quality tank cover that satisfies the surface quality requirements. Compared with the iterative dichotomiser 3 ( ID3) decision tree algorithm, the classification and regression decision tree (CART) algorithm is advantageous in terms of faster com鄄 putation speed, higher stability, and supporting multiple segmentation of continuous data. Furthermore, compared with other algorithms such as support vector machines (SVM) and logistic regression (LR), using the CART decision tree algorithm, the decision tree dia鄄 gram can be established, and knowledge rules can be visually extracted. Combining the artificial intelligence technology of CART deci鄄 sion tree and the model cross validation method of F1 score, Scikit鄄Learn, an open鄄source library of Python platform was used to carry out knowledge discovery from the numerical simulation results of the tank cover deep drawing process. The key forming process parame鄄 ters of the tank cover, which are blank holder force, the height of the draw bead, and radius of the die fillet, were identified. The opti鄄 mal eigenvalues and the optimal segmentation points of CART decision tree were selected according to the minimization criteria of Gini index, and the process rules were extracted from the CART decision tree of the forming quality index and the established process
·1374. 工程科学学报,第40卷,第11期 parameters.The tank cover drawing process example shows that the knowledge discovery technology based on CART decision tree theo- ry is a feasible way to mine potential knowledge from the numerical simulation results of material forming process. KEY WORDS knowledge discovery;data mining;numerical simulation;classification and regression tree;principal component analy- sis 近年来,随着计算机技术和材料成形加工数值 模型的交叉检验选取CART决策树模型参数:最后 模拟技术的快速发展,出现了Dynaform、AutoForm、 根据CART决策树对属性决策表进行分类分析,归 Deform等有代表性的冲压数值模拟软件,广泛地应 纳提取出有价值的拉深工艺知识 用于材料成形工艺优化及模具设计领域,提高了设 数值成形 数据表达 仿真 确定工艺属性 计效率和质量[1-] 仿真分析 数据集群 属性决策表 在材料成形加工数值模拟技术的进一步深人应 提取工艺 CART决策树 交叉验证确定 用中存在着瓶颈,尽管可以通过数值模拟技术得到 规则 模型参数 主成分分析 分析 模拟结果数据,但不能获得成形工艺参数与成形质 图1基于CART决策树的知识发现流程 量关系的信息.这些蕴含在仿真结果中的潜在知识 Fig.I Knowledge discovery process based on the CART decision tree 需要系统化、稳健及高效的知识发现技术来获取,而 1.2CART决策树理论 人工智能技术是很好的知识发现途径,是材料成形 利用基尼指数(Gini index)值最小化准则, 加工重要研究方向之一【4-).以数据挖掘、神经网络 Breiman等[]在l984年提出了CART决策树理论. 等为代表的人工智能技术在板料冲压冷成形和热轧 CART决策树理论与ID3(Iterative Dichotomiser3)决 热成形等领域得到了广泛应用6-) 策树理论比较,计算速度更快、稳定性更好,能支持 王义林等[]综合应用数据聚类分析和神经网 连续型数据和特征数据的多次分割:与支持向量机 络建模方法对汽车覆盖件成形过程数值模拟结果进 (support vector machine,SVM)、逻辑斯蒂回归(logis- 行知识挖掘,通过聚类分析建立板料位置、应力等参 tic regression,LR)等其他非决策树分类算法比较, 数与成形缺陷关系数据集,进而建立成形质量预报 CART决策树分类算法不需要建立非线性模型,可 的神经网络模型.王迎春等门采用C4.5决策树方 以根据决策树图直观地做出决策分类、提取知识 法对方盒件拉深成形过程数值模拟结果进行知识挖 规则4 掘,得到了方盒件拉深工艺参数对成形过程影响的 在决策树分类问题中,假设类的数目为M,样本 知识.李大永等]采用主成分分析与模糊聚类方 点属于第m类的概率为pm,则该样本点概率分布的 法对冲压件仿真模型与模拟结果进行了分析,判别 基尼指数Gini为: 零件相似程度以及不同工艺参数与冲压成形性能的 关联程度 Gii(p)=p.I-p.)=1- ∑p(1) 摩托车油箱壳是一种典型的复杂冷冲压件,其 样本集合D的基尼指数Gini(D)值为: 外壳表面质量要求高,直接喷漆不允许有肉眼可见 (Cm)2 的凸凹不平的小痕迹,材料薄、局部深度大、变形不 (2) 均匀,成形难度很大.下面以油箱壳拉深过程为例 式中,ID1表示集合D的总样本数,IC.I表示集合D 进行数值仿真,利用CART决策树(classification and 中属性第m类的样本子集数,基尼指数Gii(D)表 regression tree,CART)知识发现理论获取拉深工艺 示集合D的不确定性 知识 若样本集合D中,属性A的值等于a的所有样 1基于CART决策树理论的知识发现方法 本所形成的子集为D,余集为D2,则集合D在属性 A的条件下得到的基尼指数为: 1.1基于CART决策树理论的知识发现过程 ID 如图1所示,首先采用数值试验设计方法建立 Gimi(D.4)=Gini(D) -Gini(D2) IDI I 冲压成形仿真结果数据库:根据产品性能要求确定 (3) 条件属性和决策属性,构建属性决策表:利用主成分 基尼指数Gii(D,A)表示集合D的不确定性, 法分析(principal component analysis,PCA)对数据进 基尼指数值越大,样本集合的不确定性也就越大,这 行降维,并得出条件属性对决策属性的影响权重;由 与信息嫡相似s).下文中的Gini值都指代Gini(D
工程科学学报,第 40 卷,第 11 期 parameters. The tank cover drawing process example shows that the knowledge discovery technology based on CART decision tree theo鄄 ry is a feasible way to mine potential knowledge from the numerical simulation results of material forming process. KEY WORDS knowledge discovery;data mining;numerical simulation;classification and regression tree;principal component analy鄄 sis 近年来,随着计算机技术和材料成形加工数值 模拟技术的快速发展,出现了 Dynaform、AutoForm、 Deform 等有代表性的冲压数值模拟软件,广泛地应 用于材料成形工艺优化及模具设计领域,提高了设 计效率和质量[1鄄鄄3] . 在材料成形加工数值模拟技术的进一步深入应 用中存在着瓶颈,尽管可以通过数值模拟技术得到 模拟结果数据,但不能获得成形工艺参数与成形质 量关系的信息. 这些蕴含在仿真结果中的潜在知识 需要系统化、稳健及高效的知识发现技术来获取,而 人工智能技术是很好的知识发现途径,是材料成形 加工重要研究方向之一[4鄄鄄5] . 以数据挖掘、神经网络 等为代表的人工智能技术在板料冲压冷成形和热轧 热成形等领域得到了广泛应用[6鄄鄄9] . 王义林等[10] 综合应用数据聚类分析和神经网 络建模方法对汽车覆盖件成形过程数值模拟结果进 行知识挖掘,通过聚类分析建立板料位置、应力等参 数与成形缺陷关系数据集,进而建立成形质量预报 的神经网络模型. 王迎春等[11] 采用 C4郾 5 决策树方 法对方盒件拉深成形过程数值模拟结果进行知识挖 掘,得到了方盒件拉深工艺参数对成形过程影响的 知识. 李大永等[12] 采用主成分分析与模糊聚类方 法对冲压件仿真模型与模拟结果进行了分析,判别 零件相似程度以及不同工艺参数与冲压成形性能的 关联程度. 摩托车油箱壳是一种典型的复杂冷冲压件,其 外壳表面质量要求高,直接喷漆不允许有肉眼可见 的凸凹不平的小痕迹,材料薄、局部深度大、变形不 均匀,成形难度很大. 下面以油箱壳拉深过程为例 进行数值仿真,利用 CART 决策树(classification and regression tree,CART) 知识发现理论获取拉深工艺 知识. 1 基于 CART 决策树理论的知识发现方法 1郾 1 基于 CART 决策树理论的知识发现过程 如图 1 所示,首先采用数值试验设计方法建立 冲压成形仿真结果数据库;根据产品性能要求确定 条件属性和决策属性,构建属性决策表;利用主成分 法分析(principal component analysis,PCA)对数据进 行降维,并得出条件属性对决策属性的影响权重;由 模型的交叉检验选取 CART 决策树模型参数;最后 根据 CART 决策树对属性决策表进行分类分析,归 纳提取出有价值的拉深工艺知识. 图 1 基于 CART 决策树的知识发现流程 Fig. 1 Knowledge discovery process based on the CART decision tree 1郾 2 CART 决策树理论 利用 基 尼 指 数 ( Gini index) 值 最 小 化 准 则, Breiman 等[13]在 1984 年提出了 CART 决策树理论. CART 决策树理论与 ID3(Iterative Dichotomiser 3)决 策树理论比较,计算速度更快、稳定性更好,能支持 连续型数据和特征数据的多次分割;与支持向量机 (support vector machine,SVM)、逻辑斯蒂回归(logis鄄 tic regression,LR) 等其他非决策树分类算法比较, CART 决策树分类算法不需要建立非线性模型,可 以根据决策树图直观地做出决策分类、提取知识 规则[14] . 在决策树分类问题中,假设类的数目为 M,样本 点属于第 m 类的概率为 pm ,则该样本点概率分布的 基尼指数 Gini 为: Gini(p) = 移 M m = 1 pm (1 - pm ) = 1 - 移 M m = 1 p 2 m (1) 样本集合 D 的基尼指数 Gini(D)值为: Gini(D) = 1 - 移 M m = ( 1 | Cm | |D ) | 2 (2) 式中, |D|表示集合 D 的总样本数, | Cm | 表示集合 D 中属性第 m 类的样本子集数,基尼指数 Gini(D)表 示集合 D 的不确定性. 若样本集合 D 中,属性 A 的值等于 a 的所有样 本所形成的子集为 D1 ,余集为 D2 ,则集合 D 在属性 A 的条件下得到的基尼指数为: Gini(D,A) = |D1 | |D| Gini(D1 ) + |D2 | |D| Gini(D2 ) (3) 基尼指数 Gini(D,A)表示集合 D 的不确定性, 基尼指数值越大,样本集合的不确定性也就越大,这 与信息熵相似[15] . 下文中的 Gini 值都指代 Gini(D, ·1374·
王伟等:基于CART决策树的冲压成形仿真数据挖掘 ·1375· A),CART决策树以此指标作为递归切分属性的 深模CAD模型,再将CAD模型导人Dynaform软 依据. 件[6).根据导入的CAD模型,在Dynaform软件中 1.3基于性能度量的模型交叉验证 建立拉深成形的凸模、凹模、压边圈和板料,通过网 模型交叉验证的基本思想是将数据样本切分为 格划分,建立如图3所示的工具-板料数值仿真模 训练集和测试集,通过训练集建立CART决策树分 型.板料为DQ钢,板料尺寸为850mm×800mm,厚 类模型,利用测试集评估CART模型的泛化误差和 度为0.8mm,选择Barlat材料模型,模型参数如表2 拟合效果. 所示. 对二分类问题,CART决策树模型分类预测结 果与样本集真实分类结果比较,有四种情况,即(模 型预测为真,真实结果为真)、(模型预测为真,真实 结果为假)、(模型预测为假,真实结果为真)、(模型 预测为假,真实结果为假),这四种情况分别定义为 真正例(TP)、假正例(FP)、真反例(TN)、假反例 (FN),如表1所示.准确率P和召回率R分别定 义为: TP TP 图2油箱壳拉深模CAD模型 P=TP+FP R=TP+FN 4 Fig.2 CAD model of drawing die for tank cover 表1CART决策树分类结果情况 Table 1 CART decision tree classification result 预测结果 真实情况 正例 反例 凹模 正例 TP(真正例) N(假反例) 反例 FP(假正例) TN(真反例) 板料 压边圈 FI分数(F1 Score)是统计学中用来衡量分类模 型精确度的一种指标.它同时兼顾了分类模型的准 确率和召回率,模型的优劣可以根据F1分数大小来 凸模 判别,而F1分数定义为: FI=2xPxR 图3工具-板料数值仿真模型 (5) P+R Fig.3 Numerical simulation model for tools and sheet 2摩托车油箱壳拉深数值仿真及试验设计 如图4所示,当压边力f为196kN、拉深筋高度 h为4mm、凹模圆角半径r为5mm、摩擦系数u为 2.1油箱壳拉深成形数值仿真 0.125时的成形分析结果.从图4可看出,在凹模圆 在油箱壳制件模型基础上,补充工艺面和设置 角处由于进料困难、容易造成局部减薄,在侧壁处容 拉深筋,在UG软件中建立如图2所示的油箱壳拉 易出现起皱 表2板料材料参数 Table 2 Blank material parameters 杨氏弹性模量, 泊松比, 初应变, 强度系数, 强化指数,Barlat指数, 密度, 各向异性指数 E/GPa n p/(kg'mm-3) R45 Roo 207 0.28 0.0086 0.5407 0.21 6 7.85×10-6 2.1 1.32 1.66 2.2数值仿真试验设计与属性决策表 程全析因数值仿真试验.成形件最大减薄率是评价 影响侧壁起皱的主要参数为压边力∫和拉深筋 成形质量的重要指标,其中参数f和h对最大减薄 高度,影响圆角处局部减薄的主要参数为凹模圆 率是强影响因素,分别取5个水平,r和μ是弱影响 角半径r,此外摩擦系数u对成形质量的影响也是 因素,分别取2个水平,表3为影响因素水平表.油 需要注意的,因此,选择这四个参数进行拉深成形过 箱壳拉深成形全因析试验设计形成100组试验方
王 伟等: 基于 CART 决策树的冲压成形仿真数据挖掘 A),CART 决策树以此指标作为递归切分属性的 依据. 1郾 3 基于性能度量的模型交叉验证 模型交叉验证的基本思想是将数据样本切分为 训练集和测试集,通过训练集建立 CART 决策树分 类模型,利用测试集评估 CART 模型的泛化误差和 拟合效果. 对二分类问题,CART 决策树模型分类预测结 果与样本集真实分类结果比较,有四种情况,即(模 型预测为真,真实结果为真)、(模型预测为真,真实 结果为假)、(模型预测为假,真实结果为真)、(模型 预测为假,真实结果为假),这四种情况分别定义为 真正例( TP)、假正例( FP)、真反例( TN)、假反例 (FN),如表 1 所示. 准确率 P 和召回率 R 分别定 义为: P = TP TP + FP , R = TP TP + FN (4) 表 1 CART 决策树分类结果情况 Table 1 CART decision tree classification result 真实情况 预测结果 正例 反例 正例 TP(真正例) FN(假反例) 反例 FP(假正例) TN(真反例) F1 分数(F1 Score)是统计学中用来衡量分类模 型精确度的一种指标. 它同时兼顾了分类模型的准 确率和召回率,模型的优劣可以根据 F1 分数大小来 判别,而 F1 分数定义为: F1 = 2 伊 P 伊 R P + R (5) 2 摩托车油箱壳拉深数值仿真及试验设计 2郾 1 油箱壳拉深成形数值仿真 在油箱壳制件模型基础上,补充工艺面和设置 拉深筋,在 UG 软件中建立如图 2 所示的油箱壳拉 深模 CAD 模型,再将 CAD 模型导入 Dynaform 软 件[16] . 根据导入的 CAD 模型,在 Dynaform 软件中 建立拉深成形的凸模、凹模、压边圈和板料,通过网 格划分,建立如图 3 所示的工具鄄鄄 板料数值仿真模 型. 板料为 DQ 钢,板料尺寸为 850 mm 伊 800 mm,厚 度为 0郾 8 mm,选择 Barlat 材料模型,模型参数如表 2 所示. 图 2 油箱壳拉深模 CAD 模型 Fig. 2 CAD model of drawing die for tank cover 图 3 工具鄄鄄板料数值仿真模型 Fig. 3 Numerical simulation model for tools and sheet 如图 4 所示,当压边力 f 为 196 kN、拉深筋高度 h 为 4 mm、凹模圆角半径 r 为 5 mm、 摩擦系数 滋 为 0郾 125 时的成形分析结果. 从图 4 可看出,在凹模圆 角处由于进料困难、容易造成局部减薄,在侧壁处容 易出现起皱. 表 2 板料材料参数 Table 2 Blank material parameters 杨氏弹性模量, E/ GPa 泊松比, 淄 初应变, 着0 强度系数, k 强化指数, n Barlat 指数, m 密度, 籽 / (kg·mm - 3 ) 各向异性指数 R90 R45 R00 207 0郾 28 0郾 0086 0郾 5407 0郾 21 6 7郾 85 伊 10 - 6 2郾 1 1郾 32 1郾 66 2郾 2 数值仿真试验设计与属性决策表 影响侧壁起皱的主要参数为压边力 f 和拉深筋 高度 h,影响圆角处局部减薄的主要参数为凹模圆 角半径 r,此外摩擦系数 滋 对成形质量的影响也是 需要注意的,因此,选择这四个参数进行拉深成形过 程全析因数值仿真试验. 成形件最大减薄率是评价 成形质量的重要指标,其中参数 f 和 h 对最大减薄 率是强影响因素,分别取 5 个水平,r 和 滋 是弱影响 因素,分别取 2 个水平,表 3 为影响因素水平表. 油 箱壳拉深成形全因析试验设计形成 100 组试验方 ·1375·
.1376 工程科学学报,第40卷,第11期 破裂 算法[ 局部减薄严重 破裂趋势 采用Python平台的CART决策树建模与知识 正常 发现步骤如下: 起皱趋势 (l)通过Seikit-Leam中的Cross_Validation按 起皱 严重起皱 比例将样本随机划分为训练和测试集: 拉伸不足 (2)通过Pandas导入训练集样本,初选决策树 的最小叶节点参数: (3)利用Seikit--Leam的DecisionTreeClassifier 函数对训练集样本数据进行分类,建立CART决策 侧壁起皱 树模型,并利用测试集计算模型的召回率和准确率; 图4油箱壳拉深成形极限图 (4)利用Seikit--Leam中的PCA算法对训练集 Fig.4 Forming limit diagram for tank cover drawing 和测试集样本数据降维,并利用Matplotlib对降维后 案,仿真结果如属性决策表4所示.表4中f、h,ru 的数据可视化: 为油箱壳成形质量分类的条件属性,最大减薄率水 (5)调整最小叶节点数,重复(2)~(4)步骤多 平(减薄率)为决策属性.其中最大减薄率按等级划 次,选择最高F1所对应的最小叶节点数为最佳叶节 分3个水平,其最大减薄率范围分别为[0,23%)、 点数建立CART决策树模型,根据决策树模型提取 [23%,30%)、[30%,50%],分别代表成形质量一 知识规则 般、较佳和破裂三种情况 3.2油箱壳拉深知识发现过程及结果讨论 3.2.1主成分分析降维及讨论 表3油箱壳拉深成形影响因素水平表 采用P℃A方法,得到油箱壳拉深主成分累积贡 Table 3 Level table of influence factors of tank cover drawing 献率,如图5,以及油箱壳拉深成形质量分类图,如 条件属性 水平值 f/kN 142.8.225.4,245,264.6,294 图6.图5中前两个和前三个条件属性的累积贡献 h/mm 45,6.7 率分别为71.2%和89.7%,表明压边力f和拉深筋 r/mm 7,10 高度h对工艺成形质量影响最大,是设计时应优先 0.08,0.125 考虑的属性.图6降到两维后,数据聚类明显,直 表4油箱壳拉深成形属性决策表 观,对应成形质量较佳、一般和破裂三个水平分别用 Table 4 Drawing feature table for tank cover good、general和bad表示. 条件属性 决策属性 1.0 编号 减薄 减薄率 f/kN h/mm r/mm 率/% 水平 0.8 1142.8 3 7 0.08 13.86 1 2142.8 7 0.125 15.46 1 0.6 0.479577 一主成分累积贡献率 。 ■主成分贡献率 100294 7 10 0.12547.87 3 0.232783 0.18502 3基于CART决策树的油箱壳拉深工艺知 0.102578 识发现结果及讨论 主成分 3.1 Python平台的知识发现工具与实现步骤 图5油箱壳主成分贡献率 Python平台由Python语言和科学计算扩展库 Fig.5 Principal component contribution rate in CAD model of tank 组成.Python语言具有简洁、易读以及扩展性好的 cover 优点,被国外研究机构认可并广泛应用于人工智能 3.2.2分类法比较 和数据挖掘等领域.Python科学计算扩展库具有开 图7~8中,SVM和CART方法对降维后的数 源优点,其中经典的NumPy、SeiPy、Pandas和Mat- 据全集进行初步建模,对应成形质量较佳、一般和破 plotlib库等实现数据处理以及绘图,而Seikit-Learn 裂三个水平的good、general和bad的试验样本点聚 库和TensorFlow库提供聚类、决策树、神经网络等 类划分,但是表5看出两种模型的准确率和召回率
工程科学学报,第 40 卷,第 11 期 图 4 油箱壳拉深成形极限图 Fig. 4 Forming limit diagram for tank cover drawing 案,仿真结果如属性决策表 4 所示. 表 4 中 f、h、r、滋 为油箱壳成形质量分类的条件属性,最大减薄率水 平(减薄率)为决策属性. 其中最大减薄率按等级划 分 3 个水平,其最大减薄率范围分别为[0,23% )、 [23% ,30% )、[30% ,50% ],分别代表成形质量一 般、较佳和破裂三种情况. 表 3 油箱壳拉深成形影响因素水平表 Table 3 Level table of influence factors of tank cover drawing 条件属性 水平值 f / kN 142郾 8,225郾 4,245,264郾 6,294 h / mm 4,5,6,7 r/ mm 7,10 滋 0郾 08,0郾 125 表 4 油箱壳拉深成形属性决策表 Table 4 Drawing feature table for tank cover 编号 条件属性 决策属性 f / kN h / mm r/ mm 滋 减薄 率/ % 减薄率 水平 1 142郾 8 3 7 0郾 08 13郾 86 1 2 142郾 8 3 7 0郾 125 15郾 46 1 … … … … … … … 100 294 7 10 0郾 125 47郾 87 3 3 基于 CART 决策树的油箱壳拉深工艺知 识发现结果及讨论 3郾 1 Python 平台的知识发现工具与实现步骤 Python 平台由 Python 语言和科学计算扩展库 组成. Python 语言具有简洁、易读以及扩展性好的 优点,被国外研究机构认可并广泛应用于人工智能 和数据挖掘等领域. Python 科学计算扩展库具有开 源优点,其中经典的 NumPy、SciPy、Pandas 和 Mat鄄 plotlib 库等实现数据处理以及绘图,而 Scikit鄄Learn 库和 TensorFlow 库提供聚类、决策树、神经网络等 算法[17] . 采用 Python 平台的 CART 决策树建模与知识 发现步骤如下: (1) 通过 Scikit鄄Learn 中的 Cross_Validation 按 比例将样本随机划分为训练和测试集; (2)通过 Pandas 导入训练集样本,初选决策树 的最小叶节点参数; (3 ) 利 用 Scikit鄄Learn 的 DecisionTreeClassifier 函数对训练集样本数据进行分类,建立 CART 决策 树模型,并利用测试集计算模型的召回率和准确率; (4) 利用 Scikit鄄Learn 中的 PCA 算法对训练集 和测试集样本数据降维,并利用 Matplotlib 对降维后 的数据可视化; (5)调整最小叶节点数,重复(2) ~ (4)步骤多 次,选择最高 F1 所对应的最小叶节点数为最佳叶节 点数建立 CART 决策树模型,根据决策树模型提取 知识规则. 3郾 2 油箱壳拉深知识发现过程及结果讨论 3郾 2郾 1 主成分分析降维及讨论 采用 PCA 方法,得到油箱壳拉深主成分累积贡 献率,如图 5,以及油箱壳拉深成形质量分类图,如 图 6. 图 5 中前两个和前三个条件属性的累积贡献 率分别为 71郾 2% 和 89郾 7% ,表明压边力 f 和拉深筋 高度 h 对工艺成形质量影响最大,是设计时应优先 考虑的属性. 图 6 降到两维后,数据聚类明显,直 观,对应成形质量较佳、一般和破裂三个水平分别用 good、general 和 bad 表示. 图 5 油箱壳主成分贡献率 Fig. 5 Principal component contribution rate in CAD model of tank cover 3郾 2郾 2 分类法比较 图 7 ~ 8 中,SVM 和 CART 方法对降维后的数 据全集进行初步建模,对应成形质量较佳、一般和破 裂三个水平的 good、general 和 bad 的试验样本点聚 类划分,但是表 5 看出两种模型的准确率和召回率 ·1376·
王伟等:基于CART决策树的冲压成形仿真数据挖掘 ·1377· 表5SVM和CART的模型性能度量 3 Ageneral ■good Table 5 Performance scale of SVM and CART ●bad 方法 测试集召回率/% 测试集准确率/% F1/% ■■■ SVM 72.3 75.0 73.8 8 CART 70.0 85.2 76.9 "4 都相对较低.同时相对于CART决策树分类算法, ● SVM分类曲线需要复杂的数学表达式建立非线性 模型,而且不能直观地提取工艺规则,只能得出产品 0 1 第一主成分 的成形较佳、一般和破裂的分类区域(红色部分表 图6主成分降维成形质量分类图 示成形质量预测结果为general的区域,白色部分表 Fig.6 Principal component dimension reduction forming quality clas- 示预测结果为god的区域,绿色部分预测结果为 sification figure bad的区域),而采用CART决策树的方法可以在实 general 现分类的基础上,进一步能提取工艺规则.数据全 ■g00d 集初步建立的模型并不能检验该模型好坏,需要对 数据全集划分为训练集和测试集,并对最小叶节点 州 数进行调整,简化决策树 3.2.3最佳CART决策树生成过程 训练集样本和测试集样本按65:35的比例进行 随机分划,图9和图10为最小叶节点数n分别为 5、7、8时决策树的训练集和测试集的主成分分类 0 第一主成分 图,表6为最小叶节点数在5~9范围内的模型度量 图7SVM数据全集分类模型 结果.表6和图9~10分析如下: Fig.7 SVM model of data set classification (1)表6中最小叶节点数为7的预测模型的F1 分数最高,图9(a)和图10(a)对应的主成分分类图 general ■g00 聚类明显,有利于规则的提取,同时相对于表6的结 果,F1分数有了明显提高 (2)最小叶节点数为5时,测试集准确率最高, 但其CART分类结果如图9(b)和图10(b)所示,存 在过拟合区域.当样本点出现在过拟合区域时,工 艺属性微小变化容易造成样本点的分类错误,同时 过拟合也使得模型复杂化,不利于提取规则. -2 (3)最小叶节点数为8时,F1分数比较低,对于 第一主成分 图8CART数据全集分类模型 规则的提取比较模糊 Fig.8 CART model of data set classification 综合上述分析,对试验样本集CART决策树建 general (a) general (e) 过拟合 2 hd 2 "good "good bad 区域 2 bad 1 1 0 0 - -2 2 0 2 0 2 0 2 第一主成分 第一主成分 第一主成分 图9CART决策树训练集主成分二维分类图.(a)n=7;(b)n=5:(c)n=8 Fig.9 2D classification of CART decision tree training set:(a)n=7;(b)n=5;(c)n=8
王 伟等: 基于 CART 决策树的冲压成形仿真数据挖掘 图 6 主成分降维成形质量分类图 Fig. 6 Principal component dimension reduction forming quality clas鄄 sification figure 图 7 SVM 数据全集分类模型 Fig. 7 SVM model of data set classification 图 8 CART 数据全集分类模型 Fig. 8 CART model of data set classification 表 5 SVM 和 CART 的模型性能度量 Table 5 Performance scale of SVM and CART 方法 测试集召回率/ % 测试集准确率/ % F1 / % SVM 72郾 3 75郾 0 73郾 8 CART 70郾 0 85郾 2 76郾 9 都相对较低. 同时相对于 CART 决策树分类算法, SVM 分类曲线需要复杂的数学表达式建立非线性 模型,而且不能直观地提取工艺规则,只能得出产品 的成形较佳、一般和破裂的分类区域(红色部分表 示成形质量预测结果为 general 的区域,白色部分表 示预测结果为 good 的区域,绿色部分预测结果为 bad 的区域),而采用 CART 决策树的方法可以在实 现分类的基础上,进一步能提取工艺规则. 数据全 集初步建立的模型并不能检验该模型好坏,需要对 数据全集划分为训练集和测试集,并对最小叶节点 数进行调整,简化决策树. 3郾 2郾 3 最佳 CART 决策树生成过程 训练集样本和测试集样本按 65颐 35 的比例进行 随机分划,图 9 和图 10 为最小叶节点数 n 分别为 5、7、8 时决策树的训练集和测试集的主成分分类 图,表 6 为最小叶节点数在 5 ~ 9 范围内的模型度量 结果. 表 6 和图 9 ~ 10 分析如下: (1)表 6 中最小叶节点数为 7 的预测模型的 F1 分数最高,图 9(a)和图 10(a)对应的主成分分类图 聚类明显,有利于规则的提取,同时相对于表 6 的结 果,F1 分数有了明显提高. (2)最小叶节点数为 5 时,测试集准确率最高, 但其 CART 分类结果如图 9(b)和图 10(b)所示,存 在过拟合区域. 当样本点出现在过拟合区域时,工 艺属性微小变化容易造成样本点的分类错误,同时 过拟合也使得模型复杂化,不利于提取规则. (3)最小叶节点数为 8 时,F1 分数比较低,对于 规则的提取比较模糊. 综合上述分析,对试验样本集 CART 决策树建 图 9 CART 决策树训练集主成分二维分类图. (a) n = 7; (b) n = 5; (c) n = 8 Fig. 9 2D classification of CART decision tree training set: (a) n = 7; (b) n = 5; (c) n = 8 ·1377·