《工程科学学报》录用稿,https:/doi.org/10.13374/j.issn2.095-9389.2022.01.10.007©北京科技大学2022 《工程科学学报》编辑部 基于综合智能模型的碳钢大气腐蚀重要变量提取 和依赖关系挖掘 张明2),付冬梅2区,张达威34区,马菱薇34,邵立珍 1)北京科技大学自动化学院北京市工业波谱成像工程技术研究中心,北京1000832)北京科技大学顺 德逊究生院,佛山5283003)北京科 技大学新材料技术研究院,北京1000834)国家材料腐蚀与防护科学数据中心,北京100083 5)北京料技大学自动化学院,北京100083 ☒通信作者,E-mail:fdnm_ustb@ustb,edu.cn;dzhang@ustb.edu.cn 摘要针对碳钢在大气腐蚀过程中影响变量多且作用机制复杂的问愿个提出种基于综合智能模型的重要变量挖掘 框架,利用该框架可以挖掘影响碳钢早期大气腐蚀的重要环境变量及其对腐蚀电偶电流产生的影响。本文通过大气 腐蚀监测仪(ACM)收集了我国5个试验站点的大气腐蚀数据 首先, 构建了随机森林(F)、梯度提升回归树 (GBRT)、BP神经网络(BPNN)三种机器学习模型:其次, 利用移模型集成重要变量选择算法(MEVS)量化 环境变量的重要性并提取影响碳钢早期大气腐蚀的重要环境变量:最后,绘制了环境变量与腐蚀电偶电流的局部依 赖曲线(PDP)。仿真结果显示,MEIVS算法挖掘出的重要环境变量更符合大气腐蚀的先验规律;PDP与MEVS 算法的结论具有很好的一致性,重要环境变量对应的PD犯的变化幅度大,且PDP的变化趋势能够反映环境变量对 腐蚀电偶电流的影响。 关键词大气腐蚀:碳钢:模型集成:重要变量提取:局部依赖曲线 分类号TG172.3 Extraction of important variables and mining of dependencies of atmospheric corrosion of carbon steel based on a comprehensive intelligent model ZHANG Ming25),FU Dong-meil2),ZHANG Da-weA,MA Ling-wepA),SHAO Li-zhen5) 1)Beijing Engineering Research Center of Industrial Spectrum Imaging,School of Automation and Electrical Engineering.University of Science and Technology Beijing,Beijing 100083,China 2)Shunde Graduate School of University of Science and Technology Beijing,Foshan 528300,China 3) Institution for Advanced Materials and Technology,University of Science and Technology Beijing,Beijing 100083,China 收稿日期:2022-01-05 演自:科技部科技基础资源调查专项资助项目(2019FY101404):北京科技大学顺德研究生院科技创新专项 BK20AE004) 地址:北京市海淀区学院路30号 邮政编码:100083 电话:010-62333436 E-mail:xuebaozr@ustb.edu.cn http://cje.ustb.edu.cn
《工程科学学报》编辑部 基于综合智能模型的碳钢大气腐蚀重要变量提取 和依赖关系挖掘1 张 明 2,5),付冬梅 1,2),张达威 3,4),马菱薇 3,4),邵立珍 2,5) 1) 北京科技大学自动化学院北京市工业波谱成像工程技术研究中心,北京 100083 2) 北京科技大学顺德研究生院,佛山 528300 3) 北京科 技大学新材料技术研究院,北京 100083 4) 国家材料腐蚀与防护科学数据中心,北京 100083 5) 北京科技大学自动化学院,北京 100083 通信作者,E-mail: fdm_ustb@ustb.edu.cn; dzhang@ustb.edu.cn 摘 要 针对碳钢在大气腐蚀过程中影响变量多且作用机制复杂的问题,提出一种基于综合智能模型的重要变量挖掘 框架,利用该框架可以挖掘影响碳钢早期大气腐蚀的重要环境变量及其对腐蚀电偶电流产生的影响。本文通过大气 腐蚀监测仪(ACM)收集了我国 5 个试验站点的大气腐蚀数据,首先,构建了随机森林(RF)、梯度提升回归树 (GBRT)、BP 神经网络(BPNN)三种机器学习模型;其次,利用多模型集成重要变量选择算法(MEIVS)量化 环境变量的重要性并提取影响碳钢早期大气腐蚀的重要环境变量;最后,绘制了环境变量与腐蚀电偶电流的局部依 赖曲线(PDP)。仿真结果显示,MEIVS 算法挖掘出的重要环境变量更符合大气腐蚀的先验规律; PDP 与 MEIVS 算法的结论具有很好的一致性,重要环境变量对应的 PDP 的变化幅度大,且 PDP 的变化趋势能够反映环境变量对 腐蚀电偶电流的影响。 关键词 大气腐蚀;碳钢;模型集成;重要变量提取;局部依赖曲线 分类号 TG172.3 Extraction of important variables and mining of dependencies of atmospheric corrosion of carbon steel based on a comprehensive intelligent model ZHANG Ming2,5) , FU Dong-mei1,2) , ZHANG Da-wei3,4) , MA Ling-wei3,4) , SHAO Li-zhen2,5) 1) Beijing Engineering Research Center of Industrial Spectrum Imaging, School of Automation and Electrical Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Shunde Graduate School of University of Science and Technology Beijing, Foshan 528300, China 3) Institution for Advanced Materials and Technology, University of Science and Technology Beijing, Beijing 100083, China 1收稿日期:2022-01-05 基金项目:科技部科技基础资源调查专项资助项目(2019FY101404);北京科技大学顺德研究生院科技创新专项 (BK20AE004) 地址:北京市海淀区学院路 30 号 邮政编码:100083 电话:01062333436 E-mail: xuebaozr@ustb.edu.cn http://cje.ustb.edu.cn 《工程科学学报》录用稿,https://doi.org/10.13374/j.issn2095-9389.2022.01.10.007 ©北京科技大学 2022 录用稿件,非最终出版稿
4)National Materials Corrosion and Protection Data Center,Beijing 100083,China 5) School of Automation and Electrical Engineering,University of Science and Technology Beijing.Beijing 100083,China Corresponding author,E-mail:fdm_ustb@ustb.edu.cn;dzhang@ustb.edu.cn ABSTRACT Machine learning algorithms are widely used to predict the corrosion rate of materials in a specific environment,but such black-box models'interpretability are poor,which obstacle the application in the field of material corrosion.Therefore,to increase the algorithm transparency in practical applications,it is necessary to further explore the causal relationship in the material corrosion phenomenon based on machine learning models.To solve the above problems, this paper aims at the corrosion process of carbon steel in the atmosphere with many variables and complex mechanisms, proposing an important variable mining framework based on the comprehensive intelligent model.This framework can mine the important environmental variables that affect the early atmospheric corrosion of carbon steel and their influence on the corrosion galvanic current.This paper collected hour-level atmospheric corrosion data of carbon steet 45 from 5 test sites in China through the atmospheric corrosion monitor (ACM)and China Meteorological Administration,including relative humidity,temperature,rainfall,O;concentration,SO2 concentration,NO2 concentration.PM2.5.concentration.PM10 concentration.In order to ensure the stability of the results,three machine learning models with different fitting strategies are constructed:Random Forest (RF).Gradient Boosted Regression Trees (GBRT),and Back-Propagation Neural Network (BPNN).Then it is important to use Multi-model Ensemble Important Variable Selection (MEIVS)to quantify the importance of environmental variables and extract important environmental variables that affect the early atmospheric corrosion of carbon steel severely.Eventually,the Partial-dependence Plot (PDP)between environmental variables and corrosion galvanic current is drawn.Based on the simulation results,three significant conclusions are obtained.1)Compared with Pearson's Correlation Coefficient (PCC)and Spearman's Correlation Coefficient(SCC),the important environmental variables mined by MEIVS algorithm are more in line with the priof law of early atmospheric corrosion of carbon steel. Relative humidity,temperature,and rainfall have the greatest impaot on the early atmospheric corrosion of carbon steel,and O also has a great influence on the atmospheric corrosion in Sanya.In addition,other pollutants in various regions have a weak impact on the early atmospheric corrosion of carbon steel.2)PDP shows that in most cases,the corrosion galvanic current of carbon steel 45 is negatively correlated with temperature and positively correlated with relative humidity.3)PDP and MEIVS are well consistent.The simulation reveal that PDP corresponding to important environmental variables has a greater range of change,and the chariging t nd of PDP can reflect the influence of environmental variables on corrosion galvanic current. KEY WORDS atmospheric on steel;model integration;important variable extraction;partial-dependence plot 碳钢的大气腐蚀是一 种电解质膜下的电化学反应山。由于腐蚀现象的广泛存在,并且近年来对 腐蚀过程细致深的研究,促使人们对腐蚀模型不断提出了更高的精度要求,还希望通过模型可以 对腐蚀现象做出机理解释。相对湿度、温度以及降雨与液膜厚度的变化相关,在大气腐蚀过程中起 到重要作用2,常见的硫化物、氯化物、臭氧、固体颗粒物等污染性杂质对大气腐蚀也有促进作用 。影响腐蚀过程的环境变量众多,并且不同的环境变量之间也会产生相互作用,使得金属的大气 腐蚀更加复杂例。 传统的腐蚀挂片法通过把参数已知的金属试片放入特定环境下,计算暴露期间内试样的质量变 化来计算腐蚀速率。IS09226-2012标准给出了测定标准试样在大气环境下腐蚀速率的方法。IS0 9223-2012标准o则以相对湿度(Relative Humidity,RH)、温度(Temperature,.T)、SO2沉积速率、 C沉积速率的年平均值量化碳钢等四种材料在第一年的腐蚀速率,并据此推测环境的腐蚀性等级。 基于传统挂片法,支元杰叫利用失重法测得Q235碳钢在10个试验地点的腐蚀速率,结合随机森林
4) National Materials Corrosion and Protection Data Center, Beijing 100083, China 5) School of Automation and Electrical Engineering, University of Science and Technology Beijing, Beijing 100083, China Corresponding author, E-mail: fdm_ustb@ustb.edu.cn; dzhang@ustb.edu.cn ABSTRACT Machine learning algorithms are widely used to predict the corrosion rate of materials in a specific environment, but such black-box models’ interpretability are poor, which obstacle the application in the field of material corrosion. Therefore, to increase the algorithm transparency in practical applications, it is necessary to further explore the causal relationship in the material corrosion phenomenon based on machine learning models. To solve the above problems, this paper aims at the corrosion process of carbon steel in the atmosphere with many variables and complex mechanisms, proposing an important variable mining framework based on the comprehensive intelligent model. This framework can mine the important environmental variables that affect the early atmospheric corrosion of carbon steel and their influence on the corrosion galvanic current. This paper collected hour-level atmospheric corrosion data of carbon steel 45 from 5 test sites in China through the atmospheric corrosion monitor (ACM) and China Meteorological Administration, including relative humidity, temperature, rainfall, O3 concentration, SO2 concentration, NO2 concentration, PM2.5 concentration, PM10 concentration. In order to ensure the stability of the results, three machine learning models with different fitting strategies are constructed: Random Forest (RF), Gradient Boosted Regression Trees (GBRT), and Back-Propagation Neural Network (BPNN). Then it is important to use Multi-model Ensemble Important Variable Selection (MEIVS) to quantify the importance of environmental variables and extract important environmental variables that affect the early atmospheric corrosion of carbon steel severely. Eventually, the Partial-dependence Plot (PDP) between environmental variables and corrosion galvanic current is drawn. Based on the simulation results, three significant conclusions are obtained. 1) Compared with Pearson’s Correlation Coefficient (PCC) and Spearman's Correlation Coefficient (SCC), the important environmental variables mined by MEIVS algorithm are more in line with the prior law of early atmospheric corrosion of carbon steel. Relative humidity, temperature, and rainfall have the greatest impact on the early atmospheric corrosion of carbon steel, and O3 also has a great influence on the atmospheric corrosion in Sanya. In addition, other pollutants in various regions have a weak impact on the early atmospheric corrosion of carbon steel. 2) PDP shows that in most cases, the corrosion galvanic current of carbon steel 45 is negatively correlated with temperature and positively correlated with relative humidity. 3) PDP and MEIVS are well consistent. The simulation reveal that PDP corresponding to important environmental variables has a greater range of change, and the changing trend of PDP can reflect the influence of environmental variables on corrosion galvanic current. KEY WORDS atmospheric corrosion; carbon steel; model integration; important variable extraction; partial-dependence plot 碳钢的大气腐蚀是一种电解质膜下的电化学反应[1]。由于腐蚀现象的广泛存在,并且近年来对 腐蚀过程细致深入的研究,促使人们对腐蚀模型不断提出了更高的精度要求,还希望通过模型可以 对腐蚀现象做出机理解释。相对湿度、温度以及降雨与液膜厚度的变化相关,在大气腐蚀过程中起 到重要作用[2-4],常见的硫化物、氯化物、臭氧、固体颗粒物等污染性杂质对大气腐蚀也有促进作用 [5-7]。影响腐蚀过程的环境变量众多,并且不同的环境变量之间也会产生相互作用,使得金属的大气 腐蚀更加复杂[8]。 传统的腐蚀挂片法通过把参数已知的金属试片放入特定环境下,计算暴露期间内试样的质量变 化来计算腐蚀速率。ISO 9226-2012 标准[9]给出了测定标准试样在大气环境下腐蚀速率的方法。ISO 9223-2012 标准[10]则以相对湿度(Relative Humidity, RH)、温度(Temperature, T)、SO2沉积速率、 Cl-沉积速率的年平均值量化碳钢等四种材料在第一年的腐蚀速率,并据此推测环境的腐蚀性等级。 基于传统挂片法,支元杰[11]利用失重法测得 Q235 碳钢在 10 个试验地点的腐蚀速率,结合随机森林 录用稿件,非最终出版稿
和斯皮尔曼相关分析得到影响碳钢大气腐蚀的重要环境变量,并以重要环境变量作为输入变量构建 支持向量回归模型:Ya2采用统计方法和机器学习算法分析了合金元素和海洋大气环境变量对低 合金钢腐蚀行为的影响,建立了基于随机森林算法的腐蚀速率预测模型。然而,腐蚀挂片法试验周 期漫长,所获试验数据量少,无法用以推测碳钢的实时腐蚀速率。 大气腐蚀监测仪(Atmospheric Corrosion Monitor,ACM)ls通过监测腐蚀电偶电流来定量评估 材料的实时腐蚀速率。以F/Cu电偶组成的ACM传感器为例,当ACM传感器表面形成一层液膜 时,F电偶和Cu电偶之间就会产生腐蚀电偶电流,腐蚀电偶电流与腐蚀速率具有很强的正相关关 系,可以定量评估腐蚀环境以及材料的腐蚀状态4,均。基于ACM传感器获取的腐蚀电偶电流数据 以及实时环境数据,石雅楠6利用皮尔逊相关分析法确定了温度、相对湿度和污染物浓度为影响腐 蚀电偶电流的主要环境变量,提出了用以表征大气环境腐蚀强度的腐蚀指数并建立了腐蚀电偶电流 和腐蚀指数的隐马尔可夫模型:裴梓博利用统计学的方法研究了相对湿度、温度和降雨等环境变 量对碳钢早期大气腐蚀的影响,确定了降雨是影响早期大气腐蚀的最重要变量。述方法挖掘出了 腐蚀电偶电流与环境变量的关系,但不足之处在于:(1)相关性分析只能得到腐蚀电偶电流和单 一环境变量的二元关系,没有考虑其他环境变量的影响:(2)不能将环境变量对腐蚀电偶电流的 影响可视化。此外,虽然机器学习模型广泛应用于预测特定环境下的脑蚀速率,但是此类黑箱模型 透明性低、模型可解释性差剧,阻碍了此类方法在材料腐蚀领域的应用因此,有必要在机器学习 模型的基础上进一步挖掘材料腐蚀现象中的因果关系,增加模型在实际应用中的可靠性。 为了解决材料腐蚀领域中机器学习算法的“黑箱”问题本文少讹京、杭州、武汉、青岛、三 亚的碳钢ACM腐蚀数据为例,利用多模型集成重要变量选择算法(Multi--model Ensemble Important Variable Selection,MEIVS)量化不同地区碳钢早期大气腐蚀过程中环境变量的重要性,并绘制了各 个环境变量的局部依赖曲线(Partial-dependence Plot, 将不同环境变量对腐蚀电偶电流的影 响可视化。 1大气试验 本试验陆续起始于2018年7月底, 结束于2018年9月初,试验地点为位于中国北京、杭州、 武汉、青岛、三亚的五个野外试验站点,实验样品为45号钢,质量分数为 C(0.47%)、Mn(0.59%)、Si0.18%yS(0.010%)、P(0.014%)、Ni(0.015%)、Cr(0.016%)、Cu(<0.01%) 和F(剩余部分)。野外试验站点的地理和气候信息如表1所示。在本研究中,使用大气腐蚀监测仪 来量化大气环境中碳钢的腐蚀速率。ACM由7对F-Cu电偶交替排列组成,每片碳钢与铜的外部 裸露面积为21×1mm2,实验时约家装在离地面1米以上并朝南45°外露。更多关于ACM的介绍请 参考文献[19]。实验期间通过A℃M传感器获取采集频率为1次/分钟的电偶电流数据,同时传感器 记录同一地点的温度和相对湿度,降雨、O、SO2、NO2、PM2.5、PM10等小时级环境数据从中国 气象局获得。将传感器数据与环境数据统一到最低采样频率,即1小时1次。短期的大气腐蚀没有 考虑氯化物的影响,因为氯化物的影响是长期的、累积性的,根据S09225标准,氯化物的沉积 速率应以干板法每月测定一次。夏季频繁的降雨也大大降低了氯化物的沉积速率,减弱了氯化物对 腐蚀的影响20。 表1大气离烛试验场地通和气候信息 Table 1 Geographic and climatic information of atmospheric corrosion test site Region Longitude and latitude Climate type External environment Corrosion grade Beijing 116e71F39°5gN Temperate monsoon climate Country C3-C4 Hangzhou 12030E,30°22N Subtropical monsoon humid climate Industrial zone C4 Wuhan 1141SE,30°34N Subtropical monsoon climate Country C3-C4 Qingdao 12026E,3604'N Temperate monsoon climate Coastal industrial zone C5-CX Sanya 109°21'E18°17"N Tropical marine monsoon climate Coastal industrial zone C4 2算法原理
和斯皮尔曼相关分析得到影响碳钢大气腐蚀的重要环境变量,并以重要环境变量作为输入变量构建 支持向量回归模型;Yan[12]采用统计方法和机器学习算法分析了合金元素和海洋大气环境变量对低 合金钢腐蚀行为的影响,建立了基于随机森林算法的腐蚀速率预测模型。然而,腐蚀挂片法试验周 期漫长,所获试验数据量少,无法用以推测碳钢的实时腐蚀速率。 大气腐蚀监测仪(Atmospheric Corrosion Monitor,ACM)[13]通过监测腐蚀电偶电流来定量评估 材料的实时腐蚀速率。以 Fe/Cu 电偶组成的 ACM 传感器为例,当 ACM 传感器表面形成一层液膜 时,Fe 电偶和 Cu 电偶之间就会产生腐蚀电偶电流,腐蚀电偶电流与腐蚀速率具有很强的正相关关 系,可以定量评估腐蚀环境以及材料的腐蚀状态[14,15]。基于 ACM 传感器获取的腐蚀电偶电流数据 以及实时环境数据,石雅楠[16]利用皮尔逊相关分析法确定了温度、相对湿度和污染物浓度为影响腐 蚀电偶电流的主要环境变量,提出了用以表征大气环境腐蚀强度的腐蚀指数并建立了腐蚀电偶电流 和腐蚀指数的隐马尔可夫模型;裴梓博[17]利用统计学的方法研究了相对湿度、温度和降雨等环境变 量对碳钢早期大气腐蚀的影响,确定了降雨是影响早期大气腐蚀的最重要变量。上述方法挖掘出了 腐蚀电偶电流与环境变量的关系,但不足之处在于:(1)相关性分析只能得到腐蚀电偶电流和单 一环境变量的二元关系,没有考虑其他环境变量的影响;(2)不能将环境变量对腐蚀电偶电流的 影响可视化。此外,虽然机器学习模型广泛应用于预测特定环境下的腐蚀速率,但是此类黑箱模型 透明性低、模型可解释性差[18],阻碍了此类方法在材料腐蚀领域的应用。因此,有必要在机器学习 模型的基础上进一步挖掘材料腐蚀现象中的因果关系,增加模型在实际应用中的可靠性。 为了解决材料腐蚀领域中机器学习算法的“黑箱”问题,本文以北京、杭州、武汉、青岛、三 亚的碳钢 ACM 腐蚀数据为例,利用多模型集成重要变量选择算法(Multi-model Ensemble Important Variable Selection, MEIVS)量化不同地区碳钢早期大气腐蚀过程中环境变量的重要性,并绘制了各 个环境变量的局部依赖曲线(Partial-dependence Plot, PDP),将不同环境变量对腐蚀电偶电流的影 响可视化。 1 大气暴露试验 本试验陆续起始于 2018 年 7 月底,结束于 2018 年 9 月初,试验地点为位于中国北京、杭州、 武 汉 、 青 岛 、 三 亚 的 五 个 野 外 试 验 站 点 , 实 验 样 品 为 45 号 钢 , 质 量 分 数 为 C(0.47%)、Mn(0.59%)、Si(0.18%)、S(0.010%)、P(0.014%)、Ni(0.015%)、Cr(0.016%)、Cu(<0.01%) 和 Fe(剩余部分)。野外试验站点的地理和气候信息如表 1 所示。在本研究中,使用大气腐蚀监测仪 来量化大气环境中碳钢的腐蚀速率。ACM 由 7 对 Fe-Cu 电偶交替排列组成,每片碳钢与铜的外部 裸露面积为 21×1mm2,实验时均安装在离地面 1 米以上并朝南 45°外露。更多关于 ACM 的介绍请 参考文献[19]。实验期间通过 ACM 传感器获取采集频率为 1 次/分钟的电偶电流数据,同时传感器 记录同一地点的温度和相对湿度,降雨、O3、SO2、NO2、PM2.5、PM10 等小时级环境数据从中国 气象局获得。将传感器数据与环境数据统一到最低采样频率,即 1 小时 1 次。短期的大气腐蚀没有 考虑氯化物的影响,因为氯化物的影响是长期的、累积性的,根据 ISO 9225 标准,氯化物的沉积 速率应以干板法每月测定一次。夏季频繁的降雨也大大降低了氯化物的沉积速率,减弱了氯化物对 腐蚀的影响[20]。 表 1 大气腐蚀试验场地理和气候信息 Table 1 Geographic and climatic information of atmospheric corrosion test site Region Longitude and latitude Climate type External environment Corrosion grade Beijing 116°21'E, 39°59'N Temperate monsoon climate Country C3-C4 Hangzhou 120°30'E, 30°22'N Subtropical monsoon humid climate Industrial zone C4 Wuhan 114°15'E, 30°34'N Subtropical monsoon climate Country C3-C4 Qingdao 120°26'E, 36°04'N Temperate monsoon climate Coastal industrial zone C5-CX Sanya 109°21'E, 18°17'N Tropical marine monsoon climate Coastal industrial zone C4 2 算法原理 录用稿件,非最终出版稿
2.1 MEIVS算法 MEVS算法2借鉴于排列的思想,以打乱输入变量在测试集上的序列后模型预测误差的增加 来衡量变量的重要性。基于排序的变量重要性度量方法是Breiman通过随机森林算法P引入的, Fisher将该算法拓展到任意模型Pl。其思路是模型会更依赖于重要的输入变量做预测,如果打乱某 个输入变量的序列会大幅度增加模型的预测误差,这个输入变量则被认为是重要的:反之,如果打 乱某个输入变量的序列几乎不影响的预测误差,这个输入变量则被认为是不重要的。不同的重要变 量提取方法得到的变量重要性得分(Variable Importance Score,.VIS)存在差异,因为每种方法对映射 输入变量和输出变量的底层回归函数有不同的假设。为保证结果的稳定性,MEVS算法组合了随 机森林(Random Forest,.RF)、梯度提升回归树(Gradient Boosted Regression Trees,GBRT)、BP神经网 络(Back-Propagation Neural Network,BPNN)三种具有代表性的机器学习算法,使得该算法不依赖 于单一的机器学习。其中RF和GBRT都属于决策树的集成学习算法,但RF采用Bagging的计算策 略,GBRT采用Boosting的计算策略:BPNN采用双隐层结构,激活函数采用众曲正切函数。本文 的损失函数采用的是均方根误差(Root Mean Squared Error,.RMSE): ∑(-)2 (1) RMSE N 其中,N为样本个数,),为第i个样本的预测值,y为第个样本的实际值。以样本的80%作 为训练集,20%作为测试集,使用Z,S0心标准化方法对省入委量通行预处理,经过处理的数据的 均值为0,标准差为1。为便于分析,对腐蚀电偶电流数据做对数化处理。记m个环境变量的集合 色0,最终得到个重要环境变量的家 ,具体算法请参考文献[21]。给出算 法流程图如下: (a) MEIVS Algorithm Permutation Algorithm (Begin 1 Standardization Calculate RMSE on the test set Train set Test set 7 Generate permutations ofS uniformly at random RF GBRT BPNN Algorithm Algorithm Algorithm Calculating average RMSE M loss w ermutation ermutation Permutation Calculate permutation Algorithm Algonthm Algorithm importance of S Compute the final importance score Yes j+1 广≤m? Select variables No Calculate standardized End importance score ■1 MEIVS算法流程图.(a)MEIVS算法主流程,(b)排列算法流程
2.1 MEIVS 算法 MEIVS 算法[21]借鉴于排列的思想,以打乱输入变量在测试集上的序列后模型预测误差的增加 来衡量变量的重要性。基于排序的变量重要性度量方法是 Breiman 通过随机森林算法[22]引入的, Fisher 将该算法拓展到任意模型[23]。其思路是模型会更依赖于重要的输入变量做预测,如果打乱某 个输入变量的序列会大幅度增加模型的预测误差,这个输入变量则被认为是重要的;反之,如果打 乱某个输入变量的序列几乎不影响的预测误差,这个输入变量则被认为是不重要的。不同的重要变 量提取方法得到的变量重要性得分(Variable Importance Score, VIS)存在差异,因为每种方法对映射 输入变量和输出变量的底层回归函数有不同的假设。为保证结果的稳定性,MEIVS 算法组合了随 机森林(Random Forest, RF)、梯度提升回归树(Gradient Boosted Regression Trees, GBRT)、BP 神经网 络(Back-Propagation Neural Network, BPNN)三种具有代表性的机器学习算法,使得该算法不依赖 于单一的机器学习。其中 RF 和 GBRT 都属于决策树的集成学习算法,但 RF 采用 Bagging 的计算策 略,GBRT 采用 Boosting 的计算策略;BPNN 采用双隐层结构,激活函数采用双曲正切函数。本文 的损失函数采用的是均方根误差(Root Mean Squared Error, RMSE): 2 1 ˆ N i i i y y RMSE N (1) 其中,N 为样本个数, ˆ i y 为第 i 个样本的预测值, i y 为第 i 个样本的实际值。以样本的 80%作 为训练集,20%作为测试集,使用 Z-Score 标准化方法对输入变量进行预处理,经过处理的数据的 均值为 0,标准差为 1。为便于分析,对腐蚀电偶电流数据做对数化处理。记 m 个环境变量的集合 为 S S 1 , , m ,最终得到 n 个重要环境变量的集合 X X 1 , , n ,具体算法请参考文献[21]。给出算 法流程图如下: 图 1 MEIVS 算法流程图. (a) MEIVS 算法主流程; (b) 排列算法流程 录用稿件,非最终出版稿
Fig.1 The flowchart of MEIVS algorithm:(a)main process steps of MEIVS algorithm;(b)process steps of Permutation algorithm 2.2局部依赖曲线 设f八)表示输入变量与输出变量的映射关系,在样本xw上对于第Sm)个输入变量的 Ceteris--paribus函数(e)为: h()=f) (2) (是描述输出变量的预测值与第j个输入变量x,的依赖关系的函数,其中,x:代表其他 输入变量取样本x"的实际值、第j个输入变量任取z值时构造的样本,:可在变量的整个数值范 围内取值。考虑更广泛的情况,本文随机挑选l00个样本,计算l00梯本的Ceteris-paribus函数, 取其均值得到局部依赖函数g(),通过该函数所绘制的曲线为PDP2 g=之 n (3) 本文以PDP描述环境变量的变化对腐蚀电偶电流的碎均影响,PDP由三个模型的预测均值产 生。PDP的变化越剧烈,表示环境变量对腐蚀电偶兜流产生的影响越大。 3仿真结果与分析 3.1大气离做重要变量分析 本文以Z-Score标准化后的相对湿度、温度、降雨、O3浓度、SO2浓度、NO2浓度、PM2.5浓度、 PM10浓度数据作为输入变量,对数腐蚀电偶电流为输出变量,分别对五个地区的大气腐蚀数据建 立RF、GBRT、BPNN模型。本文以8O%的数据作为训练集,20%的数据作为测试集,为每个地区 的模型进行了调参。对于RF,用MO0棵CART树作为基学习器,超参数为用于CART树的变量 个数:对于GBT,超参数为提迭代次数、最大树深度、学习速率、最小终端节点大小:对于 BPNN,采用双隐层结构微函数为ah函数,学习速率设置为0.0ool,最大迭代次数为 10000, 超参数为隐层神经元个数。采用网格搜索法和十折交叉验证法对3个模型进行调优,其他 未调参数采用默认值,模型预测结果如表2所示。评价指标采用可决系数(Coefficient of Determination,R)和RMSE。 之-y R2=1- (4) 2- 其中,)为所有样本实际值的均值。 表2三州横型在不同地区的州合表现 Table 2 Fitting performance of the three models in different regions Training set Testing set Region Model RMSE R RMSE Beijing 0.956 0.408 0.8150.743
Fig.1 The flowchart of MEIVS algorithm: (a) main process steps of MEIVS algorithm; (b) process steps of Permutation algorithm 2.2 局部依赖曲线 设 f 表示输入变量与输出变量的映射关系,在样本 new x 上对于第 j(j≤m)个输入变量的 Ceteris-paribus 函数 ( ) j h z 为: | j new j z h z f x (2) j h z 是描述输出变量的预测值与第 j 个输入变量 j x 的依赖关系的函数,其中, | new j z x 代表其他 输入变量取样本 new x 的实际值、第 j 个输入变量任取 z 值时构造的样本,z 可在变量 j x 的整个数值范 围内取值。考虑更广泛的情况,本文随机挑选 100 个样本,计算 100 个样本的 Ceteris-paribus 函数, 取其均值得到局部依赖函数 j g z ,通过该函数所绘制的曲线为 PDP[24,25]。 | 1 1 n j i j z i g z f x n (3) 本文以 PDP 描述环境变量的变化对腐蚀电偶电流的平均影响,PDP 由三个模型的预测均值产 生。PDP 的变化越剧烈,表示环境变量对腐蚀电偶电流产生的影响越大。 3 仿真结果与分析 3.1 大气腐蚀重要变量分析 本文以 Z-Score 标准化后的相对湿度、温度、降雨、O3浓度、SO2浓度、NO2浓度、PM2.5 浓度、 PM10 浓度数据作为输入变量,对数腐蚀电偶电流为输出变量,分别对五个地区的大气腐蚀数据建 立 RF、GBRT、BPNN 模型。本文以 80%的数据作为训练集,20%的数据作为测试集,为每个地区 的模型进行了调参。对于 RF,采用 100 棵 CART 树作为基学习器,超参数为用于 CART 树的变量 个数;对于 GBRT,超参数为提升迭代次数、最大树深度、学习速率、最小终端节点大小;对于 BPNN,采用双隐层结构,激活函数为 tanh 函数,学习速率设置为 0.0001,最大迭代次数为 10000,超参数为隐层神经元个数。采用网格搜索法和十折交叉验证法对 3 个模型进行调优,其他 未调参数采用默认值。模型预测结果如表 2 所示。评价指标采用可决系数 (Coefficient of Determination, R2 )和 RMSE。 2 2 1 2 1 ˆ 1 N i i i N i i y y R y y (4) 其中, y 为所有样本实际值的均值。 表 2 三种模型在不同地区的拟合表现 Table 2 Fitting performance of the three models in different regions Region Model Training set Testing set R 2 RMSE R 2 RMSE Beijing RF 0.956 0.408 0.815 0.743 录用稿件,非最终出版稿