第16卷第6期 智能系统学报 Vol.16 No.6 2021年11月 CAAI Transactions on Intelligent Systems Now.2021 D0:10.11992tis.202009020 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.TP.20210831.1251.004html 基于AC-GAN数据重构的风电机组 主轴承温度监测方法 尹诗2,侯国莲2,胡晓东2,周继威 (1.中能电力科技开发有限公司,北京100034:2.华北电力大学控制与计算机工程学院,北京102206) 摘要:为更好地识别风电机组主轴承运行状态,提出了一种基于辅助分类生成对抗网络(auxiliary classifier generative adversarial networks,AC-GAN)的数据重构算法对风电机组主轴承温度进行监测。首先,利用采集与 监视控制系统(supervisory control and data acquisition,SCADA)时序数据建立基于轻型梯度增强学习器((light gradient boosting machine,LightGBM)的主轴承温度预测模型,并计算其残差特征。其次,利用统计过程控制 (statistical process control,SPC)方法对主轴承温度异常残差在控制线范围内进行筛选,并利用AC-GAN算法对 残差进行重构。最后,分别提取主轴承温度正常和异常的残差特征,建立基于自然梯度提升(natural gradient boosting,NGBoost)的主轴承状态监测模型。实验结果表明,该方法对主轴承运行状态判断准确度高达87.5% 能够有效地监测风电机组轴承类运行状态。 关键词:轻型梯度增强学习器;辅助分类生成对抗网络;自然梯度提升;风电机组;主轴承;状态监测;数据重 构;温度残差 中图分类号:TP8,TK83文献标志码:A文章编号:1673-4785(2021)06-1106-11 中文引用格式:尹诗,侯国莲,胡晓东,等.基于AC-GAN数据重构的风电机组主轴承温度监测方法机.智能系统学报,2021, 16(6):1106-1116. 英文引用格式:YIN Shi,.HOU Guolian,HU Xiaodong,.etal.Temperature monitoring method of the main bearing of wind turbine based on AC-GAN data reconstruction[J).CAAI transactions on intelligent systems,2021,16(6):1106-1116. Temperature monitoring method of the main bearing of wind turbine based on AC-GAN data reconstruction YIN Shi,HOU Guolian',HU Xiaodong',ZHOU Jiwei' (1.ZhongNeng Power-Tech Development Co.,LTD,Beijing 100034,China;2.College of Control and Computer Engineering,North China Electric Power University,Beijing 102206,China) Abstract:To better identify the operating status of the main bearing of wind turbines,a data reconstruction algorithm based on auxiliary classifier generative adversarial networks(AC-GAN)is proposed to monitor the temperature of the main bearing of the wind turbine.First,this work uses the time series data of the supervisory control and data acquisi- tion system to establish the wind turbine's main bearing temperature prediction model based on the light gradient boost- ing machine and calculates its residual characteristics.Second,the statistical process control(SPC)method is used to screen abnormal temperature residuals of the main bearing within the control line,and the AC-GAN algorithm is used to reconstruct the residual sequence.Finally,normal and abnormal temperature residual characteristics of the main bearing are extracted,and the main bearing status monitoring model based on the natural gradient boosting algorithm is estab- lished.Experimental results show that the accuracy of the method for judging the operating state of the main bearing is as high as 87.5%,for which the algorithm can effectively monitor the running state of wind turbine bearings. Keywords:light gradient boosting machine;auxiliary classifier generative adversarial networks;natural gradient boost- ing:wind turbines:main bearing:condition monitoring:data reconstruction:temperature residual 由于风电机组所处运行环境恶劣,受气象、 收稿日期:2020-09-15.网络出版日期:2021-08-31. 基金项目:国家自然科学基金项目(61973116). 设备老化等多种不确定因素的影响,容易出现性 通信作者:尹诗.E-mail:yinshi502@163.com 能与运行状态劣化,从而造成关键部件失效。风
DOI: 10.11992/tis.202009020 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210831.1251.004.html 基于 AC-GAN 数据重构的风电机组 主轴承温度监测方法 尹诗1,2,侯国莲2 ,胡晓东2 ,周继威1 (1. 中能电力科技开发有限公司,北京 100034; 2. 华北电力大学 控制与计算机工程学院,北京 102206) 摘 要:为更好地识别风电机组主轴承运行状态,提出了一种基于辅助分类生成对抗网络 (auxiliary classifier generative adversarial networks, AC-GAN) 的数据重构算法对风电机组主轴承温度进行监测。首先,利用采集与 监视控制系统 (supervisory control and data acquisition, SCADA) 时序数据建立基于轻型梯度增强学习器 (light gradient boosting machine, LightGBM) 的主轴承温度预测模型,并计算其残差特征。其次,利用统计过程控制 (statistical process control, SPC) 方法对主轴承温度异常残差在控制线范围内进行筛选,并利用 AC-GAN 算法对 残差进行重构。最后,分别提取主轴承温度正常和异常的残差特征,建立基于自然梯度提升 (natural gradient boosting, NGBoost) 的主轴承状态监测模型。实验结果表明,该方法对主轴承运行状态判断准确度高达 87.5%, 能够有效地监测风电机组轴承类运行状态。 关键词:轻型梯度增强学习器;辅助分类生成对抗网络;自然梯度提升;风电机组;主轴承;状态监测;数据重 构;温度残差 中图分类号:TP8; TK83 文献标志码:A 文章编号:1673−4785(2021)06−1106−11 中文引用格式:尹诗, 侯国莲, 胡晓东, 等. 基于 AC-GAN 数据重构的风电机组主轴承温度监测方法 [J]. 智能系统学报, 2021, 16(6): 1106–1116. 英文引用格式:YIN Shi, HOU Guolian, HU Xiaodong, et al. Temperature monitoring method of the main bearing of wind turbine based on AC-GAN data reconstruction[J]. CAAI transactions on intelligent systems, 2021, 16(6): 1106–1116. Temperature monitoring method of the main bearing of wind turbine based on AC-GAN data reconstruction YIN Shi1,2 ,HOU Guolian2 ,HU Xiaodong2 ,ZHOU Jiwei1 (1. ZhongNeng Power-Tech Development Co., LTD, Beijing 100034, China; 2. College of Control and Computer Engineering, North China Electric Power University, Beijing 102206, China) Abstract: To better identify the operating status of the main bearing of wind turbines, a data reconstruction algorithm based on auxiliary classifier generative adversarial networks (AC-GAN) is proposed to monitor the temperature of the main bearing of the wind turbine. First, this work uses the time series data of the supervisory control and data acquisition system to establish the wind turbine’s main bearing temperature prediction model based on the light gradient boosting machine and calculates its residual characteristics. Second, the statistical process control (SPC) method is used to screen abnormal temperature residuals of the main bearing within the control line, and the AC-GAN algorithm is used to reconstruct the residual sequence. Finally, normal and abnormal temperature residual characteristics of the main bearing are extracted, and the main bearing status monitoring model based on the natural gradient boosting algorithm is established. Experimental results show that the accuracy of the method for judging the operating state of the main bearing is as high as 87.5%, for which the algorithm can effectively monitor the running state of wind turbine bearings. Keywords: light gradient boosting machine; auxiliary classifier generative adversarial networks; natural gradient boosting; wind turbines; main bearing; condition monitoring; data reconstruction; temperature residual 由于风电机组所处运行环境恶劣,受气象、 设备老化等多种不确定因素的影响,容易出现性 能与运行状态劣化,从而造成关键部件失效。风 收稿日期:2020−09−15. 网络出版日期:2021−08−31. 基金项目:国家自然科学基金项目 (61973116). 通信作者:尹诗. E-mail:yinshi502@163.com. 第 16 卷第 6 期 智 能 系 统 学 报 Vol.16 No.6 2021 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2021
第6期 尹诗,等:基于AC-GAN数据重构的风电机组主轴承温度监测方法 ·1107· 电机组主轴承连接着轮毂与齿轮箱,作为重要的 象,提出了一种基于辅助分类生成对抗网络(aux- 机械传动部件之一,其可靠性要求较高,但主轴 iliary classifiergenerative adversarial networks,AC- 承内部结构和受力较复杂,且常常运行在重负 GAN)数据重构的风电机组主轴承状态监测方法 荷、强冲击的工作状态下,容易发生磨损、不对 对其运行状态进行监测。 中、不平衡等问题。风电机组主轴承一旦损坏, 受限于维修过程的复杂,其维修费用高、周期长, 1建模方法设计 严重影响风电场的经济效益。 温度是风电机组运行数据中较为重要的观测 风电机组故障诊断研究目前主要集中在振动 指标,具有很强的抗干扰性,不会轻易因环境或 信号分析法方法、SCADA数据分析方法、视频图 工况变化产生剧烈跳跃变化。正常情况下,轴承 像检测方法、润滑油检测方法、声发射信号检测 温度随着轴承开始运行缓慢上升,后续达到稳定 方法、应变传感信号检测方法等。数据挖掘方 运行状态。风电机组主轴承温度随着热容量、散 法能够在大量数据中发现隐含的知识或潜在规 热速度、转速和负载而发生变化。但机械传动设 律,因此近年来在各行业中具有广泛的研究和应 备在运行过程中产生的磨损、润滑不良、屏蔽不 用。随着数据挖掘算法的不断发展,一些算法逐 良等问题往往会导致温度数据异常,如果主轴承 渐被应用到故障预警和故障辨识中)。目前基于 长期在高温下运行,其运行寿命将会大大缩短, 数据挖掘的风电机组的状态监测研究主要基于采 甚至会引起更为严重的故障事故。因此,本文 集与监视控制系统(supervisory control and data ac- 重点分析风电机组主轴承温度参数的变化,监测 quisition,.SCADA)时序数据,利用相关智能学习 并实时掌握主轴承运行状态,发现其潜在隐患。 算法建立设备部件的正常运行模型,通过分析正 风电机组主轴承温度预测模型的准确度、泛化能 常模型预测值与实际观测值之间的残差进行状态 力以及状态决策模型的准确度决定着主轴承状态 监测。文献「4]利用深度置信网络建立发电机同 监测的精准度。建模流程如图1所示。 步定子故障预警模型,对残差设定故障阈值进行 首先,利用SCADA时序数据建立基于轻型 状态监测。文献[5]利用BOX-COX变换和相对 梯度增强学习器(light gradient boosting machine 熵对残差进行分析,对齿轮箱进行状态监测。文 LightGBM)的主轴承温度预测模型,定义模型预 献[6]利用数据分类重建和提取衰退指标的方法 测输出温度与实际观测温度之差为残差。相较于 对齿轮箱进行状态监测。文献[7将DS证据理论 其他算法,LightGBM算法无需通过计算所有样本 应用于SCADA警报分析对风电机组进行故障诊断。 信息增益,其内置的特征降维技术具有较高的预 文献[8]通过提取风电机组SCADA系统中的实 测精度和较快的训练速度,比较适合于工程实现。 际运行数据,采用双向递归神经网络建立风电机 其次,通过滑动窗口和统计过程控制(statist- 组运行预测模型,根据滑动窗口的实际值与实测 ical process control,.SPC)方法将异常主轴承残差 值之间的残差,利用莱特准则实现故障预警。 中的正常残差和异常残差进行有效区分。利用 以上方法对残差进行分析时需要人为设定故 AC-GAN辅助分类生成对抗网络生成与主轴承异 障预警阈值,所述方法适用于某一特定风电场, 常残差分布相似的残差数据集,用来替换异常主 其泛化性有待提升。文献[9]利用SCADA数据 轴承残差分布中的正常残差数据集。由于风电机 提出了基于工况辨识的Bi-RNN神经网络,建立 组异常主轴承的残差特征不全表征为异常状态,无 预警模型对风电机组主轴承运行状态进行监测, 法统一进行标记。因此,利用AC-GAN将温度残 该方法在故障决策方面引入随机森林算法避免人 差特征进行数据重构,得到异常主轴承下的残差 为设定故障阈值,但由于故障发生前SCADA数 特征,从根本上解决了异常样本数据的标记问题, 据不全是表征故障的数据,所建立的状态决策模 进而提高了后续主轴承状态决策模型的预测精度。 型精度有待提升。 最后,建立基于自然梯度提升(natural gradi- 上述研究在不同程度上对风电机组关键核心 ent boosting,.NGBoost)的状态决策模型对风电机 部件的状态监测和故障预警起到了推动作用,但 组主轴承状态进行判断。NGBoost算法利用自然 是普遍存在泛化性弱,故障决策受主观因素影 梯度进行概率预测,解决了传统状态决策方法中 响、缺乏理论支撑等问题,限制了状态监测模型 采用单一固定阈值或人为主观设定阈值进行风电 的工程实用性。 机组运行状态监测的问题,提高了状态决策模型 因此,本文以风电机组主轴承温度为研究对 的预测精度和泛化性
电机组主轴承连接着轮毂与齿轮箱,作为重要的 机械传动部件之一,其可靠性要求较高,但主轴 承内部结构和受力较复杂,且常常运行在重负 荷、强冲击的工作状态下,容易发生磨损、不对 中、不平衡等问题[1]。风电机组主轴承一旦损坏, 受限于维修过程的复杂,其维修费用高、周期长, 严重影响风电场的经济效益。 风电机组故障诊断研究目前主要集中在振动 信号分析法方法、SCADA 数据分析方法、视频图 像检测方法、润滑油检测方法、声发射信号检测 方法、应变传感信号检测方法等[2]。数据挖掘方 法能够在大量数据中发现隐含的知识或潜在规 律,因此近年来在各行业中具有广泛的研究和应 用。随着数据挖掘算法的不断发展,一些算法逐 渐被应用到故障预警和故障辨识中[3]。目前基于 数据挖掘的风电机组的状态监测研究主要基于采 集与监视控制系统 (supervisory control and data acquisition, SCADA) 时序数据,利用相关智能学习 算法建立设备部件的正常运行模型,通过分析正 常模型预测值与实际观测值之间的残差进行状态 监测。文献 [4] 利用深度置信网络建立发电机同 步定子故障预警模型,对残差设定故障阈值进行 状态监测。文献 [5] 利用 BOX-COX 变换和相对 熵对残差进行分析,对齿轮箱进行状态监测。文 献 [6] 利用数据分类重建和提取衰退指标的方法 对齿轮箱进行状态监测。文献 [7] 将 DS 证据理论 应用于 SCADA 警报分析对风电机组进行故障诊断。 文献 [8] 通过提取风电机组 SCADA 系统中的实 际运行数据,采用双向递归神经网络建立风电机 组运行预测模型,根据滑动窗口的实际值与实测 值之间的残差,利用莱特准则实现故障预警。 以上方法对残差进行分析时需要人为设定故 障预警阈值,所述方法适用于某一特定风电场, 其泛化性有待提升。文献 [9] 利用 SCADA 数据 提出了基于工况辨识的 Bi-RNN 神经网络,建立 预警模型对风电机组主轴承运行状态进行监测, 该方法在故障决策方面引入随机森林算法避免人 为设定故障阈值,但由于故障发生前 SCADA 数 据不全是表征故障的数据,所建立的状态决策模 型精度有待提升。 上述研究在不同程度上对风电机组关键核心 部件的状态监测和故障预警起到了推动作用,但 是普遍存在泛化性弱,故障决策受主观因素影 响、缺乏理论支撑等问题,限制了状态监测模型 的工程实用性。 因此,本文以风电机组主轴承温度为研究对 象,提出了一种基于辅助分类生成对抗网络 (auxiliary classifiergenerative adversarial networks, ACGAN) 数据重构的风电机组主轴承状态监测方法 对其运行状态进行监测。 1 建模方法设计 温度是风电机组运行数据中较为重要的观测 指标,具有很强的抗干扰性,不会轻易因环境或 工况变化产生剧烈跳跃变化。正常情况下,轴承 温度随着轴承开始运行缓慢上升,后续达到稳定 运行状态。风电机组主轴承温度随着热容量、散 热速度、转速和负载而发生变化。但机械传动设 备在运行过程中产生的磨损、润滑不良、屏蔽不 良等问题往往会导致温度数据异常,如果主轴承 长期在高温下运行,其运行寿命将会大大缩短, 甚至会引起更为严重的故障事故[10]。因此,本文 重点分析风电机组主轴承温度参数的变化,监测 并实时掌握主轴承运行状态,发现其潜在隐患。 风电机组主轴承温度预测模型的准确度、泛化能 力以及状态决策模型的准确度决定着主轴承状态 监测的精准度。建模流程如图 1 所示。 首先,利用 SCADA 时序数据建立基于轻型 梯度增强学习器 (light gradient boosting machine, LightGBM) 的主轴承温度预测模型,定义模型预 测输出温度与实际观测温度之差为残差。相较于 其他算法,LightGBM 算法无需通过计算所有样本 信息增益,其内置的特征降维技术具有较高的预 测精度和较快的训练速度,比较适合于工程实现。 其次,通过滑动窗口和统计过程控制 (statistical process control, SPC) 方法将异常主轴承残差 中的正常残差和异常残差进行有效区分。利用 AC-GAN 辅助分类生成对抗网络生成与主轴承异 常残差分布相似的残差数据集,用来替换异常主 轴承残差分布中的正常残差数据集。由于风电机 组异常主轴承的残差特征不全表征为异常状态,无 法统一进行标记。因此,利用 AC-GAN 将温度残 差特征进行数据重构,得到异常主轴承下的残差 特征,从根本上解决了异常样本数据的标记问题, 进而提高了后续主轴承状态决策模型的预测精度。 最后,建立基于自然梯度提升 (natural gradient boosting, NGBoost) 的状态决策模型对风电机 组主轴承状态进行判断。NGBoost 算法利用自然 梯度进行概率预测,解决了传统状态决策方法中 采用单一固定阈值或人为主观设定阈值进行风电 机组运行状态监测的问题,提高了状态决策模型 的预测精度和泛化性。 第 6 期 尹诗,等:基于 AC-GAN 数据重构的风电机组主轴承温度监测方法 ·1107·
·1108· 智能系统学报 第16卷 采集健康历史SCADA数据 呆集异常历史SCADA数据 采集SCADA实时数据 数据预处理 数据预处理 数据预处理 特征提取 特征提取 特征提取 使用LightGBM 预测模型预测 温度值 计算异常状态参数残差 计算健康状态参数残差 计算监测状态参数残差 使用SPC方法区分正常和异常残差 特征提取 特征提取 利用AC-GAN网络重构异常残差 特征提取 建立NGBoost故障决策模型 故障决策模型 预测结果 图1建模方法流程 Fig.1 Flow chart of the modeling method 2数据预处理 率小于或等于0的数据别除: 表1 SCADA数据示例 2.1 SCADA数据说明 Table 1 Examples of SCADA data 本文所采用的SCADA数据是河北某风电场 1.5MW双馈式风力发电机组的运行数据。该风 采样时刻 风速ms风向/() 发电机转有功功 速/rmin率W 电场的风电机组切入风速为3m/s,切出数据为 2019/3/120:38 3.47 1.81 1130.52 240.26 25m/s。SCADA数据每10min记录一条,为了消 2019/3/120:48 3.09 -3.91 1132.56 215.71 除偶发性的故障对主轴温度预测模型的影响,本 文共选取该风电场1.5MW机组共36台机组,包 2019/9/210:28 4.89 -1.51 1424.43 420.00 括23台主轴承正常机组,13台主轴承异常机组。 2019/9/210:38 4.85 -1.45 1461.12450.56 这36台风电机组生产厂家和型号相同,并且都是 3)采用统计学中的四分位原理山对每个子 同一个风电场的风电机组,因此所利用的风资源 工况区间的SCADA数据进行清洗。 和地理环境相似,能够表征该风电场的所有运行 为说明去除异常噪声数据的效果,本文对2.1 工况。SCADA时序数据包括时间、风速、风向、 节提到的风电机组历史SCADA数据进行了异常 有功功率、发电机转速、叶轮转速、偏航角度、环 噪声数据去除,如图2所示。图2(a)为该风电机 境温度、齿轮箱油温等百余个有效观测数据。表1 组历史SCADA数据过滤前的风速功率曲线图, 为部分SCADA有效数据。 图2(b)为过滤后的风速功率曲线图。 2.2数据清洗 2.3特征数据提取 由于风电机组本身和SCADA系统在运行过程 风电机组SCADA数据中并非所有的时序数 中掉电、传感器损坏、系统宕机、通信设备故障等 据均与风电机组主轴承温度相关,为提高风电机 因素造成SCADA数据中夹杂着很多异常噪声数 组主轴承温度预测模型精度,同时降低模型训练 据。在建模前首先对数据进行清洗,其过程如下: 时长,选取与风电机组主轴承运行状态相关的特 1)采用分区间方法按风速0.5m/s划分子工 征子集。传统的特征筛选方式为利用皮尔森相关 况区间; 系数或根据工程师相关经验进行确定,皮尔森相 2)将小于切入风速、大于切出风速、有功功 关系数对数据的要求必须服从正态分布,但风电
数据预处理 数据预处理 特征提取 特征提取 计算异常状态参数残差 计算健康状态参数残差 采集异常历史 SCADA 数据 特征提取 计算监测状态参数残差 数据预处理 特征提取 特征提取 特征提取 采集 SCADA 实时数据 预测结果 故障决策模型 采集健康历史 SCADA 数据 使用 LightGBM 预测模型预测 温度值 使用 SPC 方法区分正常和异常残差 利用 AC-GAN 网络重构异常残差 建立 NGBoost 故障决策模型 图 1 建模方法流程 Fig. 1 Flow chart of the modeling method 2 数据预处理 2.1 SCADA 数据说明 本文所采用的 SCADA 数据是河北某风电场 1.5 MW 双馈式风力发电机组的运行数据。该风 电场的风电机组切入风速为 3 m/s,切出数据为 25 m/s。SCADA 数据每 10 min 记录一条,为了消 除偶发性的故障对主轴温度预测模型的影响,本 文共选取该风电场 1.5 MW 机组共 36 台机组,包 括 23 台主轴承正常机组,13 台主轴承异常机组。 这 36 台风电机组生产厂家和型号相同,并且都是 同一个风电场的风电机组,因此所利用的风资源 和地理环境相似,能够表征该风电场的所有运行 工况。SCADA 时序数据包括时间、风速、风向、 有功功率、发电机转速、叶轮转速、偏航角度、环 境温度、齿轮箱油温等百余个有效观测数据。表 1 为部分 SCADA 有效数据。 2.2 数据清洗 由于风电机组本身和 SCADA 系统在运行过程 中掉电、传感器损坏、系统宕机、通信设备故障等 因素造成 SCADA 数据中夹杂着很多异常噪声数 据。在建模前首先对数据进行清洗,其过程如下: 1) 采用分区间方法按风速 0.5 m/s 划分子工 况区间; 2) 将小于切入风速、大于切出风速、有功功 率小于或等于 0 的数据剔除; 表 1 SCADA 数据示例 Table 1 Examples of SCADA data 采样时刻 风速/(m∙s−1) 风向/(°) 发电机转 速/(r·min−1) 有功功 率/kW 2019/3/1 20:38 3.47 1.81 1 130.52 240.26 2019/3/1 20:48 3.09 −3.91 1 132.56 215.71 2019/9/2 10:28 4.89 −1.51 1 424.43 420.00 2019/9/2 10:38 4.85 −1.45 1 461.12 450.56 3) 采用统计学中的四分位原理[11] 对每个子 工况区间的 SCADA 数据进行清洗。 为说明去除异常噪声数据的效果,本文对 2.1 节提到的风电机组历史 SCADA 数据进行了异常 噪声数据去除,如图 2 所示。图 2(a) 为该风电机 组历史 SCADA 数据过滤前的风速功率曲线图, 图 2(b) 为过滤后的风速功率曲线图。 2.3 特征数据提取 风电机组 SCADA 数据中并非所有的时序数 据均与风电机组主轴承温度相关,为提高风电机 组主轴承温度预测模型精度,同时降低模型训练 时长,选取与风电机组主轴承运行状态相关的特 征子集。传统的特征筛选方式为利用皮尔森相关 系数或根据工程师相关经验进行确定,皮尔森相 关系数对数据的要求必须服从正态分布,但风电 ·1108· 智 能 系 统 学 报 第 16 卷
第6期 尹诗,等:基于AC-GAN数据重构的风电机组主轴承温度监测方法 ·1109· 机组由于弃风、限电等运行工况的变化导致SCADA 表2斯皮尔曼相关性系数 数据并不符合正态分布,且皮尔森相关系数受到 Table 2 Spearman correlation coefficient 数据异常值的影响较大,仅适用于某些特定场合 选取的特征 斯皮尔曼相关性系数 下的风电场或风电机组。鉴于此,本文选取相关 发电机转速 0.880 系数收敛快、可解释性好且对数据分布没有特殊 叶轮转速 0.848 要求的斯皮尔曼相关性分析方法提取直接或者间 机舱温度 0.823 接反映风电机组主轴承温度特征的参数集),斯 有功功率 0.808 皮尔曼相关系数的计算步骤为: 环境温度 0.804 I)SCADA数据特征中主轴承温度定义为Y, 风速 0.780 风向 其他特征定义为X,将X:和Y列所对应的数据转 0.694 桨叶角度 0.648 换为各自列向量的排名,记为R(X)和R(Y)。 A相电流 0.532 2)两个列向量中对应数据RX)和R()之间 偏航角度 0.514 的差异d为 提取的特征数据中往往具有不同的量纲和量 d= IR(X)-R(Y) 纲单位,为了消除特征数据之间的量纲影响,将 两个列向量之间的相关性R为 数据归一化处理,计算公式为 6×d R.=1-N(N-1) =mcm Xmax-Xmin 式中:x为每一个SCADA特征数据;Xmean为特征 式中:i为每一列SCADA特征数据:N为SCADA 数据的均值;xmax为特征数据的最大值;xn为特 数据特征的长度。斯皮尔曼系数高于0.5时特征 征数据的最小值:x。为归一化以后的特征数据。 之间的相关性为强相关,因此,通过斯皮尔曼相 关性系数分析,得到SCADA数据中与主轴承温 3 基于LightGBM的风电机组主轴承 度相关性较高的特征,见表2所示。因此,选取发 温度预测 电机转速、叶轮转速、机舱温度等10个特征。 3.1 LightGBM算法 1600 1400 极限梯度提升(eXtreme gradient boosting,XG- 1200 Boost)算法是在自适应增强(adaptive boosting,ad- 1000 aBoost)算法和梯度提升迭代决策树(gradient 800 600 boosting decision tree,GBDT)算法基础上优化形成 400 的算法1,具有良好的预测精度和分类准确率,在 200 众多领域得到了广泛的应用。但XGBoost算法普 0 5 10 15 20 遍存在训练耗时长、内存占比大等缺点。针对这 风速/ms 些缺点,Ke等做了相应的改进,并在2017年提 (a)数据过滤前风速功率曲线 出了LightGBM算法。LightGBM算法无需计算 1600 所有样本信息增益,具有训练效率高、低内存、高 1400 准确率、并行化学习等优势,较适合于工程实践。 1200 LightGBM使用直方图算法替换了GBDT的 1000 预排序,能够在不损害准确率的前提下加快GB 800 600 DT模型的训练速度9。为保证结果准确性,算法 400 使用梯度单边采样技术过滤大部分小梯度数据, 200 在计算信息增益的时候只利用具有高梯度的数据 7.510.012.515.017.520.022.5 信息;为大幅度减少占用内存,采用独立特征合并 0 5.0 风速/(ms) 技术实现互斥特征的捆绑,减少样本特征数据。 (b)数据过滤后风速功率曲线 假设训练一个具有T棵树的LightGBM模 图2 SCADA数据过滤前后风功率对比图 型,给定数据集为D={(xyi=1,2…,n,∈R Fig.2 Contrast chart of the wind-power before and after y:∈R,其中给定的数据集共有n个样本,每个样 SCADA data filtering 本:对应m个特征和一个标签值y:。LightGBM
机组由于弃风、限电等运行工况的变化导致 SCADA 数据并不符合正态分布,且皮尔森相关系数受到 数据异常值的影响较大,仅适用于某些特定场合 下的风电场或风电机组。鉴于此,本文选取相关 系数收敛快、可解释性好且对数据分布没有特殊 要求的斯皮尔曼相关性分析方法提取直接或者间 接反映风电机组主轴承温度特征的参数集[12] ,斯 皮尔曼相关系数的计算步骤为: Y Xi Xi Y R(Xi) R(Y) 1)SCADA 数据特征中主轴承温度定义为 , 其他特征定义为 ,将 和 列所对应的数据转 换为各自列向量的排名,记为 和 。 R(Xi) R(Y) d 2) 两个列向量中对应数据 和 之间 的差异 为 d = ∑N i=1 |R(Xi)−R(Y)| 2 两个列向量之间的相关性 Rs为 Rs = 1− 6×d N(N2 −1) 式中: i 为每一列 SCADA 特征数据; N 为 SCADA 数据特征的长度。斯皮尔曼系数高于 0.5 时特征 之间的相关性为强相关,因此,通过斯皮尔曼相 关性系数分析,得到 SCADA 数据中与主轴承温 度相关性较高的特征,见表 2 所示。因此,选取发 电机转速、叶轮转速、机舱温度等 10 个特征。 5 10 15 20 风速/(m·s−1) (a) 数据过滤前风速功率曲线 0 200 400 600 800 1 000 1 200 1 400 1 600 功率/kW 0 200 400 600 800 1 000 1 200 1 400 1 600 功率/kW 5.0 7.5 10.0 12.5 15.0 17.5 20.0 22.5 风速/(m·s−1) (b) 数据过滤后风速功率曲线 图 2 SCADA 数据过滤前后风功率对比图 Fig. 2 Contrast chart of the wind-power before and after SCADA data filtering 表 2 斯皮尔曼相关性系数 Table 2 Spearman correlation coefficient 选取的特征 斯皮尔曼相关性系数 发电机转速 0.880 叶轮转速 0.848 机舱温度 0.823 有功功率 0.808 环境温度 0.804 风速 0.780 风向 0.694 桨叶角度 0.648 A相电流 0.532 偏航角度 0.514 提取的特征数据中往往具有不同的量纲和量 纲单位,为了消除特征数据之间的量纲影响,将 数据归一化处理,计算公式为 xn = x− xmean xmax − xmin x xmean xmax xmin xn 式中: 为每一个 SCADA 特征数据; 为特征 数据的均值; 为特征数据的最大值; 为特 征数据的最小值; 为归一化以后的特征数据。 3 基于 LightGBM 的风电机组主轴承 温度预测 3.1 LightGBM 算法 极限梯度提升 (eXtreme gradient boosting, XGBoost) 算法是在自适应增强 (adaptive boosting, adaBoost) 算法和梯度提升迭代决策树 (gradient boosting decision tree,GBDT) 算法基础上优化形成 的算法[13] ,具有良好的预测精度和分类准确率,在 众多领域得到了广泛的应用。但 XGBoost 算法普 遍存在训练耗时长、内存占比大等缺点。针对这 些缺点,Ke 等 [14] 做了相应的改进,并在 2017 年提 出了 LightGBM 算法。LightGBM 算法无需计算 所有样本信息增益,具有训练效率高、低内存、高 准确率、并行化学习等优势,较适合于工程实践。 LightGBM 使用直方图算法替换了 GBDT 的 预排序,能够在不损害准确率的前提下加快 GBDT 模型的训练速度[15]。为保证结果准确性,算法 使用梯度单边采样技术过滤大部分小梯度数据, 在计算信息增益的时候只利用具有高梯度的数据 信息;为大幅度减少占用内存,采用独立特征合并 技术实现互斥特征的捆绑,减少样本特征数据[16]。 T D = {(xi , yi)|i = 1,2,··· ,n, xi ∈ R m , yi ∈ R} n xi m yi 假设训练一个具有 棵树的 LightGBM 模 型,给定数据集为 ,其中给定的数据集共有 个样本,每个样 本 对应 个特征和一个标签值 。LightGBM 第 6 期 尹诗,等:基于 AC-GAN 数据重构的风电机组主轴承温度监测方法 ·1109·
·1110· 智能系统学报 第16卷 算法在迭代过程中,假设在前一轮迭代中得到的 式中:为第i个主轴承温度的真实测量值;产为 强学习器是-(x),损失函数为Ly,f-(x),为了 第i个主轴承温度的预测值:为主轴承温度的真 让本轮迭代的损失函数最小,本轮迭代的目的是找到 实测量值的均值。LightGBM算法在均方根误差 分类回归树模型的弱学习器,(x),如式(1)所示: RMSE、决定系数2指标和训练时间上均优于 L(y,f(x))=L(y,f-(x)+h(x)) (1) XGBoost算法和CatBoost算法。表4为Light- 利用损失函数负梯度拟合本轮损失函数近似 GBM、XGBoost和CatBoost这3种算法在测试集 值,从而拟合一个树模型。第1轮的第i个样本 样本中残差特征对比。LightGBM算法在测试集 的损失函数LO,f(x)》的负梯度”:为 上的残差最大值为0.129,残差均值为0.022,基于 4=-L0fc》 LightGBM的风电机组主轴承温度预测在测试集 df(x:)f( 上具有较高的预测精度。 利用(x,x)拟合一个CART回归树,进而得 到t棵回归树所对应的叶子节点的范围为R:, 表3 LightGBM、XGBoost和CatBoost建模性能比较 Table 3 LightGBM,XGBoost,and CatBoost modeling i=1,2,…,J。其中J为叶子节点的样本,当损失 performance comparison 函数最小时拟合叶子节点输出值c为 建模方法 RMSE 2 时间s cu=argmin >L(y.f-(x)+c) XGBoost 0.021 0.978 4.9 XER LightGBM 0.012 0.992 1.6 式中:c是损失函数最小化时的常数值;:∈R表 CatBoost 0.035 0.954 5.2 示样本:属于第t棵树下的第j个叶子节点。本 轮的决策树拟合函数为 表43种算法测试集残差特征对比 Table 4 Comparison of residual characteristics of three al- h(x)= clx:eR) gorithms in test data 人 建模方法 残差最大值 残差平均值 式中:Ix:∈R)是指示函数,当xeR时,指示函 XGBoost 0.209 0.035 数的值为1,反之为0刀。进而本轮最终得到的强 LightGBM 0.129 0.022 学习器的表达式为 CatBoost 0.186 0.030 f(x)=f-(x)+ 基于LightGBM算法的主轴承温度预测模型 在测试集上的残差见图3所示。 3.2温度预测模型建立 选用10台主轴承正常机组的历史SCADA数 出 其实值预测值一残差值 obtlibmlwtu 据共38955组,按上述方法进行预处理后得到共 0.6 四 25946组数据。将数据集80%作为训练集,数据 -0.2 集20%作为测试集。本文所有试验运行环境均 200040006000800010000 测试集采样点数量 为:操作系统为Windows100、python版本为3.7.1、 集成开发运行环境为anaconda3,LightGBM算法 图3主轴承温度模型测试集残差 Fig.3 Residual error of the main bearing temperature XGBoost算法和随机森林算法调用sklearn的 model in the test data API。后续使用的AC-GAN生成对抗神经网络调 用kears深度学习框架APL,NGBoost算法调用斯 4 基于AC-GAN的主轴承温度残差 坦福的NGBoost框架。 重构 对比分析LightGBM算法、XGBoost算法、 CatBoost(categorical boosting)算法在风电机组训 基于AC-GAN的主轴承温度残差重构方法具 练主轴承温度预测模型的精度,如表3所示。 体步骤为:首先,采用SPC方法将主轴承异常机 采用模型训练时间、均方根误差RMSE和决 组残差在控制范围内的正常残差数据剔除;其 定系数2指标对建模精度进行评价,计算公式为 次,将控制范围之外的异常残差数据作为训练数 据,采用AC-GAN生成对抗网络生成与真实数据 RMsE=2o,- 分布相似的数据替换被剔除的数据。 4.1基于SPC的残差特征提取 -1②-2叫 SPC方法最初主要用来监测生产产品中的质 量问题,如果生产过程中出现随机质量问题说明
ft−1(x) L(y, ft−1(x)) ht(x) 算法在迭代过程中,假设在前一轮迭代中得到的 强学习器是 ,损失函数为 ,为了 让本轮迭代的损失函数最小,本轮迭代的目的是找到 分类回归树模型的弱学习器 ,如式 (1) 所示: L(y, ft(x)) = L(y, ft−1(x) + ht(x)) (1) t i L(yi , f(xi)) rti 利用损失函数负梯度拟合本轮损失函数近似 值,从而拟合一个树模型。第 轮的第 个样本 的损失函数 的负梯度 为 rti = − ∂L(yi , ft−1(xi)) ∂ f(xi) f(x)=ft−1 (x) (xi , xti) t Rti i = 1,2,··· , J J ct j 利用 拟合一个 CART 回归树,进而得 到 棵回归树所对应的叶子节点的范围为 , 。其中 为叶子节点的样本,当损失 函数最小时拟合叶子节点输出值 为 ct j = argmin | {z } c ∑ xi∈Rt j L(yi , ft−1(xi)+c) c xi ∈ Rt j xi t j 式中: 是损失函数最小化时的常数值; 表 示样本 属于第 棵树下的第 个叶子节点。本 轮的决策树拟合函数为 ht(x) = ∑J j=1 ct jI(xi ∈ Rt j) 式中: I(xi ∈ Rt j) 是指示函数,当 xi ∈ Rt j 时,指示函 数的值为 1,反之为 0 [17]。进而本轮最终得到的强 学习器的表达式为 ft(x) = ft−1(x)+ ∑J j=1 ct jI, xi ∈ Rt j 3.2 温度预测模型建立 选用 10 台主轴承正常机组的历史 SCADA 数 据共 38 955 组,按上述方法进行预处理后得到共 25 946 组数据。将数据集 80% 作为训练集,数据 集 20% 作为测试集。本文所有试验运行环境均 为:操作系统为 Windows10、python 版本为 3.7.1、 集成开发运行环境为 anaconda3,LightGBM 算法、 XGBoost 算法和随机森林算法调用 sklearn 的 API。后续使用的 AC-GAN 生成对抗神经网络调 用 kears 深度学习框架 API,NGBoost 算法调用斯 坦福的 NGBoost 框架。 对比分析 LightGBM 算法、XGBoost 算法、 CatBoost(categorical boosting) 算法在风电机组训 练主轴承温度预测模型的精度,如表 3 所示。 r 2 采用模型训练时间、均方根误差 RMSE 和决 定系数 指标对建模精度进行评价,计算公式为 RMSE = vt 1 n ∑n i=1 (yi −yˆi) 2 r 2 = 1− ∑n i=1 (yi −yˆi) 2 / ∑n i=1 (yi −y¯) 2 yi i yˆi i y¯ r 2 式中: 为第 个主轴承温度的真实测量值; 为 第 个主轴承温度的预测值; 为主轴承温度的真 实测量值的均值。LightGBM 算法在均方根误差 RMSE、决定系数 指标和训练时间上均优于 XGBoost 算法和 CatBoost 算法。表 4 为 LightGBM、XGBoost 和 CatBoost 这 3 种算法在测试集 样本中残差特征对比。LightGBM 算法在测试集 上的残差最大值为 0.129,残差均值为 0.022,基于 LightGBM 的风电机组主轴承温度预测在测试集 上具有较高的预测精度。 表 3 LightGBM、XGBoost 和 CatBoost 建模性能比较 Table 3 LightGBM, XGBoost, and CatBoost modeling performance comparison 建模方法 RMSE r 2 时间/s XGBoost 0.021 0.978 4.9 LightGBM 0.012 0.992 1.6 CatBoost 0.035 0.954 5.2 表 4 3 种算法测试集残差特征对比 Table 4 Comparison of residual characteristics of three algorithms in test data 建模方法 残差最大值 残差平均值 XGBoost 0.209 0.035 LightGBM 0.129 0.022 CatBoost 0.186 0.030 基于 LightGBM 算法的主轴承温度预测模型 在测试集上的残差见图 3 所示。 0 2 000 4 000 6 000 8 000 10 000 测试集采样点数量 −0.2 0.6 残差值归一化 真实值 预测值 残差值 图 3 主轴承温度模型测试集残差 Fig. 3 Residual error of the main bearing temperature model in the test data 4 基于 AC-GAN 的主轴承温度残差 重构 基于 AC-GAN 的主轴承温度残差重构方法具 体步骤为:首先,采用 SPC 方法将主轴承异常机 组残差在控制范围内的正常残差数据剔除;其 次,将控制范围之外的异常残差数据作为训练数 据,采用 AC-GAN 生成对抗网络生成与真实数据 分布相似的数据替换被剔除的数据。 4.1 基于 SPC 的残差特征提取 SPC 方法最初主要用来监测生产产品中的质 量问题,如果生产过程中出现随机质量问题说明 ·1110· 智 能 系 统 学 报 第 16 卷