工程科学学报 Chinese Journal of Engineering 一种基于轻量级神经网络的高铁轮对轴承故障诊断方法 邓飞跃丁浩吕浩洋郝如江刘永强 Fault diagnosis of high-speed train wheelset bearing based on a lightweight neural network DENG Fei-yue,DING Hao,L Hao-yang.HAO Ru-jiang,LIU Yong-qiang 引用本文: 邓飞跃,丁浩,吕浩洋,郝如江,刘永强.一种基于轻量级神经网络的高铁轮对轴承故障诊断方法.工程科学学报,2021, 43(111482-1490.doi:10.13374/j.issn2095-9389.2020.12.09.001 DENG Fei-yue,DING Hao,L Hao-yang.HAO Ru-jiang,LIU Yong-qiang.Fault diagnosis of high-speed train wheelset bearing based on a lightweight neural network[J].Chinese Journal of Engineering,2021,43(11):1482-1490.doi:10.13374/j.issn2095- 9389.2020.12.09.001 在线阅读View online:https::/oi.org10.13374.issn2095-9389.2020.12.09.001 您可能感兴趣的其他文章 Articles you may be interested in 形态分量分析在滚动轴承故障诊断中的应用 Application of morphological component analysis for rolling element bearing fault diagnosis 工程科学学报.2017,39(6:909htps:/ldoi.org10.13374.issn2095-9389.2017.06.014 基于全局优化支持向量机的多类别高炉故障诊断 Multi-class fault diagnosis of BF based on global optimization LS-SVM 工程科学学报.2017,391):39 https::/1doi.org/10.13374斩.issn2095-9389.2017.01.005 深度神经网络模型压缩综述 A survey of model compression for deep neural networks 工程科学学报.2019,41(10):1229 https:/1doi.org/10.13374.issn2095-9389.2019.03.27.002 基于小波包的开关电流电路故障诊断 Fault detection in switched current circuits based on preferred wavelet packet 工程科学学报.2017,39(7):1101 https:/1doi.org/10.13374.issn2095-9389.2017.07.017 基于周期势系统随机共振的轴承故障诊断 Bearing fault diagnosis by stochastic resonance method in periodical potential system 工程科学学报.2018,40(8):989htps:/oi.org/10.13374.issn2095-9389.2018.08.013 迭代广义短时Fourier?变换在行星齿轮箱故障诊断中的应用 Application of iterative generalized short-time Fourier transform to fault diagnosis of planetary gearboxes 工程科学学报.2017,394:604htps:/1doi.org/10.13374j.issn2095-9389.2017.04.016
一种基于轻量级神经网络的高铁轮对轴承故障诊断方法 邓飞跃 丁浩 吕浩洋 郝如江 刘永强 Fault diagnosis of high-speed train wheelset bearing based on a lightweight neural network DENG Fei-yue, DING Hao, L Hao-yang, HAO Ru-jiang, LIU Yong-qiang 引用本文: 邓飞跃, 丁浩, 吕浩洋, 郝如江, 刘永强. 一种基于轻量级神经网络的高铁轮对轴承故障诊断方法[J]. 工程科学学报, 2021, 43(11): 1482-1490. doi: 10.13374/j.issn2095-9389.2020.12.09.001 DENG Fei-yue, DING Hao, L Hao-yang, HAO Ru-jiang, LIU Yong-qiang. Fault diagnosis of high-speed train wheelset bearing based on a lightweight neural network[J]. Chinese Journal of Engineering, 2021, 43(11): 1482-1490. doi: 10.13374/j.issn2095- 9389.2020.12.09.001 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.12.09.001 您可能感兴趣的其他文章 Articles you may be interested in 形态分量分析在滚动轴承故障诊断中的应用 Application of morphological component analysis for rolling element bearing fault diagnosis 工程科学学报. 2017, 39(6): 909 https://doi.org/10.13374/j.issn2095-9389.2017.06.014 基于全局优化支持向量机的多类别高炉故障诊断 Multi-class fault diagnosis of BF based on global optimization LS-SVM 工程科学学报. 2017, 39(1): 39 https://doi.org/10.13374/j.issn2095-9389.2017.01.005 深度神经网络模型压缩综述 A survey of model compression for deep neural networks 工程科学学报. 2019, 41(10): 1229 https://doi.org/10.13374/j.issn2095-9389.2019.03.27.002 基于小波包的开关电流电路故障诊断 Fault detection in switched current circuits based on preferred wavelet packet 工程科学学报. 2017, 39(7): 1101 https://doi.org/10.13374/j.issn2095-9389.2017.07.017 基于周期势系统随机共振的轴承故障诊断 Bearing fault diagnosis by stochastic resonance method in periodical potential system 工程科学学报. 2018, 40(8): 989 https://doi.org/10.13374/j.issn2095-9389.2018.08.013 迭代广义短时Fourier变换在行星齿轮箱故障诊断中的应用 Application of iterative generalized short-time Fourier transform to fault diagnosis of planetary gearboxes 工程科学学报. 2017, 39(4): 604 https://doi.org/10.13374/j.issn2095-9389.2017.04.016
工程科学学报.第43卷.第11期:1482-1490.2021年11月 Chinese Journal of Engineering,Vol.43,No.11:1482-1490,November 2021 https://doi.org/10.13374/j.issn2095-9389.2020.12.09.001;http://cje.ustb.edu.cn 一种基于轻量级神经网络的高铁轮对轴承故障诊断方法 邓飞跃2)四,丁浩2),吕浩洋),郝如江2,刘永强2) 1)石家庄铁道大学省部共建交通工程结构力学行为与系统安全国家重点实验室,石家庄0500432)石家庄铁道大学机械工程学院,石家 庄,050043 区通信作者,E-mail:dengfy(@stdu.edu.cn 摘要深度神经网络技术用于机械设备故障诊断展现出了巨大潜力,但繁重复杂的计算量对计算机硬件提出了严苛的要 求,严重限制了其在实际工程中的应用.基于此提出一种新型的轻量级神经网络ShuffleNet,.用于高速列车轮对轴承故障诊断 研究.该网络模型基于模块化设计思想,包含多个高效率的ShuffleNet单元,通过运用分组卷积与深度可分离卷积技术极大 改善了传统卷积操作的运算效率:同时使用通道混洗方法克服了通道分组带来的约束,改进了网络的损失精度.实验分析表 明,所提网络模型可有效用于复杂工况下高速列车轮对轴承故障诊断,相比传统卷积神经网络、残差网络和Xceptio等当前 深度神经网络模型,在保证诊断精度的同时,运行效率得到大幅提升.这为深度神经网络技术应用于工程实际,克服计算机 硬件条件限制提供了一条新的途径 关键词轮对轴承;高速列车;故障诊断:深度神经网络:ShuffleNet单元 分类号TG142.71 Fault diagnosis of high-speed train wheelset bearing based on a lightweight neural network DENG Fei-yue,DING Hao)LU Hao-yang,HAO Ru-jiang.LIU Yong-qiang 1)China State Key Laboratory of Mechanical Behavior in Traffic Engineering Structure and System Safety,Shijiazhuang Tiedao University,Shijiazhuang 050043,China 2)School of Mechanical Engineering,Shijiazhuang Tiedao University,Shijiazhuang 050043,China Corresponding author,E-mail:dengfy @stdu.edu.cn ABSTRACT Deep learning is gaining attention in the field of mechanical equipment fault diagnosis.With the help of deep learning techniques,deep neural networks (DNNs)have great potential for machinery fault diagnosis.Deep learning is a subset of machine learning that uses artificial neural networks with multiple layers to deliver state-of-the-art accuracy in various classifications of mechanical rotating parts.Convolutional neural networks(CNNs)are able to automatically learn multiple levels of representations from raw input datawithout introducing hand-coded rules or domain knowledge.Because of this powerful representation learning ability,deep learning has achieved great success in many fields.Although deep learning has achieved promising results in the field of machinery fault diagnosis,existing neural networks suffer from many limitations.The heavy and complex calculation amount puts forward strict requirements for computer hardware,which severely limits its application in actual engineering.To address this issue,this paper proposed a novel lightweight neural network model,ShuffleNet,for high-speed train wheelset bearing fault diagnosis.Based on the thought of module design,this model comprised several ShuffleNet units.Group convolution(GC)and deep separable convolution were 收稿日期:2020-12-09 基金项目:国家自然科学基金资助项目(11802184.11790282):河北省自然科学基金资助项目(E2019210049):河北省科技计划项目资助项 目(20310803D):河北省“三三三人才工程"资助项目(A202101017):北京市重点实验室研究基金资助课题(PGU2020K009)
一种基于轻量级神经网络的高铁轮对轴承故障诊断方法 邓飞跃1,2) 苣,丁 浩2),吕浩洋2),郝如江2),刘永强2) 1) 石家庄铁道大学省部共建交通工程结构力学行为与系统安全国家重点实验室, 石家庄 050043 2) 石家庄铁道大学机械工程学院, 石家 庄, 050043 苣通信作者, E-mail:dengfy@stdu.edu.cn 摘 要 深度神经网络技术用于机械设备故障诊断展现出了巨大潜力,但繁重复杂的计算量对计算机硬件提出了严苛的要 求,严重限制了其在实际工程中的应用. 基于此提出一种新型的轻量级神经网络 ShuffleNet,用于高速列车轮对轴承故障诊断 研究. 该网络模型基于模块化设计思想,包含多个高效率的 ShuffleNet 单元,通过运用分组卷积与深度可分离卷积技术极大 改善了传统卷积操作的运算效率;同时使用通道混洗方法克服了通道分组带来的约束,改进了网络的损失精度. 实验分析表 明,所提网络模型可有效用于复杂工况下高速列车轮对轴承故障诊断,相比传统卷积神经网络、残差网络和 Xception 等当前 深度神经网络模型,在保证诊断精度的同时,运行效率得到大幅提升. 这为深度神经网络技术应用于工程实际,克服计算机 硬件条件限制提供了一条新的途径. 关键词 轮对轴承;高速列车;故障诊断;深度神经网络;ShuffleNet 单元 分类号 TG142.71 Fault diagnosis of high-speed train wheelset bearing based on a lightweight neural network DENG Fei-yue1,2) 苣 ,DING Hao2) ,LÜ Hao-yang2) ,HAO Ru-jiang2) ,LIU Yong-qiang2) 1) China State Key Laboratory of Mechanical Behavior in Traffic Engineering Structure and System Safety, Shijiazhuang Tiedao University, Shijiazhuang 050043, China 2) School of Mechanical Engineering, Shijiazhuang Tiedao University, Shijiazhuang 050043, China 苣 Corresponding author, E-mail:dengfy@stdu.edu.cn ABSTRACT Deep learning is gaining attention in the field of mechanical equipment fault diagnosis. With the help of deep learning techniques, deep neural networks (DNNs) have great potential for machinery fault diagnosis. Deep learning is a subset of machine learning that uses artificial neural networks with multiple layers to deliver state-of-the-art accuracy in various classifications of mechanical rotating parts. Convolutional neural networks (CNNs) are able to automatically learn multiple levels of representations from raw input datawithout introducing hand-coded rules or domain knowledge. Because of this powerful representation learning ability, deep learning has achieved great success in many fields. Although deep learning has achieved promising results in the field of machinery fault diagnosis, existing neural networks suffer from many limitations. The heavy and complex calculation amount puts forward strict requirements for computer hardware, which severely limits its application in actual engineering. To address this issue, this paper proposed a novel lightweight neural network model, ShuffleNet, for high-speed train wheelset bearing fault diagnosis. Based on the thought of module design, this model comprised several ShuffleNet units. Group convolution (GC) and deep separable convolution were 收稿日期: 2020−12−09 基金项目: 国家自然科学基金资助项目(11802184,11790282);河北省自然科学基金资助项目(E2019210049);河北省科技计划项目资助项 目(20310803D);河北省“三三三人才工程”资助项目(A202101017);北京市重点实验室研究基金资助课题(PGU2020K009) 工程科学学报,第 43 卷,第 11 期:1482−1490,2021 年 11 月 Chinese Journal of Engineering, Vol. 43, No. 11: 1482−1490, November 2021 https://doi.org/10.13374/j.issn2095-9389.2020.12.09.001; http://cje.ustb.edu.cn
邓飞跃等:一种基于轻量级神经网络的高铁轮对轴承故障诊断方法 ·1483 used to improve the operation efficiency of traditional convolution in the ShuffleNet unit.Meanwhile,channel shuffle(CS)technology was adopted to overcome the grouping constraint caused by GC and improved the loss accuracy ofthenetwork model.CS operation makes it possible to build more powerful structures with multiple GC layers.Experimental results show that the proposed network model canbe applied in wheelset bearing fault diagnosis underacomplex working condition.Compared to the traditional CNN,ResNets,and Xception,the proposed method can greatly reducethecomputation cost while maintaining diagnosis accuracy.It is clear that the proposed lightweight neural network model,ShuffleNet,is superior to the above comparison models.This provides a new way forengineering applications of DNN technology and overcoming the limitations of computer hardware. KEY WORDS wheelset bearing;high-speed train;fault diagnosis;deep neural network;ShuffleNet unit 近年来,中国高速铁路飞速发展,运营里程位 了旋转机械不同故障模式的识别;Zhang等刀则 居世界第一.与此同时,高速列车运行带来的安全 提出了另一个CNN模型用于轴承故障诊断,针对 问题愈发引人关注.轮对轴承作为高速列车走行 强噪声干扰和变工况负载具有较高的识别准确 部关键旋转部件之一,工作环境非常恶劣,极易发 率;Peng等l1采用残差神经网络用于列车轮对轴 生各类故障,但是其故障诊断较为困难,运行维护 承故障诊断,达到了很高的诊断精度.由于历时 一直处于一种定期拆解、强制报废的过度维修状 长、测点多,采样频率高等原因,轮对轴承监测系 态-),造成了资源的大量浪费.因此,准确诊断与 统获取的是海量数据I9.传统深度神经网络(Deep 检测轮对轴承故障是一个亟待解决的突出问题 neural network,DNN)分析时模型复杂度会大幅增 目前,“特征提取+机器学习”的智能诊断方法 加,不仅对计算机硬件配置提出了更高要求,而且 在轴承故障诊断中得到了广泛应用.Dong等通 运行效率也大打折扣,这严重限制了其在实际工 过局部均值分解方法分解轴承故障信号,计算每 程中的应用 个分量的香农嫡输入K-最近邻(K-nearest neighbor,, 为解决上述问题,本文提出了一种新的轻量 KNN)模型识别轴承不同故障损伤程度;Shao等 化神经网络ShuffleNet模型,用于轮对轴承故障诊 使用变分模态分解方法处理信号,提取多尺度故 断研究.该模型基于模块化设计思想,在卷积网络 障特征信息后输入支持向量机(Support vector 基础上设计了多个高效的ShuffleNet单元,通过综 machine,SVM)对轴承复杂故障类型进行智能识 合运用分组卷积(Group convolution,GC)、深度可 别.上述方法多使用浅层机器学习模型,面对大量 分离卷积(Depthwise separable onvolution,DSC)与 且复杂的监测数据时无法准确表征特征信息与健 通道混洗(Channel shuffle,CS)技术,在保证网络诊 康状态之间的映射关系 断精度准确率的同时,极大地提升了模型的运算 随着人工智能技术不断进步,基于深度学习 效率,减少了网络运行对计算力的需求.实验结果 的轴承故障诊断方法蓬勃发展.该类方法基于数 表明,该模型可有效用于高速列车轮对轴承故障 据驱动模型,将特征学习与智能识别同时嵌入网 诊断,具有较好的工程应用价值 络模型内部,在深人挖掘特征信息的基础上,能较 为准确地识别轴承健康状态,不需要复杂的信号 1背景理论 处理技术69.Zou等1o采用离散小波变换处理信 号,建立了改进的深度信念网络模型(Deep belief 1.1标准卷积 network,DBN),对高速列车牵引电机轴承故障进 CNN提取特征信息主要是通过卷积层操作完 行了诊断和识别.Shao等叫提出了一种基于双树 成的.卷积层通过卷积核对上一层网络输出特征 复小波包的自适应DBN模型用于轴承故障诊断. 进行反复的局部卷积操作,将学习到的特征信息 Wang等a提出了一种新的激活函数ReLTanh,并 提取到下一层,其过程表示为: 通过构建自编码(Auto-encoder,,AE)网络模型来诊 y=f(U*x+b) (1) 断齿轮箱各类故障.相比上述网络模型,卷积神经 其中,x为卷积层输人,y是卷积层输出,U为当前 网络(Convolutional neural network,CNN)采用了局 层的权重矩阵,*为卷积操作,b为卷积核的偏置 部感受野和权值共享策略,网络结构及训练优化 0为激活函数,用于增强学习特征的非线性表达 更为简单、效率更高-Chen等构建了一个 能力 深度CNN模型,通过输入传感器多通道信号实现 标准卷积过程中,每个通道的输人特征信息
used to improve the operation efficiency of traditional convolution in the ShuffleNet unit. Meanwhile, channel shuffle (CS) technology was adopted to overcome the grouping constraint caused by GC and improved the loss accuracy ofthenetwork model. CS operation makes it possible to build more powerful structures with multiple GC layers. Experimental results show that the proposed network model canbe applied in wheelset bearing fault diagnosis underacomplex working condition. Compared to the traditional CNN, ResNets, and Xception, the proposed method can greatly reducethecomputation cost while maintaining diagnosis accuracy. It is clear that the proposed lightweight neural network model, ShuffleNet, is superior to the above comparison models. This provides a new way forengineering applications of DNN technology and overcoming the limitations of computer hardware. KEY WORDS wheelset bearing;high-speed train;fault diagnosis;deep neural network;ShuffleNet unit 近年来,中国高速铁路飞速发展,运营里程位 居世界第一. 与此同时,高速列车运行带来的安全 问题愈发引人关注. 轮对轴承作为高速列车走行 部关键旋转部件之一,工作环境非常恶劣,极易发 生各类故障,但是其故障诊断较为困难,运行维护 一直处于一种定期拆解、强制报废的过度维修状 态[1−3] ,造成了资源的大量浪费. 因此,准确诊断与 检测轮对轴承故障是一个亟待解决的突出问题. 目前,“特征提取+机器学习”的智能诊断方法 在轴承故障诊断中得到了广泛应用. Dong 等[4] 通 过局部均值分解方法分解轴承故障信号,计算每 个分量的香农熵输入 K−最近邻(K-nearest neighbor, KNN)模型识别轴承不同故障损伤程度;Shao 等[5] 使用变分模态分解方法处理信号,提取多尺度故 障特征信息后输入支持向量机 ( Support vector machine, SVM)对轴承复杂故障类型进行智能识 别. 上述方法多使用浅层机器学习模型,面对大量 且复杂的监测数据时无法准确表征特征信息与健 康状态之间的映射关系. 随着人工智能技术不断进步,基于深度学习 的轴承故障诊断方法蓬勃发展. 该类方法基于数 据驱动模型,将特征学习与智能识别同时嵌入网 络模型内部,在深入挖掘特征信息的基础上,能较 为准确地识别轴承健康状态,不需要复杂的信号 处理技术[6−9] . Zou 等[10] 采用离散小波变换处理信 号,建立了改进的深度信念网络模型 (Deep belief network,DBN),对高速列车牵引电机轴承故障进 行了诊断和识别. Shao 等[11] 提出了一种基于双树 复小波包的自适应 DBN 模型用于轴承故障诊断. Wang 等[12] 提出了一种新的激活函数 ReLTanh,并 通过构建自编码 (Auto-encoder,AE) 网络模型来诊 断齿轮箱各类故障. 相比上述网络模型,卷积神经 网络(Convolutional neural network, CNN)采用了局 部感受野和权值共享策略,网络结构及训练优化 更为简单、效率更高[13−15] . Chen 等[16] 构建了一个 深度 CNN 模型,通过输入传感器多通道信号实现 了旋转机械不同故障模式的识别;Zhang 等[17] 则 提出了另一个 CNN 模型用于轴承故障诊断,针对 强噪声干扰和变工况负载具有较高的识别准确 率;Peng 等[18] 采用残差神经网络用于列车轮对轴 承故障诊断,达到了很高的诊断精度. 由于历时 长、测点多,采样频率高等原因,轮对轴承监测系 统获取的是海量数据[19] . 传统深度神经网络(Deep neural network, DNN)分析时模型复杂度会大幅增 加,不仅对计算机硬件配置提出了更高要求,而且 运行效率也大打折扣,这严重限制了其在实际工 程中的应用. 为解决上述问题,本文提出了一种新的轻量 化神经网络 ShuffleNet 模型,用于轮对轴承故障诊 断研究. 该模型基于模块化设计思想,在卷积网络 基础上设计了多个高效的 ShuffleNet 单元,通过综 合运用分组卷积(Group convolution, GC)、深度可 分离卷积 (Depthwise separable onvolution, DSC) 与 通道混洗(Channel shuffle, CS)技术,在保证网络诊 断精度准确率的同时,极大地提升了模型的运算 效率,减少了网络运行对计算力的需求. 实验结果 表明,该模型可有效用于高速列车轮对轴承故障 诊断,具有较好的工程应用价值. 1 背景理论 1.1 标准卷积 CNN 提取特征信息主要是通过卷积层操作完 成的. 卷积层通过卷积核对上一层网络输出特征 进行反复的局部卷积操作,将学习到的特征信息 提取到下一层,其过程表示为: y = f(U ∗ x+b) (1) ∗ 其中,x 为卷积层输入,y 是卷积层输出,U 为当前 层的权重矩阵, 为卷积操作,b 为卷积核的偏置. f() 为激活函数,用于增强学习特征的非线性表达 能力. 标准卷积过程中,每个通道的输入特征信息 邓飞跃等: 一种基于轻量级神经网络的高铁轮对轴承故障诊断方法 · 1483 ·
1484 工程科学学报,第43卷,第11期 通过卷积核都可以输出到每个输出特征.设定输 入特征通道数为W,卷积核通道数与输入特征通 道数相同,卷积核个数为B,与对应输出特征通道 数相同.卷积核尺寸大小为D×D,对应参数为 DxDx3x2 MxMx2 DxD×W×B,.经过计算,此次卷积过程的参数量 WxW×3 如下: 图2标准卷积操作 Q=DXDXWxB (2) Fig.2 Classical convolution operation 1.2分组卷积 DWConv中,卷积核数量与输入特征通道数相同, GC将输入特征进行了分组,然后再进行卷积 一个卷积核只与一个通道的输入特征进行卷积操 操作,过程如图1所示.基于上述相同输入与输出 作,因此输出特征通道数与输人特征通道数相同 特征的设定,若输人特征分为G组,则每组输入特 需要指出的是,当GC中分组数与输入特征通道 征数量为WG,相应卷积核分组后,每组中卷积核 数、卷积核个数相同时,GC就是DWConv.PWConv 只与同组的输入特征进行卷积操作,卷积核数量 与标准卷积操作相同,但卷积核采用尺寸大小为 与输出特征数量相同,均为BG.计算参数量为: 1×1的单位卷积.相同参数条件下,上述两个步骤 的操作分别如图3(a)和3(b)所示,从图中可知 DSC先考虑卷积区域,再考虑输入特征通道,实现 了通道与卷积区域的分离.DSC操作过程中参数 量大小为: QDsC=DXD×3+3×1 (5) Group G (a) 图1分组卷积 D×Dx1×3 MxMx3 Fig.I Group convolution NxNx3 (b) Qcc=DxDx W xB (3) GC后参数量变为原来标准卷积的1/G,随着 分组数增加,参数量会明显减少.此外,Krizhevsky 1×1×3×2 MxMx2 等20指出GC除能够减少训练参数外,不易产生 图3深度可分离卷积操作.(a)DWCnov操作:(b)PWConv操作 过拟合,具有正则化的效果 Fig.3 Depthwise separable convolutionoperation:(a)DWCnov 1.3深度可分离卷积 operation;(b)PWConv operation 标准卷积操作过程中,卷积层中每个卷积核 通过对比式(4)和式(5)可知,DSC的参数量 分别与每个通道的输入特征进行卷积操作,卷积 要小于标准卷积,尤其当卷积核的数量及输入输 结果线性叠加后即为相应的输出特征.标准卷积 出通道数大幅增加时,参数量的减少将相当可观 操作如图2所示,其中输入特征尺寸大小NxN,通 此外,Howard等2通过研究进一步证实:DSC所 道数为3:输出特征通道数为2,尺寸大小为MxM: 需要的计算量也远小于标准卷积.因此,相比标准 卷积核参数为DxD×3×2,尺寸大小为DxD.从图 卷积,使用DSC的计算力将大为节省 中可知,标准卷积过程中同时考虑了输入特征的 1.4通道混洗 通道数与卷积区域.卷积过程中参数量大小为: GC虽然具备诸多优点,但是分组后由于每组 Oclassical=D×Dx3×2 (4) 卷积核只与同组输入特征进行卷积操作,如 与标准卷积操作不同,DSC卷积操作分为深 图4(a)所示.在分组约束下,各组之间是相互孤立 度卷积(Depthwiseconvolution,DWConv)和逐点卷 的,没有信息的交互流通,输出特征仅从一小部分 积(Pointwise convolution,.PWConv)两个步骤.在 输入通道组中导出,降低了卷积过程中信息的表
通过卷积核都可以输出到每个输出特征. 设定输 入特征通道数为 W,卷积核通道数与输入特征通 道数相同,卷积核个数为 B,与对应输出特征通道 数相同 . 卷积核尺寸大小 为 D×D,对应参数 为 D×D×W×B,. 经过计算,此次卷积过程的参数量 如下: Q = D× D× W × B (2) 1.2 分组卷积 W/G B/G GC 将输入特征进行了分组,然后再进行卷积 操作,过程如图 1 所示. 基于上述相同输入与输出 特征的设定,若输入特征分为 G 组,则每组输入特 征数量为 ,相应卷积核分组后,每组中卷积核 只与同组的输入特征进行卷积操作,卷积核数量 与输出特征数量相同,均为 . 计算参数量为: 1 2 3 4 W Group 1 … … Group G 图 1 分组卷积 Fig.1 Group convolution QGC = D× D× W G × B (3) GC 后参数量变为原来标准卷积的 1/G ,随着 分组数增加,参数量会明显减少. 此外,Krizhevsky 等[20] 指出 GC 除能够减少训练参数外,不易产生 过拟合,具有正则化的效果. 1.3 深度可分离卷积 标准卷积操作过程中,卷积层中每个卷积核 分别与每个通道的输入特征进行卷积操作,卷积 结果线性叠加后即为相应的输出特征. 标准卷积 操作如图 2 所示,其中输入特征尺寸大小 N×N,通 道数为 3;输出特征通道数为 2,尺寸大小为 M×M; 卷积核参数为 D×D×3×2,尺寸大小为 D×D. 从图 中可知,标准卷积过程中同时考虑了输入特征的 通道数与卷积区域. 卷积过程中参数量大小为: Qclassical = D× D×3×2 (4) 与标准卷积操作不同,DSC 卷积操作分为深 度卷积(Depthwiseconvolution,DWConv)和逐点卷 积 ( Pointwise convolution, PWConv)两个步骤. 在 DWConv 中,卷积核数量与输入特征通道数相同, 一个卷积核只与一个通道的输入特征进行卷积操 作,因此输出特征通道数与输入特征通道数相同. 需要指出的是,当 GC 中分组数与输入特征通道 数、卷积核个数相同时,GC 就是 DWConv. PWConv 与标准卷积操作相同,但卷积核采用尺寸大小为 1×1 的单位卷积. 相同参数条件下,上述两个步骤 的操作分别如图 3( a)和 3( b)所示,从图中可知 DSC 先考虑卷积区域,再考虑输入特征通道,实现 了通道与卷积区域的分离. DSC 操作过程中参数 量大小为: QDSC = D× D×3+3×1 (5) (a) N×N×3 D×D×1×3 M×M×3 (b) M×M×3 1×1×3×2 M×M×2 图 3 深度可分离卷积操作. (a)DWCnov 操作;(b)PWConv 操作 Fig.3 Depthwise separable convolutionoperation: (a) DWCnov operation; (b) PWConv operation 通过对比式(4)和式(5)可知,DSC 的参数量 要小于标准卷积,尤其当卷积核的数量及输入输 出通道数大幅增加时,参数量的减少将相当可观. 此外,Howard 等[21] 通过研究进一步证实:DSC 所 需要的计算量也远小于标准卷积. 因此,相比标准 卷积,使用 DSC 的计算力将大为节省. 1.4 通道混洗 GC 虽然具备诸多优点,但是分组后由于每组 卷积核只与同组输入特征进行卷积操作 ,如 图 4(a)所示. 在分组约束下,各组之间是相互孤立 的,没有信息的交互流通,输出特征仅从一小部分 输入通道组中导出,降低了卷积过程中信息的表 N×N×3 D×D×3×2 M×M×2 图 2 标准卷积操作 Fig.2 Classical convolution operation · 1484 · 工程科学学报,第 43 卷,第 11 期
邓飞跃等:一种基于轻量级神经网络的高铁轮对轴承故障诊断方法 ·1485 示能力.为此,我们通过C$技术对输入层特征进 题.基于残差块结构,Zhang等2]构建了如图6(a) 行混洗操作,将不同组输入特征重新分组,打破各 所示的ShuffleNet单元.从图中可知.ShuffleNet单 组之间的约束,过程如图4(b)所示.假设输出层特 元采用了跨层恒等映射连接的两分支结构,主分 征图分为G组,每组包含w个通道输入特征,CS 支上首先是逐点GC,然后进行CS,之后是卷积核 具体实现步骤如下: 大小为3×3的DWConv和逐点GC操作,两分支输 (a)Input (b)Input 出特征线性叠加后即为最后输出特征.这里需要 指出的是主分支最后的逐点GC可以看做是一个 GCI GCI 分组的PWConv过程,因此3x3 DWConv和1×1GC Output Output 操作结合其实是一个DSC操作.图6(b)是一个降 采样后的ShuffleNet单元,与图6(a)相比主要有两 GC2 GC2 点不同:一是在辅分支上加入了步长为2、尺寸大 小为3×3的平均池化(AVG pool),相应主分支上 图4(a)通道孤立与(b)通道混洗的区别 的3x3 DWConv步长也由1改为2;二是ShuffleNet Fig.4 Differencebetween(a)channel isolation and (b)channel shuffle 单元最终输出为两个分支的通道级联而线性叠 步骤一:将具有Gxw通道的输出特征reshape 加.通道级联设计使得ShuffleNet单元最终输出特 为(G,w)格式; 征通道数为输入特征的2倍,通过扩大输出特征 步骤二:将(G,w)格式的输出特征转置为(w,G) 的宽度,进一步增强网络模型的特征学习能力.需 格式; 要说明的是,ShuffleNet单元中每一个卷积层后都 步骤三:对(w,G)格式的输出特征进行平坦化 加入了批量归一化操作(Batch normalization,BN) 处理,再次分为G组,作为下一层输入特征 来防止梯度消失、加快训练速度,在部分层后还加 为了能更清楚地描述CS过程,假设G=w=3, 人了使用激活函数ReLU的激活层 CS操作过程如图5所示.从图中可知,输出特征 层虽然分为了3组.但GS后组与组之间的约束被 (a) (b) Input 打破,不同组之间的特征通道是关联的,每组内包 含了不同通道的特征信息.在本文分析过程中,为 1×1GC 1×1GC BN+ReLU BN+ReLU 保证通道混洗的效果,设置G与w数值相同, CS B×3 AVG Pool Stride=2 etp BN BN IxI GC 1×IGC BN BN Add Concat ReLU Setp 2: utpu 图6 ShuffleNet单元结构.(a)ShuffleNet单元l;(b)ShuffleNet单元2 Fig.6 Architecture ofShuffleNetunit:(a)ShuffleNet unit 1:(b)ShuffleNet Setp 3: unit 2 2.2 ShuffleNet网络模型 因5通道混洗操作 基于模块化设计思想,本文以ShuffleNet单元 Fig.5 Channel shuffle operation 为基本模块,构建轻量级ShuffleNet网络模型,如 2 ShuffleNet模型 图7所示.由于所分析数据格式是一维的,无法与 所提二维网络模型兼容,本文参考文献[24]中的 2.1 ShuffleNet单元 方法,将一维数据转化为二维图像格式后再输入 残差网络(ResNets)由He等2mI在20l5年首次 网络.网络首层采用了一个尺寸大小为3×3的标 提出.ResNets在残差块中通过引入跨层恒等映射 准卷积操作,然后是4个ShuffleNet单元.ShuffleNet 连接,有效解决了网络层数增加时的梯度消失问 单元数量过少会无法充分提取数据特征信息,而
示能力. 为此,我们通过 CS 技术对输入层特征进 行混洗操作,将不同组输入特征重新分组,打破各 组之间的约束,过程如图 4(b)所示. 假设输出层特 征图分为 G 组,每组包含 w 个通道输入特征,CS 具体实现步骤如下: Input GC1 Output GC2 (a) Input GC1 Output GC2 (b) 图 4 (a)通道孤立与(b)通道混洗的区别 Fig.4 Differencebetween (a) channel isolation and (b) channel shuffle 步骤一:将具有 G×w 通道的输出特征 reshape 为(G, w)格式; 步骤二:将(G, w)格式的输出特征转置为(w, G) 格式; 步骤三:对(w, G)格式的输出特征进行平坦化 处理,再次分为 G 组,作为下一层输入特征. 为了能更清楚地描述 CS 过程,假设 G=w=3, CS 操作过程如图 5 所示. 从图中可知,输出特征 层虽然分为了 3 组,但 GS 后组与组之间的约束被 打破,不同组之间的特征通道是关联的,每组内包 含了不同通道的特征信息. 在本文分析过程中,为 保证通道混洗的效果,设置 G 与 w 数值相同. Setp 1: Setp 2: Setp 3: 图 5 通道混洗操作 Fig.5 Channel shuffle operation 2 ShuffleNet 模型 2.1 ShuffleNet 单元 残差网络(ResNets)由 He 等[22] 在 2015 年首次 提出. ResNets 在残差块中通过引入跨层恒等映射 连接,有效解决了网络层数增加时的梯度消失问 题. 基于残差块结构,Zhang 等[23] 构建了如图 6(a) 所示的 ShuffleNet 单元. 从图中可知,ShuffleNet 单 元采用了跨层恒等映射连接的两分支结构,主分 支上首先是逐点 GC,然后进行 CS,之后是卷积核 大小为 3×3 的 DWConv 和逐点 GC 操作,两分支输 出特征线性叠加后即为最后输出特征. 这里需要 指出的是主分支最后的逐点 GC 可以看做是一个 分组的 PWConv 过程,因此 3×3DWConv 和 1×1GC 操作结合其实是一个 DSC 操作. 图 6(b)是一个降 采样后的 ShuffleNet 单元,与图 6(a)相比主要有两 点不同:一是在辅分支上加入了步长为 2、尺寸大 小为 3×3 的平均池化(AVG pool),相应主分支上 的 3×3DWConv 步长也由 1 改为 2;二是 ShuffleNet 单元最终输出为两个分支的通道级联而线性叠 加. 通道级联设计使得 ShuffleNet 单元最终输出特 征通道数为输入特征的 2 倍,通过扩大输出特征 的宽度,进一步增强网络模型的特征学习能力. 需 要说明的是,ShuffleNet 单元中每一个卷积层后都 加入了批量归一化操作(Batch normalization, BN) 来防止梯度消失、加快训练速度,在部分层后还加 入了使用激活函数 ReLU 的激活层. 3×3 DSC BN 1×1 GC 1×1 GC Add CS Input BN+ReLU BN+ReLU BN Concat CS Input Output Output ReLU RelU BN BN (a) (b) 3×3 AVG Pool Stride=2 1×1 GC 3×3 DSC Stride=2 1×1 GC 图 6 ShuffleNet 单元结构. (a)ShuffleNet 单元 1; (b)ShuffleNet 单元 2 Fig.6 Architecture of ShuffleNetunit: (a) ShuffleNet unit 1; (b) ShuffleNet unit 2 2.2 ShuffleNet 网络模型 基于模块化设计思想,本文以 ShuffleNet 单元 为基本模块,构建轻量级 ShuffleNet 网络模型,如 图 7 所示. 由于所分析数据格式是一维的,无法与 所提二维网络模型兼容,本文参考文献 [24] 中的 方法,将一维数据转化为二维图像格式后再输入 网络. 网络首层采用了一个尺寸大小为 3×3 的标 准卷积操作,然后是 4 个 ShuffleNet 单元. ShuffleNet 单元数量过少会无法充分提取数据特征信息,而 邓飞跃等: 一种基于轻量级神经网络的高铁轮对轴承故障诊断方法 · 1485 ·