第14卷第2期 智能系统学报 Vol.14 No.2 2019年3月 CAAI Transactions on Intelligent Systems Mar.2019 D0:10.11992/tis.201710005 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180413.0946.004html 卷积神经网络的贴片电阻识别应用 谌贵辉,何龙,李忠兵,亢宇欣,江枭宇 (西南石油大学电气信息学院,四川成都610500) 摘要:贴片电阻由于其体积微小、性能稳定等独特的性质,在当今智能化的电子设备中被广泛使用。为保证 贴片电阻的出厂质量,需要对其进行缺陷识别、极性方向识别、正反面识别和种类识别,目前很大程度上依靠 人工肉眼进行识别检测,效率低、容易误检、成本高。本文针对传统图像识别方法的局限性,结合近年来卷积 神经网络在图像识别方面所取得的巨大成就,基于AlexNet模型、GoogLeNet模型、ResNet模型思想设计了3种 深度适宜、可训练参数约4×10(百万)的卷积神经网络,克服了当前主流卷积神经网络模型由于可训练参数过 多、模型层数太深导致在贴片电阻识别应用中识别速度不能满足实时性要求、泛化识别准确率低的问题。实 验表明,3种模型的识别准确率均超过90%.最高识别准确率达到95%.识别速度达到0.203s/张(256像 素×256像素,COE5)。因此,本文设计的3种卷积神经网络可根据具体实际需求进行选用,在实践中具有极 强的可行性和可推广性,同时也在提升企业生产效率和产品质量方面具有重要意义。 关键词:贴片电阻识别;卷积神经网络;AlexNet模型;GoogLeNet模型;ResNet模型 中图分类号:TP391文献标志码:A文章编号:1673-4785(2019)02-0263-10 中文引用格式:谌贵辉,何龙,李忠兵,等.卷积神经网络的贴片电阻识别应用.智能系统学报,2019,142):263-272. 英文引用格式:CHEN Guihui,HE Long,.LI Zhongbing,etal.Chip resistance recognition based on convolution neural network J, CAAI transactions on intelligent systems,2019,14(2):263-272. Chip resistance recognition based on convolution neural network CHEN Guihui,HE Long,LI Zhongbing,KANG Yuxin,JIANG Xiaoyu (School of Electrical Information,Southwest Petroleum University,Chengdu 610500,China) Abstract:Chip resistors are widely used in intelligent electronic devices because of their unique properties such as small size and stable performance.The chip resistors produced by the factory must be identified for defects in both front and back faces,polarity,and type in order to guarantee the quality.However,such identification largely relies on the eye de- tection,which is inefficient,prone to error,and costly.In this paper,considering the limitation of the traditional image recognition methods and the great achievements of convolutional neural network(CNN)in image recognition in recent years,three CNN models,AlexNet model,GoogLeNet model,and ResNet model,with appropriate depth and training parameters of about 4M(million)are designed to overcome the demerits of low speed that results in the inability to meet the real-time requirement.These models overcome the low accuracy problem of generalization recognition associated with the prevailing CNN models,which is caused by many trainable parameters and many layers of model.Experiments show that the recognition accuracy of these three models exceeds 90%.The highest recognition accuracy rate is 95%, and the recognition speed is 0.203 s/piece(256 x 256 pixels,CORE I5).Therefore,these three CNN models can be ad- opted in practice and have a strong feasibility and replicability;thus,they have a great potential to improve the produc- tion efficiency and product quality for chip resistors. Keywords:Chip resistance recognition:convolution neural network:AlexNet model:GoogLeNet model:ResNet model 收稿日期:2017-10-11.网络出版日期:2018-04-13. 基金项目:四川省科技支撑计划项目(2016GZ0107);四川省教 当今正处于信息智能时代,电子元器件犹如 育厅重点项目(16ZA0065):南充市重点科技项目 构筑起这个时代的一块块砖瓦,唯有对这些砖瓦 (NC17SY4001). 通信作者:何龙.E-mail:396024902@q9.com. 的质量进行保证,才能坚固地铸就属于这个时代
DOI: 10.11992/tis.201710005 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180413.0946.004.html 卷积神经网络的贴片电阻识别应用 谌贵辉,何龙,李忠兵,亢宇欣,江枭宇 (西南石油大学 电气信息学院,四川 成都 610500) 摘 要:贴片电阻由于其体积微小、性能稳定等独特的性质,在当今智能化的电子设备中被广泛使用。为保证 贴片电阻的出厂质量,需要对其进行缺陷识别、极性方向识别、正反面识别和种类识别,目前很大程度上依靠 人工肉眼进行识别检测,效率低、容易误检、成本高。本文针对传统图像识别方法的局限性,结合近年来卷积 神经网络在图像识别方面所取得的巨大成就,基于 AlexNet 模型、GoogLeNet 模型、ResNet 模型思想设计了 3 种 深度适宜、可训练参数约 4×106 (百万) 的卷积神经网络,克服了当前主流卷积神经网络模型由于可训练参数过 多、模型层数太深导致在贴片电阻识别应用中识别速度不能满足实时性要求、泛化识别准确率低的问题。实 验表明,3 种模型的识别准确率均超过 90%,最高识别准确率达到 95%,识别速度达到 0.203 s/张 (256 像 素×256 像素,CORE I5)。因此,本文设计的 3 种卷积神经网络可根据具体实际需求进行选用,在实践中具有极 强的可行性和可推广性,同时也在提升企业生产效率和产品质量方面具有重要意义。 关键词:贴片电阻识别;卷积神经网络;AlexNet 模型;GoogLeNet 模型;ResNet 模型 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2019)02−0263−10 中文引用格式:谌贵辉, 何龙, 李忠兵, 等. 卷积神经网络的贴片电阻识别应用[J]. 智能系统学报, 2019, 14(2): 263–272. 英文引用格式:CHEN Guihui, HE Long, LI Zhongbing, et al. Chip resistance recognition based on convolution neural network[J]. CAAI transactions on intelligent systems, 2019, 14(2): 263–272. Chip resistance recognition based on convolution neural network CHEN Guihui,HE Long,LI Zhongbing,KANG Yuxin,JIANG Xiaoyu (School of Electrical Information, Southwest Petroleum University, Chengdu 610500, China) Abstract: Chip resistors are widely used in intelligent electronic devices because of their unique properties such as small size and stable performance. The chip resistors produced by the factory must be identified for defects in both front and back faces, polarity, and type in order to guarantee the quality. However, such identification largely relies on the eye detection, which is inefficient, prone to error, and costly. In this paper, considering the limitation of the traditional image recognition methods and the great achievements of convolutional neural network (CNN) in image recognition in recent years, three CNN models, AlexNet model, GoogLeNet model, and ResNet model, with appropriate depth and training parameters of about 4M (million) are designed to overcome the demerits of low speed that results in the inability to meet the real-time requirement. These models overcome the low accuracy problem of generalization recognition associated with the prevailing CNN models, which is caused by many trainable parameters and many layers of model. Experiments show that the recognition accuracy of these three models exceeds 90%. The highest recognition accuracy rate is 95%, and the recognition speed is 0.203 s/piece (256 × 256 pixels, CORE I5). Therefore, these three CNN models can be adopted in practice and have a strong feasibility and replicability; thus, they have a great potential to improve the production efficiency and product quality for chip resistors. Keywords: Chip resistance recognition; convolution neural network; AlexNet model; GoogLeNet model; ResNet model 当今正处于信息智能时代,电子元器件犹如 构筑起这个时代的一块块砖瓦,唯有对这些砖瓦 的质量进行保证,才能坚固地铸就属于这个时代 收稿日期:2017−10−11. 网络出版日期:2018−04−13. 基金项目:四川省科技支撑计划项目 (2016GZ0107);四川省教 育厅重点项目 (16ZA0065);南充市重点科技项目 (NC17SY4001). 通信作者:何龙. E-mail:396024902@qq.com. 第 14 卷第 2 期 智 能 系 统 学 报 Vol.14 No.2 2019 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2019
·264· 智能系统学报 第14卷 的智能大厦,贴片电阻也不例外。工厂生产出来 码形式,提出一种Pre-Training的方法初始化权 的贴片电阻,首先需要对其进行缺陷识别、极性 重,使其更加接近全局最小,随后再通过梯度下 方向识别、正反面识别和种类识别,才能保证贴 降法来Fine-Turning网络权重值,证明了采用这 片电阻的出厂质量,因此,生产企业迫切需要一 样的方法训练的网络比PCA方法更好:同时也证 种可行的贴片电阻识别检测方法,截至目前,虽 明了在参数相同的情况下,一个更深的网络结构 然已经有论文提出针对贴片电阻缺陷进行识别的 在测试数据集上具有更低的错误识别率,但这种 方法,但生产企业由于其识别性能原因依旧没有 优势会随着权值参数的增多而逐渐消失。Hin- 广泛的使用,贴片电阻在实际生产过程中的缺陷 ton所证明的结论为后续网络模型设计提供了理 识别、方向识别等还是依靠人工肉眼进行识别检 论依据。而LeCun所提出的卷积神经网络架构, 测,不仅检测速度慢,而且长期成本高、误检率高。 是一个真正意义上的深度网络架构,其不同于 针对上述问题,学者们提出的很多理论方法 传统的全连接式的受限制波尔滋曼机,并在图像 均可在贴片电阻识别中进行应用,比如模板匹配 算法-以PCA(主成分分析)法B-、Canny边缘检测 识别领域中取得了许多振奋人心的结果,通过端 到端的训练,能够自学习出易于分类的低维特 算法、B样条小波多尺度积边缘检测算法、自 征,完全避免了人为专家知识系统的构造,与其 适应阈值SUSAN边缘算法m等,通过使用这些方 相反所带来的代价是训练样本数据的收集。Hin- 法首先对贴片电阻图片进行特征提取,然后将提 ton所证明的结论对于真正意义的深度网络模型 取出的特征通过一个分类器进行识别分类,比如 支持向量机、决策树、贝叶斯分类器等进行 是有效的,对于全连接式的深度网络模型并不适 用,全连接网络总是会陷入过拟合现象,使得实 分类。上述过程从本质上来讲,就是通过人为的 际泛化效果并不理想。因此,选择识别性能更优 方式构造专家系统和知识库对贴片电阻图片进行 的卷积神经网络用于贴片电阻识别,充分借鉴前 特征抽取,将高度相关的数据编码形式解耦成易 人思想设计卷积神经网络,尽可能精简整个卷积 于分类的低维数据形式,随后将提取出的低维数 神经网络的可训练参数从而保证识别速度,基于 据向量通过一个分类器进行识别分类。上述系 此,对比研究得出了3种不同卷积神经网络结构 统的识别性能很大程度上取决于前半部分专家系 在贴片电阻识别任务中的实际效果。 统的构造,即对特定论域问题是否提取出了有用 的特征和是否将高维数据转换到易于分类的低维 1贴片电阻识别任务分析 有效空间,通常要构造出一个专家知识系统是极其 困难的,而且当研究论域一旦改变或者扩展,之前 从企业中调研可以发现,贴片电阻识别问题 构造的专家系统又不得不重新进行构造,这样的 是一个复杂的多分类任务问题。图1所示贴片电 再构造过程不仅是极其枯燥和乏味的,而且通常 阻图片来源于工厂实际拍摄,图中贴片电阻分类 情况由工厂中经验丰富的工人所提供,图l(a)为 情况下其实际效果也并不是事先所预想的那样。 50型号反面缺角缺陷,图1(c)为50型号正面涂 然而,上述问题可以通过卷积神经网络的方 层缺角缺陷,图1(©)为50型号反面腐蚀缺陷,图1 法进行特征提取,从而避免繁琐的专家知识系统 (g)为正面字迹不清缺陷,其余4张图片为无缺陷 的构造。神经网络早在20世纪40年代就已经被 电阻面。另一方面,假设贴片电阻已经做了外观 提出,其作为连接主义智能实现的典范,是当今 缺陷检查,通过的合格电阻在自动编带时还需确 人工智能深度学习方法的重要思想源泉,也是当 保正反面、方向的一致性,因此需要对贴片电阻 前类脑智能研究中的有效工具。自2006年以 正反面和方向进行识别,由于企业生产的贴片电 来,Hinton等在《科学》上发表文章将神经网络 阻型号种类繁多,如图2所示,尺寸一样表示同一 推向了深度学习时代,指出一个训练好的多层 种封装形式的贴片电阻,故还需要对贴片电阻种 神经网络可以将高维的数据转换成低维的数据编 类进行识别。 (a)反面缺角缺陷 (b)对应(a)的反面正常 (©)正面涂层缺角缺陷 (d)对应(c)的正面正常
的智能大厦,贴片电阻也不例外。工厂生产出来 的贴片电阻,首先需要对其进行缺陷识别、极性 方向识别、正反面识别和种类识别,才能保证贴 片电阻的出厂质量,因此,生产企业迫切需要一 种可行的贴片电阻识别检测方法,截至目前,虽 然已经有论文提出针对贴片电阻缺陷进行识别的 方法,但生产企业由于其识别性能原因依旧没有 广泛的使用,贴片电阻在实际生产过程中的缺陷 识别、方向识别等还是依靠人工肉眼进行识别检 测,不仅检测速度慢,而且长期成本高、误检率高。 针对上述问题,学者们提出的很多理论方法 均可在贴片电阻识别中进行应用,比如模板匹配 算法[1-2] 、PCA(主成分分析) 法 [3-4] 、Canny 边缘检测 算法[5] 、B 样条小波多尺度积边缘检测算法[6] 、自 适应阈值 SUSAN 边缘算法[7]等,通过使用这些方 法首先对贴片电阻图片进行特征提取,然后将提 取出的特征通过一个分类器进行识别分类,比如 支持向量机[8] 、决策树[9] 、贝叶斯分类器[10]等进行 分类。上述过程从本质上来讲,就是通过人为的 方式构造专家系统和知识库对贴片电阻图片进行 特征抽取,将高度相关的数据编码形式解耦成易 于分类的低维数据形式,随后将提取出的低维数 据向量通过一个分类器进行识别分类。上述系 统的识别性能很大程度上取决于前半部分专家系 统的构造,即对特定论域问题是否提取出了有用 的特征和是否将高维数据转换到易于分类的低维 有效空间,通常要构造出一个专家知识系统是极其 困难的,而且当研究论域一旦改变或者扩展,之前 构造的专家系统又不得不重新进行构造,这样的 再构造过程不仅是极其枯燥和乏味的,而且通常 情况下其实际效果也并不是事先所预想的那样。 然而,上述问题可以通过卷积神经网络的方 法进行特征提取,从而避免繁琐的专家知识系统 的构造。神经网络早在 20 世纪 40 年代就已经被 提出,其作为连接主义智能实现的典范,是当今 人工智能深度学习方法的重要思想源泉,也是当 前类脑智能研究中的有效工具[11]。自 2006 年以 来,Hinton 等在《科学》上发表文章将神经网络 推向了深度学习时代[12] ,指出一个训练好的多层 神经网络可以将高维的数据转换成低维的数据编 码形式,提出一种 Pre-Training[13]的方法初始化权 重,使其更加接近全局最小,随后再通过梯度下 降法来 Fine-Turning 网络权重值,证明了采用这 样的方法训练的网络比 PCA 方法更好;同时也证 明了在参数相同的情况下,一个更深的网络结构 在测试数据集上具有更低的错误识别率,但这种 优势会随着权值参数的增多而逐渐消失。Hinton 所证明的结论为后续网络模型设计提供了理 论依据。而 LeCun 所提出的卷积神经网络架构, 是一个真正意义上的深度网络架构[14] ,其不同于 传统的全连接式的受限制波尔兹曼机,并在图像 识别领域中取得了许多振奋人心的结果,通过端 到端的训练,能够自学习出易于分类的低维特 征,完全避免了人为专家知识系统的构造,与其 相反所带来的代价是训练样本数据的收集。Hinton 所证明的结论对于真正意义的深度网络模型 是有效的,对于全连接式的深度网络模型并不适 用,全连接网络总是会陷入过拟合现象,使得实 际泛化效果并不理想。因此,选择识别性能更优 的卷积神经网络用于贴片电阻识别,充分借鉴前 人思想设计卷积神经网络,尽可能精简整个卷积 神经网络的可训练参数从而保证识别速度,基于 此,对比研究得出了 3 种不同卷积神经网络结构 在贴片电阻识别任务中的实际效果。 1 贴片电阻识别任务分析 从企业中调研可以发现,贴片电阻识别问题 是一个复杂的多分类任务问题。图 1 所示贴片电 阻图片来源于工厂实际拍摄,图中贴片电阻分类 情况由工厂中经验丰富的工人所提供,图 1(a) 为 50 型号反面缺角缺陷,图 1(c) 为 50 型号正面涂 层缺角缺陷,图 1(e) 为 50 型号反面腐蚀缺陷,图 1 (g) 为正面字迹不清缺陷,其余 4 张图片为无缺陷 电阻面。另一方面,假设贴片电阻已经做了外观 缺陷检查,通过的合格电阻在自动编带时还需确 保正反面、方向的一致性,因此需要对贴片电阻 正反面和方向进行识别,由于企业生产的贴片电 阻型号种类繁多,如图 2 所示,尺寸一样表示同一 种封装形式的贴片电阻,故还需要对贴片电阻种 类进行识别。 (a) 反面缺角缺陷 (b) 对应(a)的反面正常 (c) 正面涂层缺角缺陷 (d) 对应(c)的正面正常 ·264· 智 能 系 统 学 报 第 14 卷
第2期 湛贵辉,等:卷积神经网络的贴片电阻识别应用 ·265· .20 (e)反面腐蚀缺陷 (①对应(e)的反面正常 (g)正面字迹不清 h)对应(g)的正面正常 图1一种典型电阻型号需识别种类数 Fig.1 A typical resistance type is required to identify the number of categories 2卷积神经网络相关数学理论 300240121331 5R17R 242 272 当前主流的3种用于模式识别的卷积神经网络 模型一AlexNet模型1、GoogLeNet模型16i列 图2需要识别的不同型号的贴片电阻示意 ResNet模型u.,分别在2012年、2014年、2015 Fig.2 Different types of chip resistors that need to be 年的ILSVRC竞赛中取得第一名的成绩,其模型 identified 架构思想可以用图4进行概括,图中卷积层实现 因此,为了覆盖上述识别的所有情况,通过在 特征提取,全连接层实现特征分类。 实际工厂中拍摄大量的贴片电阻图片,再经过人 2.1卷积层模型 工严格筛选和预处理算法处理之后,本文制作出 卷积神经网络模型首先由LeCun所提出,其 了包含29种类别的贴片电阻数据样本集。类别 卷积过程类似于对图像抽取特征的各种算子,如 标签1~13主要是电阻缺陷识别,14~29主要是方 Sobel算子、Laplace算子。算子的卷积过程: 向、正反面以及种类识别,总的贴片电阻样本数 量为1044张,每一类别包含36张样本,经过预 O(m.n)=I(m.n)*H(m.n)= 处理算法处理之后的图片,每张图片被剪切为320× 320像素大小,贴片电阻居于图像正中位置,贴片 岁艺1i,Hm-in-= m=0n=0 (1) 电阻以外其余的像素点全部被置零为黑色背景, 即清除了贴片电阻图像背景特征。在后续的实验 分为m-i-7h6D 中,每一类别均随机选取5张电阻图片用于准确 00 率测试,其余的贴片电阻均作为训练样本,详细数据 式中:I表示输入灰度图像;H表示图像操作算子; 集及标签类别对应情况如图3和表1所示,图3 M、N和I、J表示卷积核大小,其操作过程为一固 中相邻两张图片为一个类别,以阅读的顺序与表1 定大小的卷积核在图像像素点上进行了一次动态 中的标签依次对应(如图3中第一行前两张图片 扫描。但卷积神经网络的卷积过程有其自己独有 对应标签为1,所属类别为50型号反面弹珠缺陷)。 的特点,引入了通道的概念,则式(1)变为 O(m,m)=产(m,n)⑧H(m,m)= ∑∑∑r产m+in+D, (2) k=0=00 式中:k表示输入通道;1表示输出通道。卷积神经 网络在进行逐层特征抽取的过程中,每个通道仍 然按照二维卷积方式计算,输入的多个通道与多 个卷积核分别进行二维卷积,得到多通道输出, 需要“合并”为一个通道,则每层总的卷积核个数 为k!个。通过卷积的方式,卷积层在输出特征图 维度实现了权值共享,相比全连接的方式,不仅 极大减少了训练参数,而且二维卷积核的卷积过 图3预处理后的29种贴片电阻图片样例 Fig.3 Samples of 29 kinds of chip resistors after preprocessing 程也符合图像的结构特征
因此,为了覆盖上述识别的所有情况,通过在 实际工厂中拍摄大量的贴片电阻图片,再经过人 工严格筛选和预处理算法处理之后,本文制作出 了包含 29 种类别的贴片电阻数据样本集。类别 标签 1~13 主要是电阻缺陷识别,14~29 主要是方 向、正反面以及种类识别,总的贴片电阻样本数 量为 1 044 张,每一类别包含 36 张样本,经过预 处理算法处理之后的图片,每张图片被剪切为 320× 320 像素大小,贴片电阻居于图像正中位置,贴片 电阻以外其余的像素点全部被置零为黑色背景, 即清除了贴片电阻图像背景特征。在后续的实验 中,每一类别均随机选取 5 张电阻图片用于准确 率测试,其余的贴片电阻均作为训练样本,详细数据 集及标签类别对应情况如图 3 和表 1 所示,图 3 中相邻两张图片为一个类别,以阅读的顺序与表 1 中的标签依次对应 (如图 3 中第一行前两张图片 对应标签为 1,所属类别为 50 型号反面弹珠缺陷)。 2 卷积神经网络相关数学理论 当前主流的 3 种用于模式识别的卷积神经网络 模型——AlexNet 模型[15] 、GoogLeNet 模型[16-17] 、 ResNet 模型[18-19] ,分别在 2012 年、2014 年、2015 年的 ILSVRC 竞赛中取得第一名的成绩,其模型 架构思想可以用图 4 进行概括,图中卷积层实现 特征提取,全连接层实现特征分类。 2.1 卷积层模型 卷积神经网络模型首先由 LeCun 所提出,其 卷积过程类似于对图像抽取特征的各种算子,如 Sobel 算子、Laplace 算子。算子的卷积过程: O(m,n)=I(m,n) ∗ H(m,n)= ∑M−1 m=0 ∑N−1 n=0 I(i, j)H(m−i,n− j)= ∑I−1 i=0 ∑J−1 j=0 I(m−i,n− j)H(i, j) (1) 式中:I 表示输入灰度图像; H 表示图像操作算子; M、N 和 I、J 表示卷积核大小,其操作过程为一固 定大小的卷积核在图像像素点上进行了一次动态 扫描。但卷积神经网络的卷积过程有其自己独有 的特点,引入了通道的概念,则式 (1) 变为 O l (m,n) = I k (m,n)⊗ H kl(m,n) = ∑K−1 k=0 ∑I−1 i=0 ∑J−1 j=0 I k (m+i,n+ j)H kl(i, j) (2) k l kl 式中: 表示输入通道; 表示输出通道。卷积神经 网络在进行逐层特征抽取的过程中,每个通道仍 然按照二维卷积方式计算,输入的多个通道与多 个卷积核分别进行二维卷积,得到多通道输出, 需要“合并”为一个通道,则每层总的卷积核个数 为 个。通过卷积的方式,卷积层在输出特征图 维度实现了权值共享,相比全连接的方式,不仅 极大减少了训练参数,而且二维卷积核的卷积过 程也符合图像的结构特征。 (e) 反面腐蚀缺陷 (f) 对应(e)的反面正常 (g) 正面字迹不清 (h) 对应(g)的正面正常 图 1 一种典型电阻型号需识别种类数 Fig. 1 A typical resistance type is required to identify the number of categories 图 2 需要识别的不同型号的贴片电阻示意 Fig. 2 Different types of chip resistors that need to be identified 图 3 预处理后的 29 种贴片电阻图片样例 Fig. 3 Samples of 29 kinds of chip resistors after preprocessing 第 2 期 谌贵辉,等:卷积神经网络的贴片电阻识别应用 ·265·
·266· 智 能系统学报 第14卷 表1实验详细数据表 非线性特性和稀疏特性。数学家们将这样的阈值 Table 1 Experimental detailed data sheet 函数称为激活函数,早期的激活函数主要有Sig moid函数和tanh函数两种,但二者均由于使梯度 标签训练样本数测试样本数 种类名称 在反向传播过程中衰减过快而被人们所放弃,过 31 50型号反面弹珠缺陷 快的梯度衰减与构造一个更深的卷积神经网络是 31 50型号反面两块整电阻缺陷 矛盾的。因此人们提出了RLU非线性激活函数P四, 31 50型号反面无规则裂角缺陷 其表达式为 31 J 50型号反面腐蚀缺陷 f(x)= x,x>0 10,x≤0 (3) 31 50型号反面缺角缺陷 式(3)的激活函数不仅能够减少计算量,在 6 31 J 50型号反面桥接缺陷 定程度上克服了梯度反向传播消失问题,并且增 > 31 50型号正面弹珠缺陷 加了网络的稀疏性,因此而被广泛的使用。 31 J 50型号正面两块整电阻缺陷 2.3 Dropout(随机丢弃)层 9 31 50型号正面无规则裂角缺陷 Dropout.层是为了增加神经网络的稀疏性而 特别设计的,其背后的理论依据是为了模仿大脑 10 31 50型号正面腐蚀缺陷 的稀疏特性。人脑的神经元大多处于抑制状态, 11 31 50型号正面缺角缺陷 只有不到10%的神经元处于活动状态,因此,人 31 50型号正面黑色涂层缺角 脑是一个典型的稀疏结构,每次训练网络通过选 13 31 50型号正面字迹不清 择性的丢弃某些神经元,使其不参与前向传播和 14 31 50型号反面无缺陷方向朝东 反向传播过程,一方面可以增加网络的稀疏性, 另一方面提供了正则化一大类模型的方法。 15 31 50型号正面无缺陷方向朝东 24 Pooling(池化)层 16 50型号反面无缺陷方向朝西 Pooling层是为了快速降低特征图维度而设 17 31 50型号正面无缺陷方向朝西 计的,从而减轻计算的负担。Pooling层通过汇总 18 31 103,184,222,型号反面有缺陷 上一层特征图相邻神经元的输出,输出一个维度 19 31 103,184,222,型号反面无缺陷 被降低的特征图。通过Pooling层的操作,模型计 20 分 算量被减少,网络过拟合问题得到一定的缓解, 103型号正面有缺陷 网络整体性能也有所提升。常见的汇总操作有 21 31 103型号正面无缺陷 MAX和AVE,MAX操作为局部相邻神经元的最 22 31 184型号正面无缺陷 大值作为输出,AVE操作为局部相邻神经元的平 23 31 222型号正面电极不对称缺陷 均值作为输出,与图像均值滤波类似。 24 31 222型号正面无缺陷 2.5 LRN(local response normalization) LRN层为局部响应值归一化层,LRN层跟随 25 31 300型号正面无缺陷 在Pooling层之后,通过对局部神经元的活动创建 31 103型号正面无缺陷字迹反向 竞争机制,使得其中响应比较大的值变得相对更 27 31 184型号正面无缺陷字迹反向 大,并抑制其他反馈较小的神经元,保留关键特 31 222型号正面无缺陷字迹反向 征,抑制非重要特征。LRN层具体归一化公式 如式(4)所示: 29 31 5 300型号正面无缺陷字迹反向 min(N-1.i+n/2) 卷积层池化层LRN层BN层 全连接分类器 b,=d, k+a∑a 4) 预 Dropout 理 结果输出 式中:d,表示第个特征图像素位置为x、y的值: N表示特征图的总个数;n表示沿着特征图(也称 通道)方向需要被归一化的像素点个数;k、α、B为 可自由设置的超参数。求和函数中的min和max用 图4常见卷积模型图 于避免数据溢出特征图个数(通道个数)之外。 Fig.4 Common convolution model diagram 2.6 BatchNorm层 2.2ReLU非线性函数 BatchNorm层为步长归一化层,卷积神经网 根据神经科学的研究,存在一个阈值来控制 络在读入训练数据和测试数据时,并不是每次只 神经元的选择性输出,从而增加整个神经系统的 读取一张图片,而是一次读取一个Batch(步长)值
结果输出 预 处 理 后 图 片 卷积层 池化层 LRN 层 BN 层 全连接分类器 Dropout 图 4 常见卷积模型图 Fig. 4 Common convolution model diagram 2.2 ReLU 非线性函数 根据神经科学的研究,存在一个阈值来控制 神经元的选择性输出,从而增加整个神经系统的 非线性特性和稀疏特性。数学家们将这样的阈值 函数称为激活函数,早期的激活函数主要有 Sigmoid 函数和 tanh 函数两种,但二者均由于使梯度 在反向传播过程中衰减过快而被人们所放弃,过 快的梯度衰减与构造一个更深的卷积神经网络是 矛盾的。因此人们提出了 ReLU 非线性激活函数[20] , 其表达式为 f (x) = { x, x > 0 0, x ⩽ 0 (3) 式 (3) 的激活函数不仅能够减少计算量,在一 定程度上克服了梯度反向传播消失问题,并且增 加了网络的稀疏性,因此而被广泛的使用。 2.3 Dropout(随机丢弃) 层 Dropout 层是为了增加神经网络的稀疏性而 特别设计的,其背后的理论依据是为了模仿大脑 的稀疏特性。人脑的神经元大多处于抑制状态, 只有不到 10% 的神经元处于活动状态,因此,人 脑是一个典型的稀疏结构,每次训练网络通过选 择性的丢弃某些神经元,使其不参与前向传播和 反向传播过程,一方面可以增加网络的稀疏性, 另一方面提供了正则化一大类模型的方法。 2.4 Pooling(池化) 层 Pooling 层是为了快速降低特征图维度而设 计的,从而减轻计算的负担。Pooling 层通过汇总 上一层特征图相邻神经元的输出,输出一个维度 被降低的特征图。通过 Pooling 层的操作,模型计 算量被减少,网络过拟合问题得到一定的缓解, 网络整体性能也有所提升。常见的汇总操作有 MAX 和 AVE,MAX 操作为局部相邻神经元的最 大值作为输出,AVE 操作为局部相邻神经元的平 均值作为输出,与图像均值滤波类似。 2.5 LRN(local response normalization) 层 LRN 层为局部响应值归一化层,LRN 层跟随 在 Pooling 层之后,通过对局部神经元的活动创建 竞争机制,使得其中响应比较大的值变得相对更 大,并抑制其他反馈较小的神经元,保留关键特 征,抑制非重要特征[15]。LRN 层具体归一化公式 如式 (4) 所示: b i x,y = a i x,y / k+α min(N∑−1,i+n/2) j=max(0,i−n/2) ( a j x,y )2 β (4) a i x,y i x y N n k α β min max 式中: 表示第 个特征图像素位置为 、 的值; 表示特征图的总个数; 表示沿着特征图 (也称 通道) 方向需要被归一化的像素点个数; 、 、 为 可自由设置的超参数。求和函数中的 和 用 于避免数据溢出特征图个数 (通道个数) 之外。 2.6 BatchNorm 层 BatchNorm 层为步长归一化层,卷积神经网 络在读入训练数据和测试数据时,并不是每次只 读取一张图片,而是一次读取一个 Batch(步长) 值 表 1 实验详细数据表 Table 1 Experimental detailed data sheet 标签 训练样本数 测试样本数 种类名称 1 31 5 50 型号反面弹珠缺陷 2 31 5 50 型号反面两块整电阻缺陷 3 31 5 50 型号反面无规则裂角缺陷 4 31 5 50 型号反面腐蚀缺陷 5 31 5 50 型号反面缺角缺陷 6 31 5 50 型号反面桥接缺陷 7 31 5 50 型号正面弹珠缺陷 8 31 5 50 型号正面两块整电阻缺陷 9 31 5 50 型号正面无规则裂角缺陷 10 31 5 50 型号正面腐蚀缺陷 11 31 5 50 型号正面缺角缺陷 12 31 5 50 型号正面黑色涂层缺角 13 31 5 50 型号正面字迹不清 14 31 5 50 型号反面无缺陷方向朝东 15 31 5 50 型号正面无缺陷方向朝东 16 31 5 50 型号反面无缺陷方向朝西 17 31 5 50 型号正面无缺陷方向朝西 18 31 5 103,184,222,型号反面有缺陷 19 31 5 103,184,222,型号反面无缺陷 20 31 5 103 型号正面有缺陷 21 31 5 103 型号正面无缺陷 22 31 5 184 型号正面无缺陷 23 31 5 222 型号正面电极不对称缺陷 24 31 5 222 型号正面无缺陷 25 31 5 300 型号正面无缺陷 26 31 5 103 型号正面无缺陷字迹反向 27 31 5 184 型号正面无缺陷字迹反向 28 31 5 222 型号正面无缺陷字迹反向 29 31 5 300 型号正面无缺陷字迹反向 ·266· 智 能 系 统 学 报 第 14 卷
第2期 湛贵辉,等:卷积神经网络的贴片电阻识别应用 ·267· 的图片数据。这样就带来一个问题,深度神经网 图像 络每一层的输人分布在训练的时候会发生改变 11×11卷积,48,4☐ 导致卷积神经网络难以学习到数据中蕴藏的本 ReLU 质,这使得要训练这样的网络变得困难复杂,而 LRN 这样的问题可以通过归一化每一层的输入来解 3×3最大值池化,2 决。BN的本质作用原理是强行将每一层输人分 布的变化进行矫正,使得每一层输入在进行卷积 5×5卷积,128 之前保持零均值和单位方差I。使用BN层的深 ReLU 度网络结构,可以使用更高的学习率进行训练, LRN 而且也不用过多的关心训练权值初始化问题。实 3×3最大值池化.2 践证明加入BN层的深度网络不仅训练收敛速度 极大提高,而且识别准确率也得到改善。 3×3卷积,192 ReLU 3卷积模型架构设计 3×3卷积,192 ReLU 3×3卷积,128 Hinton证明了在参数相同的情况下,一个更 ReLU 深的网络结构在测试数据集上具有更低的错误识 3×3最大值池化,2 别率,但这种优势会随着权值参数的增多而逐渐 消失,本文基于此理论依据,针对传统图像识别 全连接层512神经元 ReLU/Dropout 方法的局限性,结合AlexNet模型、GoogLeNet模 全连接层512神经元 型、ResNet模型思想和其突出的图像识别分类能 ReLU/Dropout 力,设计了3种卷积神经网络模型用于识别贴片 全连接层29神经元 电阻图像,需同时保证设计模型的识别准确率和 Softmax 输出 识别速度。 起初AlexNet模型被设计的目的是用于参加 图5 识别贴片电阻的8层经典卷积网络结构,可训练 ILSVRC图像分类竞赛,同时消除人们对卷积神 参数为4.07×10 经网络识别性能的质疑。网络总共包含60M的 Fig.5 The 8-layer classical convolution network structure 可训练参数,主要是为了提升网络容量,应对包 of identify the chip resistors with a training parameter 含千万张图像的ImageNet数据集,但贴片电阻识 0f4.07×10° 别并不需要如此巨大的可训练参数,这是因为贴 基于谷歌Inception结构思想设计的16层4- 片电阻数据并不像Imagenet数据集那样蕴含大量 Inception网络如图6所示,模型中将两个Incep- 的特征,并且在实践中企业迫切希望使用少量的 tion结构组合构成一个基本的结构单元,取名为 训练样本去达到非常理想的识别准确率,因此需 4-Inception(参见图7),这样可以方便网络结构呈 要对已有模型可训练参数进行减少,防止过拟合 现。在4-Inception的卷积结构当中,卷积核大小 现象。同时,贴片电阻识别既需要保证高识别准 全部使用1×1、3×3、5×5,参数设计思想是随着深 确率,也需要保证高识别速度,这就需要将卷积 神经网络的深度控制在一个合理的范围之内。因 度的增加,提取出的特征越来越抽象,每个特征 此,设计的网络需从整体上进行“瘦身”,同理,另 所涉及的感受野(receptive field)越来越大。故网 外2种模型的修改思路亦是如此,将修改后的 络越到后面,3×3、5×5卷积核比例相应增加.但卷 3种模型可训练参数保持一致,可以方便比较他 积核的增加会带来巨大的训练参数和计算量,因 们的综合性能。 此在进行卷积之前先进行1×1卷积降低特征图 基于上述思想,由AlexNet模型思想修改后 (通道)个数。为了克服连接器拼接特征图维度对 的网络依旧为8层深度,结构与原来保持不变,做 齐问题,1×1、3×3、5×5卷积时要分别设定填充大 出的改动是对原模型可训练参数进行了大量精简, 小为0、1、2,则卷积后的尺寸保持不变,更易对 可训练参数从原来的60×10降低为4×10左右, 训练参数只有原来的1/15,详细参数设置如图5 齐。采用此结构设计的16层深度卷积网络,由 所示,图中参数设置含义为,比如(11×11卷积,48.4) 于4-Inception基本结构单元比较复杂,需要利用 表示卷积核大小为11×11,输出特征图个数为48, 多尺度的训练方法对其进行训练,从而提高网络 卷积时滑动步长为4,没有写滑动步长表示默认 训练收敛速度。图7中3个4-Inception结构参数 为1,其他同理,后续网络中参数设置含义与此类似。 详细设置见表2
的图片数据。这样就带来一个问题,深度神经网 络每一层的输入分布在训练的时候会发生改变, 导致卷积神经网络难以学习到数据中蕴藏的本 质,这使得要训练这样的网络变得困难复杂,而 这样的问题可以通过归一化每一层的输入来解 决。BN 的本质作用原理是强行将每一层输入分 布的变化进行矫正,使得每一层输入在进行卷积 之前保持零均值和单位方差[19]。使用 BN 层的深 度网络结构,可以使用更高的学习率进行训练, 而且也不用过多的关心训练权值初始化问题。实 践证明加入 BN 层的深度网络不仅训练收敛速度 极大提高,而且识别准确率也得到改善。 3 卷积模型架构设计 Hinton 证明了在参数相同的情况下,一个更 深的网络结构在测试数据集上具有更低的错误识 别率,但这种优势会随着权值参数的增多而逐渐 消失,本文基于此理论依据,针对传统图像识别 方法的局限性,结合 AlexNet 模型、GoogLeNet 模 型、ResNet 模型思想和其突出的图像识别分类能 力,设计了 3 种卷积神经网络模型用于识别贴片 电阻图像,需同时保证设计模型的识别准确率和 识别速度。 起初 AlexNet 模型被设计的目的是用于参加 ILSVRC 图像分类竞赛,同时消除人们对卷积神 经网络识别性能的质疑。网络总共包含 60M 的 可训练参数,主要是为了提升网络容量,应对包 含千万张图像的 ImageNet 数据集,但贴片电阻识 别并不需要如此巨大的可训练参数,这是因为贴 片电阻数据并不像 Imagenet 数据集那样蕴含大量 的特征,并且在实践中企业迫切希望使用少量的 训练样本去达到非常理想的识别准确率,因此需 要对已有模型可训练参数进行减少,防止过拟合 现象。同时,贴片电阻识别既需要保证高识别准 确率,也需要保证高识别速度,这就需要将卷积 神经网络的深度控制在一个合理的范围之内。因 此,设计的网络需从整体上进行“瘦身”,同理,另 外 2 种模型的修改思路亦是如此,将修改后的 3 种模型可训练参数保持一致,可以方便比较他 们的综合性能。 基于上述思想,由 AlexNet 模型思想修改后 的网络依旧为 8 层深度,结构与原来保持不变,做 出的改动是对原模型可训练参数进行了大量精简, 可训练参数从原来的 60×106 降低为 4×106 左右, 训练参数只有原来的 1/15,详细参数设置如图 5 所示,图中参数设置含义为,比如 (11×11 卷积,48,/4) 表示卷积核大小为 11×11,输出特征图个数为 48, 卷积时滑动步长为 4,没有写滑动步长表示默认 为 1,其他同理,后续网络中参数设置含义与此类似。 基于谷歌 Inception 结构思想设计的 16 层 4- Inception 网络如图 6 所示,模型中将两个 Inception 结构组合构成一个基本的结构单元,取名为 4-Inception(参见图 7),这样可以方便网络结构呈 现。在 4-Inception 的卷积结构当中,卷积核大小 全部使用 1×1、3×3、5×5,参数设计思想是随着深 度的增加,提取出的特征越来越抽象,每个特征 所涉及的感受野 (receptive field) 越来越大。故网 络越到后面,3×3、5×5 卷积核比例相应增加,但卷 积核的增加会带来巨大的训练参数和计算量,因 此在进行卷积之前先进行 1×1 卷积降低特征图 (通道) 个数。为了克服连接器拼接特征图维度对 齐问题,1×1、3×3、5×5 卷积时要分别设定填充大 小为 0、1、2,则卷积后的尺寸保持不变,更易对 齐。采用此结构设计的 16 层深度卷积网络,由 于 4-Inception 基本结构单元比较复杂,需要利用 多尺度的训练方法对其进行训练,从而提高网络 训练收敛速度。图 7 中 3 个 4-Inception 结构参数 详细设置见表 2。 图像 LRN 3×3 最大值池化,/2 5×5 卷积, 128 LRN 3×3 最大值池化,/2 3×3 卷积, 192 3×3 卷积, 192 3×3 卷积, 128 3×3 最大值池化,/2 全连接层 512 神经元 全连接层 512 神经元 全连接层 29 神经元 11×11 卷积, 48,/4 输出 ReLU ReLU ReLU ReLU ReLU ReLU/Dropout ReLU/Dropout Softmax 图 5 识别贴片电阻的 8 层经典卷积网络结构,可训练 参数为 4.07×106 Fig. 5 The 8-layer classical convolution network structure of identify the chip resistors with a training parameter of 4.07×106 第 2 期 谌贵辉,等:卷积神经网络的贴片电阻识别应用 ·267·