当前位置：和泉文库 > 电气与自动化 > 浏览文档

【机器学习】改进MobileNet的图像分类方法研究

文件格式：PDF，文件大小：4.41MB，售价：3.9元

文档详细内容（约10页）

第16卷第1期智能系统学报 Vol.16 No.1 2021年1月 CAAI Transactions on Intelligent Systems Jan.2021 D0:10.11992/tis.202012034 改进MobileNet的图像分类方法研究高淑萍，赵清源，齐小刚，程孟菲 (西安电子科技大学数学与统计学院，陕西西安710126) 摘要：针对神经网络结构的特征提取能力不足以及在包含复杂图像特征的数据集上分类准确率不高的问题，本文提出了一种对MobileNet神经网络的改进策略(L-MobileNet)。将原标准卷积形式替换为深度可分离卷积形式，并将深度卷积层得到的特征图执行取反操作，通过深度卷积融合层传递至下一层；采用Leaky ReLU激活函数代替原RLU激活函数来保留图像中更多的正负特征信息，并加入类残差结构避免梯度弥散现象。与6种方法进行对比，实验结果表明：L-MobileNet在数据集Cifar--l0、Cifar--l00(coarse))、Cifar-l00(fine)和Dogs vs Cats上平均准确率和最高准确率都取得了最佳结果。关键词：卷积神经网络；图像分类；特征提取；MobileNet::深度可分离卷积：激活函数；Leaky ReLU;残差结构中图分类号：TP391;TP181文献标志码：A文章编号：1673-4785(2021)01-0011-10 中文引用格式：高淑萍，赵清源，齐小刚，等.改进MobileNet的图像分类方法研究.智能系统学报，2021,16(1)：11-20. 英文引用格式：GAO Shuping,.ZHAO Qingyuan,,QI Xiaogang,.etal.Research on the improved image classification method of Mo- bileNetJ.CAAI transactions on intelligent systems,2021,16(1):11-20. Research on the improved image classification method of MobileNet GAO Shuping,ZHAO Qingyuan,QI Xiaogang,CHENG Mengfei (School of Mathematics and Statistics,Xidian University,Xi'an 710126,China) Abstract:This paper proposes an improved strategy for the MobileNet neural network(L-MobileNet)because the fea- ture extraction ability of a neural network structure is insufficient,and the classification accuracy is not high on the data- set containing complex image features.First,the original standard convolution form is replaced by the depth separable convolution form,and the feature map obtained from the deep convolution layer is reversed and transferred to the next layer through the deep convolution fusion layer.Second,the leaky ReLU activation function is used to replace the ori- ginal ReLU activation function to retain more positive and negative feature information in the image,and residual struc- ture is added to avoid the gradient diffusion phenomenon.Finally,the experimental results showed that when compared with six methods,L-MobileNet achieved the best results in the datasets of Cifar-10,Cifar-100(coarse),Cifar-100(fine), and Dogs vs Cats. Keywords:convolutional neural network;image classification;feature extraction;MobileNet;depth separable convolu- tion;activation function;Leaky ReLU;residual structure 图像分类是通过涵盖在图像里的不同特征信后发展为特征表达的学习，首先是利用尺度不变息来对图像集进行归类，它是目前计算机视觉领特征转换(scale-invariant feature transform,SIFT)、域的基本问题之一，也是行为检测、目标识别、图方向梯度直方图(histogram of oriented gradient, 像修复、图像切割等复杂视觉任务的基础。图像 HOG)等方法进行底层特征提取；其次是利用核分类广泛应用于诸多领域，包括医学影像识别词典编码、Fisher向量编码等进行特征编码：然后等。早期图像分类技术以人工提取特征为主，而是将编码后的特征进行汇聚；最后利用支持向量收稿日期：2020-12-31 机等分类器进行图像分类。虽然特征表达的学习基金项目：国家自然科学基金项目(91338115)：高等学校学科方式能够提取一部分图像特征，但这种方式容易创新引智基地“111”计划(B08038). 通信作者：赵清源.E-mail:zqy353364144@163.com 出现特征丢失、泛化性能差的问题，最终难以达

DOI: 10.11992/tis.202012034 改进 MobileNet 的图像分类方法研究高淑萍，赵清源，齐小刚，程孟菲（西安电子科技大学数学与统计学院，陕西西安 710126）摘要：针对神经网络结构的特征提取能力不足以及在包含复杂图像特征的数据集上分类准确率不高的问题，本文提出了一种对 MobileNet 神经网络的改进策略 (L-MobileNet)。将原标准卷积形式替换为深度可分离卷积形式，并将深度卷积层得到的特征图执行取反操作，通过深度卷积融合层传递至下一层；采用 Leaky ReLU 激活函数代替原 ReLU 激活函数来保留图像中更多的正负特征信息，并加入类残差结构避免梯度弥散现象。与 6 种方法进行对比，实验结果表明：L-MobileNet 在数据集 Cifar-10、Cifar-100(coarse)、Cifar-100(fine) 和 Dogs vs Cats 上平均准确率和最高准确率都取得了最佳结果。关键词：卷积神经网络；图像分类；特征提取；MobileNet；深度可分离卷积；激活函数；Leaky ReLU；残差结构中图分类号：TP391； TP181 文献标志码：A 文章编号：1673−4785(2021)01−0011−10 中文引用格式：高淑萍, 赵清源, 齐小刚, 等. 改进 MobileNet 的图像分类方法研究 [J]. 智能系统学报, 2021, 16(1): 11–20. 英文引用格式：GAO Shuping, ZHAO Qingyuan, QI Xiaogang, et al. Research on the improved image classification method of MobileNet[J]. CAAI transactions on intelligent systems, 2021, 16(1): 11–20. Research on the improved image classification method of MobileNet GAO Shuping，ZHAO Qingyuan，QI Xiaogang，CHENG Mengfei (School of Mathematics and Statistics, Xidian University, Xi’an 710126, China) Abstract: This paper proposes an improved strategy for the MobileNet neural network (L-MobileNet) because the feature extraction ability of a neural network structure is insufficient, and the classification accuracy is not high on the dataset containing complex image features. First, the original standard convolution form is replaced by the depth separable convolution form, and the feature map obtained from the deep convolution layer is reversed and transferred to the next layer through the deep convolution fusion layer. Second, the leaky ReLU activation function is used to replace the original ReLU activation function to retain more positive and negative feature information in the image, and residual structure is added to avoid the gradient diffusion phenomenon. Finally, the experimental results showed that when compared with six methods, L-MobileNet achieved the best results in the datasets of Cifar-10, Cifar-100 (coarse), Cifar-100 (fine), and Dogs vs Cats. Keywords: convolutional neural network; image classification; feature extraction; MobileNet; depth separable convolution; activation function; Leaky ReLU; residual structure 图像分类是通过涵盖在图像里的不同特征信息来对图像集进行归类，它是目前计算机视觉领域的基本问题之一，也是行为检测、目标识别、图像修复、图像切割等复杂视觉任务的基础。图像分类广泛应用于诸多领域，包括医学影像识别等。早期图像分类技术以人工提取特征为主，而后发展为特征表达的学习，首先是利用尺度不变特征转换 (scale-invariant feature transform, SIFT)、方向梯度直方图 (histogram of oriented gradient, HOG) 等方法进行底层特征提取；其次是利用核词典编码、Fisher 向量编码等进行特征编码；然后是将编码后的特征进行汇聚；最后利用支持向量机等分类器进行图像分类。虽然特征表达的学习方式能够提取一部分图像特征，但这种方式容易出现特征丢失、泛化性能差的问题，最终难以达收稿日期：2020−12−31. 基金项目：国家自然科学基金项目 (91338115)；高等学校学科创新引智基地“111”计划 (B08038). 通信作者：赵清源. E-mail：zqy353364144@163.com. 第 16 卷第 1 期智能系统学报 Vol.16 No.1 2021 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2021

·12· 智能系统学报第16卷到理想图像分类精度的要求。 1相关预备知识深度学习中卷积神经网络(convolutional neur-. al network,.CNN)能够完成输入信息从浅层学习 1.1经典的CNN网络结构到深层学习的逐级表达，提取更加准确的特征，经典的CNN属于前馈神经网络类型，其结构降低在图像分类技术上的操作难度并取得显著效组件有标准卷积层、池化层、全连接层、激活函数果。在图像分类领域，最初是由Yann LeCun)将和分类器，如图1所示。该网络主要通过标准卷 CNN部署在手写体识别上，取得了良好的识别效积层进行图像特征提取，在该层中通常包括若干果；2012年后，相继出现了AlexNet、GoogLeNet 特征图，每个特征图由神经元节点排列成矩形形 ResNet!)等具有代表性的深度网络结构；近几年，状，相同特征图中神经元节点之间进行权值共国内外提出轻量化版本的网络结构，如GhostNet 享。通过权值共享可以减少神经元节点之间的连 ShuffleNetV1、MobileNetV1151、MobileNetV2m ShuffleNetV22、SqueezeNet!9和IGCV3o,其中接数量，避免过拟合现象。池化层能够降低计算 MobileNet系列更具代表性。在MobileNetV1中，维度，进而提升网络结构的泛化性能。激活函数以深度可分离卷积替换标准卷积的方式降低了网用来增强网络结构的非线性学习能力。经过多次络结构的大小和计算复杂度，而MobileNetV2在特征提取过程后，把最后的特征图进行拼接，得保持深度可分离卷积的基础上，加入多个逐点卷到一维矩阵。最后由全连接层输人到分类器进而积，进一步提升网络结构性能和降低计算复杂输出分类结果。度。但MobileNet系列的网络结构在应用于图像分类任务时，因其网络内部设计、优化策略和激全 RELU 活函数的原因，导致会不断地忽略输入信息中的输入图像卷积层池化层分类器 k×k m×n 程×h 连接层负值特征信息，而这些负值特征信息却可能是图像分类的关键点。近3年对MobileNet网络结构图1经典的CNN网络结构在图像分类领域的改进方法被相继提出。如2019 Fig.1 Classical CNN network structure 年，黄跃珍等l利用Squeeze-and-Excitation模块对MobileNet网络结构进行改进，提高了车型识经典的CNN网络结构利用卷积核提取图像别精度；刘鸿智l在MobileNet网络结构的基础中的特征，对局部进行感知并且通过权值共享降上，采用新的混合链接结构，提高了在数据集Ci- 低参数计算量。但经典的CNN反向传播过程中 far-l0和Cifar--100的分类精度；2020年，Guo等容易出现参数不更新现象，和池化层丢失图像中提出在MobileNet网络结构中插人八度卷积和中特征信息的问题。心损失函数的方法，提升了多国人脸分类识别率。 1.2 MobileNet网络结构本文在前人工作的基础上，提出一种改进的 MobileNet网络系列在近几年被广泛应用，更 MobileNet网络结构，即L-MobileNet。其主要思是轻量级网络的典型代表。MobileNet网络结构想为在经典的CNN网络结构基础上，将池化层、部分 1)用深度可分离卷积形式代替标准卷积形全连接层用卷积层来代替，其突出特点是引入了式，并将深度卷积得到的特征图执行取反操作，深度可分离卷积的卷积形式。标准卷积是将一组通过深度卷积融合层传递至下一层；卷积核与输入数据作用后组合成单通道特征的输 2)卷积层中使用Leaky ReLU激活函数以保出，而深度可分离卷积是因式分解的卷积形式，留图像更多的正负特征信息，并加入类残差结构側将标准卷积分解为深度卷积和1×1逐点卷积2部避免梯度弥散现象，降低网络参数计算量。分，深度卷积是把单个固定大小的卷积核作用到为了提高网络结构的泛化能力，在数据输入每个输入通道，然后逐点卷积通过1×1的卷积核时采用数据预处理技术。通过将本文L-MobileN- et与经典的CNN、MobileNetVI、MobileNetV2、经来进行通道信息融合并输出。图2显示标准卷典的CNN+Leaky ReLU41、MobileNetV1-+Leaky 积（图2(a)分解为深度卷积（图2(b)和1×1逐点 ReLU和MobileNetV:2+Leaky ReLUS进行对比卷积（图2(c)的过程。实验，结果表明L-MobileNet在Cifar-.l0、Cifar- 图2中M表示输入通道数量，N表示输出通 100(coarse)61、Cifar-100(fine)16和Dogs vs 道数量，Dx×Dx表示卷积核大小的乘积，DF×D Cats切数据集上具有更好的图像分类效果。表示特征映射图大小的乘积

到理想图像分类精度的要求。深度学习中卷积神经网络 (convolutional neural network, CNN) 能够完成输入信息从浅层学习到深层学习的逐级表达，提取更加准确的特征，降低在图像分类技术上的操作难度并取得显著效果。在图像分类领域，最初是由 Yann LeCun[1] 将 CNN 部署在手写体识别上，取得了良好的识别效果；2012 年后，相继出现了 AlexNet、GoogLeNet[2] 、 ResNet[3] 等具有代表性的深度网络结构；近几年，国内外提出轻量化版本的网络结构，如 GhostNet[4] 、 ShuffleNetV1[5] 、MobileNetV1[6] 、MobileNetV2[7] 、 ShuffleNetV2[8] 、SqueezeNet[9] 和 IGCV3[10] ，其中 MobileNet 系列更具代表性。在 MobileNetV1 中，以深度可分离卷积替换标准卷积的方式降低了网络结构的大小和计算复杂度，而 MobileNetV2 在保持深度可分离卷积的基础上，加入多个逐点卷积，进一步提升网络结构性能和降低计算复杂度。但 MobileNet 系列的网络结构在应用于图像分类任务时，因其网络内部设计、优化策略和激活函数的原因，导致会不断地忽略输入信息中的负值特征信息，而这些负值特征信息却可能是图像分类的关键点。近 3 年对 MobileNet 网络结构在图像分类领域的改进方法被相继提出。如 2019 年，黄跃珍等[11] 利用 Squeeze-and-Excitation 模块对 MobileNet 网络结构进行改进，提高了车型识别精度；刘鸿智[12] 在 MobileNet网络结构的基础上，采用新的混合链接结构，提高了在数据集 Cifar-10 和 Cifar-100 的分类精度；2020 年，Guo 等 [13] 提出在 MobileNet 网络结构中插入八度卷积和中心损失函数的方法，提升了多国人脸分类识别率。本文在前人工作的基础上，提出一种改进的 MobileNet 网络结构，即 L-MobileNet。其主要思想为 1) 用深度可分离卷积形式代替标准卷积形式，并将深度卷积得到的特征图执行取反操作，通过深度卷积融合层传递至下一层； 2) 卷积层中使用 Leaky ReLU 激活函数以保留图像更多的正负特征信息，并加入类残差结构[3] 避免梯度弥散现象，降低网络参数计算量。为了提高网络结构的泛化能力，在数据输入时采用数据预处理技术。通过将本文 L-MobileNet 与经典的 CNN、MobileNetV1、MobileNetV2、经典的 CNN+Leaky ReLU[14] 、MobileNetV1+Leaky ReLU[15] 和 MobileNetV2+Leaky ReLU[15] 进行对比实验，结果表明 L-MobileNet 在 Cifar-10[16] 、Cifar- 100 (coarse)[ 1 6 ] 、Cifar-100 (fine)[ 1 6 ] 和 Dogs vs Cats[17] 数据集上具有更好的图像分类效果。 1 相关预备知识 1.1 经典的 CNN 网络结构经典的 CNN 属于前馈神经网络类型，其结构组件有标准卷积层、池化层、全连接层、激活函数和分类器，如图 1 所示。该网络主要通过标准卷积层进行图像特征提取，在该层中通常包括若干特征图，每个特征图由神经元节点排列成矩形形状，相同特征图中神经元节点之间进行权值共享。通过权值共享可以减少神经元节点之间的连接数量，避免过拟合现象。池化层能够降低计算维度，进而提升网络结构的泛化性能。激活函数用来增强网络结构的非线性学习能力。经过多次特征提取过程后，把最后的特征图进行拼接，得到一维矩阵。最后由全连接层输入到分类器进而输出分类结果。输入图像卷积层池化层 RELU k×k m×n w×h … 全连接层分类器图 1 经典的 CNN 网络结构 Fig. 1 Classical CNN network structure 经典的 CNN 网络结构利用卷积核提取图像中的特征，对局部进行感知并且通过权值共享降低参数计算量。但经典的 CNN 反向传播过程中容易出现参数不更新现象，和池化层丢失图像中特征信息的问题。 1.2 MobileNet 网络结构 MobileNet 网络系列在近几年被广泛应用，更是轻量级网络的典型代表。MobileNet 网络结构在经典的 CNN 网络结构基础上，将池化层、部分全连接层用卷积层来代替，其突出特点是引入了深度可分离卷积的卷积形式。标准卷积是将一组卷积核与输入数据作用后组合成单通道特征的输出，而深度可分离卷积是因式分解的卷积形式，将标准卷积分解为深度卷积和 1×1 逐点卷积 2 部分，深度卷积是把单个固定大小的卷积核作用到每个输入通道，然后逐点卷积通过 1×1 的卷积核来进行通道信息融合并输出。图 2 显示标准卷积 (图 2(a)) 分解为深度卷积 (图 2(b)) 和 1×1 逐点卷积 (图 2(c)) 的过程。 M N DK × DK DF × DF 图 2 中表示输入通道数量，表示输出通道数量，表示卷积核大小的乘积，表示特征映射图大小的乘积。 ·12· 智能系统学报第 16 卷

第1期高淑萍，等：改进MobileNet的图像分类方法研究 ·13· x:≥0 y:= <0 (4) a 式中：代表第i层的输出；代表第i层经过非线性变换后的输出；a:是第i层中的固定参数，其 (a)标准卷积范围是(1，+o)。Leaky ReLU激活函数如图3所示。由于Leaky ReLU激活函数负半轴是一个较 D 小斜率的函数，可以来初始化神经元，避免神经 D 元死亡的同时增加了负值特征信息的提取。由文 M (b)深度卷积献[18]可知，当Leaky ReLU激活函数中a=5.5 时，Leaky ReLU激活函数的分类效果要优于ReLU 激活函数。 10 8 6 (c)逐点卷积 4 图2标准卷积分解过程 2 Fig.2 Standard convolution decomposition process 0 深度卷积计算成本为 -2 -10.0 -5.0 5.010.0 DkXDkXMXDEXDE (1) 0 逐点卷积计算成本为图3 Leaky ReL激活函数(a=5.5 MXNXDEXDE (2) Fig.3 Leaky ReLU activation function(a;=5.5) 深度可分离卷积计算成本占标准卷积计算成本的比例为 2L-MobileNet网络结构 DxXDkXMXDEXDE+MXNXDEXDE 11 DxXDKXMXNXDEXDE =N+D 针对经典的CNN网络结构和MobileNet网络 (3) 结构特征提取能力不足和易忽略负值特征信息的实验表明，当使用3×3的深度可分离卷积问题，本文提出一种改进的MobileNet网络结构时，其计算量比标准卷积少8~9倍，而精度只有很的图像分类方法，即L-MobileNet。首先，研究了小的损失。MobileNet网络系列在尽可能保证图基于MobileNet网络中存在特征信息的各个局部像分类精度稳定的前提下，极大缩短网络训练的区域：其次，设计了深度卷积取反层和深度卷积时间与减少参数更新过程中的计算成本，也为后融合层，将原图像特征和其取反特征进行融合提续网络结构的优化提供了方向。但MobileNet网取；最后，加入类残差结构，组合卷积块，通过损络结构中仍存在着特征信息提取能力不足导致分失函数优化整个网络进行分类。类精度不高和网络层中激活函数丢失负值特征信 L-MobileNet网络结构如图4所示，参数设置息的现象。如表1所示。深度卷积层得到的特征图通过深度 1.3 Leaky ReLU激活函数卷积取反层进行取反操作，并将其与原特征图的激活函数是神经网铬结构中非线性学习能力特征信息一起通过深度卷积融合层进行特征相的关键点，RLU激活函数可以有效缓解梯度弥加，传递至下一个逐点卷积层，然后传递至下一散现象，成为大多数激活函数的主流选择。但随个卷积块，以此类推。其中的卷积块中采用着网络训练轮数的增加，部分神经元对应权重得 Leaky ReLU激活函数，将其作用于每一个卷积块不到更新，出现神经元死亡现象，并且RLU在特中的每一个卷积层。为了防止出现梯度弥散现征提取过程中会丢弃特征图内的负值特征信息。象，在卷积块中加入了类残差结构，先进行信息 RLU输出值的均值始终大于零，也不利于网络通道的扩展再进行信息通道的压缩。通过交叉嫡学习能力的表达。Leaky ReLU激活函数的特性损失函数优化整个网络，直至收敛。最终经过全解决了RLU的问题，有效提取负值特征信息，数局平均池化层和逐点卷积层来达到分类数目要学形式为求，通过Softmax分类器进行输入样本的分类

M DK DK DK DK N M 1 1 1 (a) 标准卷积 N (c) 逐点卷积 (b) 深度卷积 M 图 2 标准卷积分解过程 Fig. 2 Standard convolution decomposition process 深度卷积计算成本为 DK × DK × M × DF × DF (1) 逐点卷积计算成本为 M ×N × DF × DF (2) 深度可分离卷积计算成本占标准卷积计算成本的比例为 DK × DK × M × DF × DF + M ×N × DF × DF DK × DK × M ×N × DF × DF = 1 N + 1 D2 K (3) 实验表明[6] ，当使用 3×3 的深度可分离卷积时，其计算量比标准卷积少 8~9 倍，而精度只有很小的损失。MobileNet 网络系列在尽可能保证图像分类精度稳定的前提下，极大缩短网络训练的时间与减少参数更新过程中的计算成本，也为后续网络结构的优化提供了方向。但 MobileNet 网络结构中仍存在着特征信息提取能力不足导致分类精度不高和网络层中激活函数丢失负值特征信息的现象。 1.3 Leaky ReLU 激活函数[18] 激活函数是神经网络结构中非线性学习能力的关键点，ReLU 激活函数可以有效缓解梯度弥散现象，成为大多数激活函数的主流选择。但随着网络训练轮数的增加，部分神经元对应权重得不到更新，出现神经元死亡现象，并且 ReLU 在特征提取过程中会丢弃特征图内的负值特征信息。 ReLU 输出值的均值始终大于零，也不利于网络学习能力的表达。Leaky ReLU 激活函数的特性解决了 ReLU 的问题，有效提取负值特征信息，数学形式为 yi =    xi , xi ⩾ 0 xi ai , xi < 0 (4) xi i yi i ai i (1,+∞) ai = 5.5 式中：代表第层的输出；代表第层经过非线性变换后的输出；是第层中的固定参数，其范围是。Leaky ReLU 激活函数如图 3 所示。由于 Leaky ReLU 激活函数负半轴是一个较小斜率的函数，可以来初始化神经元，避免神经元死亡的同时增加了负值特征信息的提取。由文献 [18] 可知，当 Leaky ReLU 激活函数中时，Leaky ReLU 激活函数的分类效果要优于 ReLU 激活函数。 10 8 6 4 2 0 −2 y −10.0 −5.0 0 5.0 10.0 x 图 3 Leaky ReLU 激活函数 (ai = 5.5 ) Fig. 3 Leaky ReLU activation function(ai = 5.5 ) 2 L-MobileNet 网络结构针对经典的 CNN 网络结构和 MobileNet 网络结构特征提取能力不足和易忽略负值特征信息的问题，本文提出一种改进的 MobileNet 网络结构的图像分类方法，即 L-MobileNet。首先，研究了基于 MobileNet 网络中存在特征信息的各个局部区域；其次，设计了深度卷积取反层和深度卷积融合层，将原图像特征和其取反特征进行融合提取；最后，加入类残差结构，组合卷积块，通过损失函数优化整个网络进行分类。 L-MobileNet 网络结构如图 4 所示，参数设置如表 1 所示。深度卷积层得到的特征图通过深度卷积取反层进行取反操作，并将其与原特征图的特征信息一起通过深度卷积融合层进行特征相加，传递至下一个逐点卷积层，然后传递至下一个卷积块，以此类推。其中的卷积块中采用 Leaky ReLU 激活函数，将其作用于每一个卷积块中的每一个卷积层。为了防止出现梯度弥散现象，在卷积块中加入了类残差结构，先进行信息通道的扩展再进行信息通道的压缩。通过交叉熵损失函数优化整个网络，直至收敛。最终经过全局平均池化层和逐点卷积层来达到分类数目要求，通过 Softmax 分类器进行输入样本的分类。第 1 期高淑萍，等：改进 MobileNet 的图像分类方法研究 ·13·

14 智能系统学报第16卷相加取反相加相加取反取反 ■逐点卷积层全局平局池化层 ■深度卷积取反层 ■深度卷积层■深度卷积融合层分类器图4L-MobileNet网络结构 Fig.4 L-MobileNet network structure 表1L-MobileNet参数设置 Table 1 L-MobileNet parameters setting 卷积核层名称步长填充层名称卷积核步长填充大小个数大小个数输入层逐点卷积层8 1×1 64 有逐点卷积层1 1×1 32 1 有逐点卷积层9 1×1 384 有深度卷积1 3×3 32 1 有深度卷积5 3×3 384 有逐点卷积层2 1×1 24 1 有逐点卷积层10 1×1 64 有逐点卷积层3 1×1 144 1 有逐点卷积层11 1×1 384 有深度卷积2 3×3 144 2 有深度卷积6 3×3 384 1 有逐点卷积层4 1×1 32 1 有逐点卷积层12 1×1 64 1 有逐点卷积层5 1×1 196 1 有逐点卷积层13 1×1 384 1 有深度卷积3 3×3 196 1 有全局平均池化逐点卷积层6 1×1 32 有逐点卷积层14 1×1 有逐点卷积层7 1×1 196 有深度卷积4 3×3 196 有输出层 2.1特征信息的融合深度卷积取反层同步对输入进行处理为如图4所示，本文对特征信息的融合采用的是在深度卷积层提取了原始图像局部特征后，同 (6) 步进行深度卷积取反层，然后利用深度卷积融合深度卷积融合层将前2步提取的信息进行融层对2层特征信息进行处理。符号说明如下：对合为于给定的图像，其中1表示当前层，1-1表示前一 =fo,++f-(o,+bieM(⑦) 层，x丈表示当前层第j个特征图，。代表深度卷积深度卷积融合层所提取出的特征，不仅包含运算，表示前一层第i个特征图，表示该层了原始深度卷积层中的特征信息，而且对潜在的第i个特征图和前一层第j个特征图所作用的卷图像局部区域的特征进行提取，融合后的特征随积核，b表示偏置值，M表示产生该层第j个特着网络训练的进行，不断学习出识别效果优秀的征图相关的前一层特征图累计值，f()表示Leaky 高维特征信息。 ReLU激活函数。 2.2负值特征信息的提取深度卷积层对输入的处理为如图4可知，L-MobileNet网络结构中有6个 o+ (5) 大卷积块，为了提高MobileNet网络中对负值特征信息的敏感度和负值特征信息传播过程中的完

取反取反取反取反融取反取反合融合融合融合融合融合相加相加相加逐点卷积层全局平局池化层深度卷积取反层深度卷积层深度卷积融合层分类器图 4 L-MobileNet 网络结构 Fig. 4 L-MobileNet network structure 表 1 L-MobileNet 参数设置 Table 1 L-MobileNet parameters setting 层名称卷积核步长填充层名称卷积核步长填充大小个数大小个数输入层 ― ― ― ― 逐点卷积层8 1×1 64 1 有逐点卷积层1 1×1 32 1 有逐点卷积层9 1×1 384 1 有深度卷积1 3×3 32 1 有深度卷积5 3×3 384 1 有逐点卷积层2 1×1 24 1 有逐点卷积层10 1×1 64 1 有逐点卷积层3 1×1 144 1 有逐点卷积层11 1×1 384 1 有深度卷积2 3×3 144 2 有深度卷积6 3×3 384 1 有逐点卷积层4 1×1 32 1 有逐点卷积层12 1×1 64 1 有逐点卷积层5 1×1 196 1 有逐点卷积层13 1×1 384 1 有深度卷积3 3×3 196 1 有全局平均池化 ― ― ― ― 逐点卷积层6 1×1 32 1 有逐点卷积层14 1×1 ― 1 有逐点卷积层7 1×1 196 1 有 ― ― ― ― ― 深度卷积4 3×3 196 2 有输出层 ― ― ― ― 2.1 特征信息的融合 l l−1 x l j j ◦ x l−1 i i k l i j i j b l j Mj j f (·) 如图 4 所示，本文对特征信息的融合采用的是在深度卷积层提取了原始图像局部特征后，同步进行深度卷积取反层，然后利用深度卷积融合层对 2 层特征信息进行处理。符号说明如下：对于给定的图像，其中表示当前层，表示前一层，表示当前层第个特征图，代表深度卷积运算，表示前一层第个特征图，表示该层第个特征图和前一层第个特征图所作用的卷积核，表示偏置值，表示产生该层第个特征图相关的前一层特征图累计值，表示 Leaky ReLU 激活函数。深度卷积层对输入的处理为 x l j = f   ∑ i∈Mj x l−1 i ◦ k l i j +b l j   (5) 深度卷积取反层同步对输入进行处理为 x l j = f   −   ∑ i∈Mj x l−1 i ◦ k l i j +b l j     (6) 深度卷积融合层将前 2 步提取的信息进行融合为 x l j = f [ x l−1 i ◦ k l i j +b l j ] +f [ − ( x l−1 i ◦ k l i j +b l j )], i ∈ Mj (7) 深度卷积融合层所提取出的特征，不仅包含了原始深度卷积层中的特征信息，而且对潜在的图像局部区域的特征进行提取，融合后的特征随着网络训练的进行，不断学习出识别效果优秀的高维特征信息。 2.2 负值特征信息的提取如图 4 可知，L-MobileNet 网络结构中有 6 个大卷积块，为了提高 MobileNet 网络中对负值特征信息的敏感度和负值特征信息传播过程中的完 ·14· 智能系统学报第 16 卷

第1期高淑萍，等：改进MobileNet的图像分类方法研究 ·15· 整度，本文将原始的ReLU激活函数替换为Leaky min s(W.b:0)= ,明 ReLU激活函数，并引人类残差结构。经典的 CNN受限于固定的卷积核大小和激活函数的选 y(yn p)log P(y=plx,0p) +R( 取，影响了负值特征信息的提取和传播，而Mobi- (10) leNet网络虽对卷积核形式有所改变但对负值特式中：C表示类别；W表示样本数；y表示Dirich- 征信息量仍提取不足。由于Leaky ReLU激活函 let函数；参数6=(0，，…，e);R)表示正则化约数自身特性对负值敏感，能够保障神经元不死束项；入表示正则化系数。亡，并且类残差结构可以防止梯度弥散，利于负损失函数ε对输入c的导数为值特征信息的传播，所以本文在每一个卷积层后 ds as of(c) (11) 使用Leaky ReLU(a,=5.5)激活函数和在第3、5及第6卷积块使用类残差结构。 afc)」 1. c≥0 (12) 由于前向传播过程中前面网络层中梯度的计 c<0 算尚可保持较大值，而越靠后的网络层中梯度值式中：ε表示损失函数；c表示前一网络层的输会越来越小，导致反向传播过程中极易出现梯度出；f(c)表示前一网络层经过非线性变换后的输弥散现象，所以本文将类残差结构放置在网络中出：a是(L,+o)的固定参数：石表示从网络深 ds 后端位置。以其中一个卷积块为例，如果特征向量的维度越低，卷积层中的计算量越小，导致网层传播来的梯度：表示当前层输人值的梯络结构整体计算速度越快，但这并不能够提取出度。当增大前向传播中对特征信息的存储后，将输入图像全面且有效的特征信息。为了达到网络减小训练样本的误差，再通过反向传播算法进一结构平衡的目的，本文采取含有高维特征向量的步影响了网络结构中的参数更新。设计：卷积块的输入端采用1×1的逐点卷积结构，参数的更新规则为目的是将特征信息从低维空间映射到高维空间，同时受文献[7]的启发，将其中负责维度扩展的 Ac←uac+oac+ae (13) c 超参数的默认值设置为6。卷积块的输出端同样 c←c+△c (14) 采用1×1的逐点卷积结构，在没有超参数的设定式中：c表示前一网络层的输出；ε表示损失函下，可以将特征信息从高维空间映射到低维空间。数；μ表示动量系数；α表示学习率；ω表示权重衰逐点卷积计算为减系数。本文L-MobileNet:通过影响网络中参数 c和更新，最终影响到网络结构的分类结果。图+ (8) 网模型的参数量（空间复杂度）的计算为式中：()代表逐点卷积运算；其余符号与式(5)相 ExCE-XC+xC (15) 同。为了保证负值特征信息的完整度，在卷积块 F=1 中每一个卷积层后，摒弃掉可能会造成信息丢失网络模型的计算量（时间复杂度）的计算为的ReLU激活函数，使用Leaky ReLU激活函数。卷积块以逐点卷积、深度卷积、逐点卷积交错的 Time De3xkxCr-1+De3xCrxCr- (16 r=l 方式排列。式中：Cr为第r层卷积核个数；C-1为上一层的输 2.3传播过程中的参数更新原理出通道数；k为卷积核尺寸；M为输出特征映射在反向传播的参数更新中，L-MobileNet网络的边长；D为所有卷积层数；O()为所需要的空间结构使用Tensorflow框架下tf average_pooling2d 资源量。由于本文使用的激活函数是Leaky 进行全局平均池化，根据输入信息的类别数目由 RLU函数，因此可以通过原位运算完成从输入逐点卷积层输出。到输出的非线性映射，排除输出特征映射的参数用Softmax分类器来进行输出分类为量。根据式(15)、(I6)计算表明，L-MobileNet参 Y(p)=P(y=plx,0p) (9) 数总量为280万、计算量为320百万次，与Mobi- leNetV1的420万个参数、575百万次计算量和 p=1 MobileNetV2m的340万个参数、300百万次计算采用交叉熵优化的损失函数为量相比，本文方法参数量更少

ai = 5.5 整度，本文将原始的 ReLU 激活函数替换为 Leaky ReLU 激活函数，并引入类残差结构。经典的 CNN 受限于固定的卷积核大小和激活函数的选取，影响了负值特征信息的提取和传播，而 MobileNet 网络虽对卷积核形式有所改变但对负值特征信息量仍提取不足。由于 Leaky ReLU 激活函数自身特性对负值敏感，能够保障神经元不死亡，并且类残差结构可以防止梯度弥散，利于负值特征信息的传播，所以本文在每一个卷积层后使用 Leaky ReLU( ) 激活函数和在第 3、5 及第 6 卷积块使用类残差结构。由于前向传播过程中前面网络层中梯度的计算尚可保持较大值，而越靠后的网络层中梯度值会越来越小，导致反向传播过程中极易出现梯度弥散现象，所以本文将类残差结构放置在网络中后端位置。以其中一个卷积块为例，如果特征向量的维度越低，卷积层中的计算量越小，导致网络结构整体计算速度越快，但这并不能够提取出输入图像全面且有效的特征信息。为了达到网络结构平衡的目的，本文采取含有高维特征向量的设计：卷积块的输入端采用 1×1 的逐点卷积结构，目的是将特征信息从低维空间映射到高维空间，同时受文献 [7] 的启发，将其中负责维度扩展的超参数的默认值设置为 6。卷积块的输出端同样采用 1×1 的逐点卷积结构，在没有超参数的设定下，可以将特征信息从高维空间映射到低维空间。逐点卷积计算为 x l j = f   ∑ i∈Mj x l−1 i · k l i j +b l j   (8) 式中： (·) 代表逐点卷积运算；其余符号与式 (5) 相同。为了保证负值特征信息的完整度，在卷积块中每一个卷积层后，摒弃掉可能会造成信息丢失的 ReLU 激活函数，使用 Leaky ReLU 激活函数。卷积块以逐点卷积、深度卷积、逐点卷积交错的方式排列。 2.3 传播过程中的参数更新原理在反向传播的参数更新中，L-MobileNet 网络结构使用 Tensorflow 框架下 tf.average_pooling2d 进行全局平均池化，根据输入信息的类别数目由逐点卷积层输出。用 Softmax 分类器来进行输出分类为 Y (p) = P ( y = p|x , θp ) = e x T θp ∑C p=1 e x Tθp (9) 采用交叉熵优化的损失函数为 min {W,b;θ} ε(W,b; θ) = 1 N ∑N n=1   − ∑C p=1 γ(yn = p)logP ( y = p| x, θp )   +λR(θ) (10) C N γ θ = (θ1, θ2,··· , θk) R(·) λ 式中：表示类别；表示样本数；表示 Dirichlet 函数；参数；表示正则化约束项；表示正则化系数。损失函数 ε 对输入 c 的导数为 ∂ε ∂c = ∂ε ∂ f(c) ∂ f(c) ∂c (11) ∂ f(c) ∂c =    1, c ⩾ 0 1 ai , c < 0 (12) ε c f(c) ai (1,+∞) ∂ε ∂ f(c) ∂ f(c) ∂c 式中：表示损失函数；表示前一网络层的输出；表示前一网络层经过非线性变换后的输出；是的固定参数；表示从网络深层传播来的梯度；表示当前层输入值的梯度。当增大前向传播中对特征信息的存储后，将减小训练样本的误差，再通过反向传播算法进一步影响了网络结构中的参数更新。参数的更新规则为 ∆c ← µ∆c+ωαc+α ∂ε ∂c (13) c ← c+∆c (14) c ε µ α ω c ∂ε ∂c 式中：表示前一网络层的输出；表示损失函数；表示动量系数；表示学习率；表示权重衰减系数。本文 L-MobileNet 通过影响网络中参数和更新，最终影响到网络结构的分类结果。网络模型的参数量 (空间复杂度) 的计算为 CSpace ∼ O   ∑D l ′=1 k 3 l ′ ×Cl ′−1 ×Cl ′ + ∑D l ′=1 M3 ×Cl ′   (15) 网络模型的计算量（时间复杂度）的计算为 Time ∼ O   ∑B l ′=1 DF 3 ×k 3 l ′ ×Cl ′−1 + DF 3 ×Cl ′ ×Cl ′−1   (16) Cl ′ l ′ Cl ′−1 kl ′ M D O(·) 式中：为第层卷积核个数；为上一层的输出通道数；为卷积核尺寸；为输出特征映射的边长；为所有卷积层数；为所需要的空间资源量。由于本文使用的激活函数是 Leaky ReLU 函数，因此可以通过原位运算完成从输入到输出的非线性映射，排除输出特征映射的参数量。根据式 (15)、(16) 计算表明，L-MobileNet 参数总量为 280 万、计算量为 320 百万次，与 MobileNetV1[6] 的 420 万个参数、575 百万次计算量和 MobileNetV2[7] 的 340 万个参数、300 百万次计算量相比，本文方法参数量更少。第 1 期高淑萍，等：改进 MobileNet 的图像分类方法研究 ·15·

点击进入文档下载页（PDF格式）

共10页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录