第16卷第1期 智能系统学报 Vol.16 No.1 2021年1月 CAAI Transactions on Intelligent Systems Jan.2021 D0:10.11992/tis.202012034 改进MobileNet的图像分类方法研究 高淑萍,赵清源,齐小刚,程孟菲 (西安电子科技大学数学与统计学院,陕西西安710126) 摘要:针对神经网络结构的特征提取能力不足以及在包含复杂图像特征的数据集上分类准确率不高的问题, 本文提出了一种对MobileNet神经网络的改进策略(L-MobileNet)。将原标准卷积形式替换为深度可分离卷积 形式,并将深度卷积层得到的特征图执行取反操作,通过深度卷积融合层传递至下一层;采用Leaky ReLU激活 函数代替原RLU激活函数来保留图像中更多的正负特征信息,并加入类残差结构避免梯度弥散现象。与6种 方法进行对比,实验结果表明:L-MobileNet在数据集Cifar--l0、Cifar--l00(coarse))、Cifar-l00(fine)和Dogs vs Cats上 平均准确率和最高准确率都取得了最佳结果。 关键词:卷积神经网络;图像分类;特征提取;MobileNet::深度可分离卷积:激活函数;Leaky ReLU;残差结构 中图分类号:TP391;TP181文献标志码:A文章编号:1673-4785(2021)01-0011-10 中文引用格式:高淑萍,赵清源,齐小刚,等.改进MobileNet的图像分类方法研究.智能系统学报,2021,16(1):11-20. 英文引用格式:GAO Shuping,.ZHAO Qingyuan,,QI Xiaogang,.etal.Research on the improved image classification method of Mo- bileNetJ.CAAI transactions on intelligent systems,2021,16(1):11-20. Research on the improved image classification method of MobileNet GAO Shuping,ZHAO Qingyuan,QI Xiaogang,CHENG Mengfei (School of Mathematics and Statistics,Xidian University,Xi'an 710126,China) Abstract:This paper proposes an improved strategy for the MobileNet neural network(L-MobileNet)because the fea- ture extraction ability of a neural network structure is insufficient,and the classification accuracy is not high on the data- set containing complex image features.First,the original standard convolution form is replaced by the depth separable convolution form,and the feature map obtained from the deep convolution layer is reversed and transferred to the next layer through the deep convolution fusion layer.Second,the leaky ReLU activation function is used to replace the ori- ginal ReLU activation function to retain more positive and negative feature information in the image,and residual struc- ture is added to avoid the gradient diffusion phenomenon.Finally,the experimental results showed that when compared with six methods,L-MobileNet achieved the best results in the datasets of Cifar-10,Cifar-100(coarse),Cifar-100(fine), and Dogs vs Cats. Keywords:convolutional neural network;image classification;feature extraction;MobileNet;depth separable convolu- tion;activation function;Leaky ReLU;residual structure 图像分类是通过涵盖在图像里的不同特征信 后发展为特征表达的学习,首先是利用尺度不变 息来对图像集进行归类,它是目前计算机视觉领 特征转换(scale-invariant feature transform,SIFT)、 域的基本问题之一,也是行为检测、目标识别、图 方向梯度直方图(histogram of oriented gradient, 像修复、图像切割等复杂视觉任务的基础。图像 HOG)等方法进行底层特征提取;其次是利用核 分类广泛应用于诸多领域,包括医学影像识别 词典编码、Fisher向量编码等进行特征编码:然后 等。早期图像分类技术以人工提取特征为主,而 是将编码后的特征进行汇聚;最后利用支持向量 收稿日期:2020-12-31 机等分类器进行图像分类。虽然特征表达的学习 基金项目:国家自然科学基金项目(91338115):高等学校学科 方式能够提取一部分图像特征,但这种方式容易 创新引智基地“111”计划(B08038). 通信作者:赵清源.E-mail:zqy353364144@163.com 出现特征丢失、泛化性能差的问题,最终难以达
DOI: 10.11992/tis.202012034 改进 MobileNet 的图像分类方法研究 高淑萍,赵清源,齐小刚,程孟菲 (西安电子科技大学 数学与统计学院,陕西 西安 710126) 摘 要:针对神经网络结构的特征提取能力不足以及在包含复杂图像特征的数据集上分类准确率不高的问题, 本文提出了一种对 MobileNet 神经网络的改进策略 (L-MobileNet)。将原标准卷积形式替换为深度可分离卷积 形式,并将深度卷积层得到的特征图执行取反操作,通过深度卷积融合层传递至下一层;采用 Leaky ReLU 激活 函数代替原 ReLU 激活函数来保留图像中更多的正负特征信息,并加入类残差结构避免梯度弥散现象。与 6 种 方法进行对比,实验结果表明:L-MobileNet 在数据集 Cifar-10、Cifar-100(coarse)、Cifar-100(fine) 和 Dogs vs Cats 上 平均准确率和最高准确率都取得了最佳结果。 关键词:卷积神经网络;图像分类;特征提取;MobileNet;深度可分离卷积;激活函数;Leaky ReLU;残差结构 中图分类号:TP391; TP181 文献标志码:A 文章编号:1673−4785(2021)01−0011−10 中文引用格式:高淑萍, 赵清源, 齐小刚, 等. 改进 MobileNet 的图像分类方法研究 [J]. 智能系统学报, 2021, 16(1): 11–20. 英文引用格式:GAO Shuping, ZHAO Qingyuan, QI Xiaogang, et al. Research on the improved image classification method of MobileNet[J]. CAAI transactions on intelligent systems, 2021, 16(1): 11–20. Research on the improved image classification method of MobileNet GAO Shuping,ZHAO Qingyuan,QI Xiaogang,CHENG Mengfei (School of Mathematics and Statistics, Xidian University, Xi’an 710126, China) Abstract: This paper proposes an improved strategy for the MobileNet neural network (L-MobileNet) because the feature extraction ability of a neural network structure is insufficient, and the classification accuracy is not high on the dataset containing complex image features. First, the original standard convolution form is replaced by the depth separable convolution form, and the feature map obtained from the deep convolution layer is reversed and transferred to the next layer through the deep convolution fusion layer. Second, the leaky ReLU activation function is used to replace the original ReLU activation function to retain more positive and negative feature information in the image, and residual structure is added to avoid the gradient diffusion phenomenon. Finally, the experimental results showed that when compared with six methods, L-MobileNet achieved the best results in the datasets of Cifar-10, Cifar-100 (coarse), Cifar-100 (fine), and Dogs vs Cats. Keywords: convolutional neural network; image classification; feature extraction; MobileNet; depth separable convolution; activation function; Leaky ReLU; residual structure 图像分类是通过涵盖在图像里的不同特征信 息来对图像集进行归类,它是目前计算机视觉领 域的基本问题之一,也是行为检测、目标识别、图 像修复、图像切割等复杂视觉任务的基础。图像 分类广泛应用于诸多领域,包括医学影像识别 等。早期图像分类技术以人工提取特征为主,而 后发展为特征表达的学习,首先是利用尺度不变 特征转换 (scale-invariant feature transform, SIFT)、 方向梯度直方图 (histogram of oriented gradient, HOG) 等方法进行底层特征提取;其次是利用核 词典编码、Fisher 向量编码等进行特征编码;然后 是将编码后的特征进行汇聚;最后利用支持向量 机等分类器进行图像分类。虽然特征表达的学习 方式能够提取一部分图像特征,但这种方式容易 出现特征丢失、泛化性能差的问题,最终难以达 收稿日期:2020−12−31. 基金项目:国家自然科学基金项目 (91338115);高等学校学科 创新引智基地“111”计划 (B08038). 通信作者:赵清源. E-mail:zqy353364144@163.com. 第 16 卷第 1 期 智 能 系 统 学 报 Vol.16 No.1 2021 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2021
·12· 智能系统学报 第16卷 到理想图像分类精度的要求。 1相关预备知识 深度学习中卷积神经网络(convolutional neur-. al network,.CNN)能够完成输入信息从浅层学习 1.1经典的CNN网络结构 到深层学习的逐级表达,提取更加准确的特征, 经典的CNN属于前馈神经网络类型,其结构 降低在图像分类技术上的操作难度并取得显著效 组件有标准卷积层、池化层、全连接层、激活函数 果。在图像分类领域,最初是由Yann LeCun)将 和分类器,如图1所示。该网络主要通过标准卷 CNN部署在手写体识别上,取得了良好的识别效 积层进行图像特征提取,在该层中通常包括若干 果;2012年后,相继出现了AlexNet、GoogLeNet 特征图,每个特征图由神经元节点排列成矩形形 ResNet!)等具有代表性的深度网络结构;近几年, 状,相同特征图中神经元节点之间进行权值共 国内外提出轻量化版本的网络结构,如GhostNet 享。通过权值共享可以减少神经元节点之间的连 ShuffleNetV1、MobileNetV1151、MobileNetV2m ShuffleNetV22、SqueezeNet!9和IGCV3o,其中 接数量,避免过拟合现象。池化层能够降低计算 MobileNet系列更具代表性。在MobileNetV1中, 维度,进而提升网络结构的泛化性能。激活函数 以深度可分离卷积替换标准卷积的方式降低了网 用来增强网络结构的非线性学习能力。经过多次 络结构的大小和计算复杂度,而MobileNetV2在 特征提取过程后,把最后的特征图进行拼接,得 保持深度可分离卷积的基础上,加入多个逐点卷 到一维矩阵。最后由全连接层输人到分类器进而 积,进一步提升网络结构性能和降低计算复杂 输出分类结果。 度。但MobileNet系列的网络结构在应用于图像 分类任务时,因其网络内部设计、优化策略和激 全 RELU 活函数的原因,导致会不断地忽略输入信息中的 输入图像 卷积层 池化层 分类器 k×k m×n 程×h 连接层 负值特征信息,而这些负值特征信息却可能是图 像分类的关键点。近3年对MobileNet网络结构 图1经典的CNN网络结构 在图像分类领域的改进方法被相继提出。如2019 Fig.1 Classical CNN network structure 年,黄跃珍等l利用Squeeze-and-Excitation模块 对MobileNet网络结构进行改进,提高了车型识 经典的CNN网络结构利用卷积核提取图像 别精度;刘鸿智l在MobileNet网络结构的基础 中的特征,对局部进行感知并且通过权值共享降 上,采用新的混合链接结构,提高了在数据集Ci- 低参数计算量。但经典的CNN反向传播过程中 far-l0和Cifar--100的分类精度;2020年,Guo等 容易出现参数不更新现象,和池化层丢失图像中 提出在MobileNet网络结构中插人八度卷积和中 特征信息的问题。 心损失函数的方法,提升了多国人脸分类识别率。 1.2 MobileNet网络结构 本文在前人工作的基础上,提出一种改进的 MobileNet网络系列在近几年被广泛应用,更 MobileNet网络结构,即L-MobileNet。其主要思 是轻量级网络的典型代表。MobileNet网络结构 想为 在经典的CNN网络结构基础上,将池化层、部分 1)用深度可分离卷积形式代替标准卷积形 全连接层用卷积层来代替,其突出特点是引入了 式,并将深度卷积得到的特征图执行取反操作, 深度可分离卷积的卷积形式。标准卷积是将一组 通过深度卷积融合层传递至下一层; 卷积核与输入数据作用后组合成单通道特征的输 2)卷积层中使用Leaky ReLU激活函数以保 出,而深度可分离卷积是因式分解的卷积形式, 留图像更多的正负特征信息,并加入类残差结构側 将标准卷积分解为深度卷积和1×1逐点卷积2部 避免梯度弥散现象,降低网络参数计算量。 分,深度卷积是把单个固定大小的卷积核作用到 为了提高网络结构的泛化能力,在数据输入 每个输入通道,然后逐点卷积通过1×1的卷积核 时采用数据预处理技术。通过将本文L-MobileN- et与经典的CNN、MobileNetVI、MobileNetV2、经 来进行通道信息融合并输出。图2显示标准卷 典的CNN+Leaky ReLU41、MobileNetV1-+Leaky 积(图2(a)分解为深度卷积(图2(b)和1×1逐点 ReLU和MobileNetV:2+Leaky ReLUS进行对比 卷积(图2(c)的过程。 实验,结果表明L-MobileNet在Cifar-.l0、Cifar- 图2中M表示输入通道数量,N表示输出通 100(coarse)61、Cifar-100(fine)16和Dogs vs 道数量,Dx×Dx表示卷积核大小的乘积,DF×D Cats切数据集上具有更好的图像分类效果。 表示特征映射图大小的乘积
到理想图像分类精度的要求。 深度学习中卷积神经网络 (convolutional neural network, CNN) 能够完成输入信息从浅层学习 到深层学习的逐级表达,提取更加准确的特征, 降低在图像分类技术上的操作难度并取得显著效 果。在图像分类领域,最初是由 Yann LeCun[1] 将 CNN 部署在手写体识别上,取得了良好的识别效 果;2012 年后,相继出现了 AlexNet、GoogLeNet[2] 、 ResNet[3] 等具有代表性的深度网络结构;近几年, 国内外提出轻量化版本的网络结构,如 GhostNet[4] 、 ShuffleNetV1[5] 、MobileNetV1[6] 、MobileNetV2[7] 、 ShuffleNetV2[8] 、SqueezeNet[9] 和 IGCV3[10] ,其中 MobileNet 系列更具代表性。在 MobileNetV1 中, 以深度可分离卷积替换标准卷积的方式降低了网 络结构的大小和计算复杂度,而 MobileNetV2 在 保持深度可分离卷积的基础上,加入多个逐点卷 积,进一步提升网络结构性能和降低计算复杂 度。但 MobileNet 系列的网络结构在应用于图像 分类任务时,因其网络内部设计、优化策略和激 活函数的原因,导致会不断地忽略输入信息中的 负值特征信息,而这些负值特征信息却可能是图 像分类的关键点。近 3 年对 MobileNet 网络结构 在图像分类领域的改进方法被相继提出。如 2019 年,黄跃珍等[11] 利用 Squeeze-and-Excitation 模块 对 MobileNet 网络结构进行改进,提高了车型识 别精度;刘鸿智[12] 在 MobileNet网络结构的基础 上,采用新的混合链接结构,提高了在数据集 Cifar-10 和 Cifar-100 的分类精度;2020 年,Guo 等 [13] 提出在 MobileNet 网络结构中插入八度卷积和中 心损失函数的方法,提升了多国人脸分类识别率。 本文在前人工作的基础上,提出一种改进的 MobileNet 网络结构,即 L-MobileNet。其主要思 想为 1) 用深度可分离卷积形式代替标准卷积形 式,并将深度卷积得到的特征图执行取反操作, 通过深度卷积融合层传递至下一层; 2) 卷积层中使用 Leaky ReLU 激活函数以保 留图像更多的正负特征信息,并加入类残差结构[3] 避免梯度弥散现象,降低网络参数计算量。 为了提高网络结构的泛化能力,在数据输入 时采用数据预处理技术。通过将本文 L-MobileNet 与经典的 CNN、MobileNetV1、MobileNetV2、经 典的 CNN+Leaky ReLU[14] 、MobileNetV1+Leaky ReLU[15] 和 MobileNetV2+Leaky ReLU[15] 进行对比 实验,结果表明 L-MobileNet 在 Cifar-10[16] 、Cifar- 100 (coarse)[ 1 6 ] 、Cifar-100 (fine)[ 1 6 ] 和 Dogs vs Cats[17] 数据集上具有更好的图像分类效果。 1 相关预备知识 1.1 经典的 CNN 网络结构 经典的 CNN 属于前馈神经网络类型,其结构 组件有标准卷积层、池化层、全连接层、激活函数 和分类器,如图 1 所示。该网络主要通过标准卷 积层进行图像特征提取,在该层中通常包括若干 特征图,每个特征图由神经元节点排列成矩形形 状,相同特征图中神经元节点之间进行权值共 享。通过权值共享可以减少神经元节点之间的连 接数量,避免过拟合现象。池化层能够降低计算 维度,进而提升网络结构的泛化性能。激活函数 用来增强网络结构的非线性学习能力。经过多次 特征提取过程后,把最后的特征图进行拼接,得 到一维矩阵。最后由全连接层输入到分类器进而 输出分类结果。 输入图像 卷积层 池化层 RELU k×k m×n w×h … 全 连 接 层 分 类 器 图 1 经典的 CNN 网络结构 Fig. 1 Classical CNN network structure 经典的 CNN 网络结构利用卷积核提取图像 中的特征,对局部进行感知并且通过权值共享降 低参数计算量。但经典的 CNN 反向传播过程中 容易出现参数不更新现象,和池化层丢失图像中 特征信息的问题。 1.2 MobileNet 网络结构 MobileNet 网络系列在近几年被广泛应用,更 是轻量级网络的典型代表。MobileNet 网络结构 在经典的 CNN 网络结构基础上,将池化层、部分 全连接层用卷积层来代替,其突出特点是引入了 深度可分离卷积的卷积形式。标准卷积是将一组 卷积核与输入数据作用后组合成单通道特征的输 出,而深度可分离卷积是因式分解的卷积形式, 将标准卷积分解为深度卷积和 1×1 逐点卷积 2 部 分,深度卷积是把单个固定大小的卷积核作用到 每个输入通道,然后逐点卷积通过 1×1 的卷积核 来进行通道信息融合并输出。图 2 显示标准卷 积 (图 2(a)) 分解为深度卷积 (图 2(b)) 和 1×1 逐点 卷积 (图 2(c)) 的过程。 M N DK × DK DF × DF 图 2 中 表示输入通道数量, 表示输出通 道数量, 表示卷积核大小的乘积, 表示特征映射图大小的乘积。 ·12· 智 能 系 统 学 报 第 16 卷
第1期 高淑萍,等:改进MobileNet的图像分类方法研究 ·13· x:≥0 y:= <0 (4) a 式中:代表第i层的输出;代表第i层经过非 线性变换后的输出;a:是第i层中的固定参数,其 (a)标准卷积 范围是(1,+o)。Leaky ReLU激活函数如图3所 示。由于Leaky ReLU激活函数负半轴是一个较 D 小斜率的函数,可以来初始化神经元,避免神经 D 元死亡的同时增加了负值特征信息的提取。由文 M (b)深度卷积 献[18]可知,当Leaky ReLU激活函数中a=5.5 时,Leaky ReLU激活函数的分类效果要优于ReLU 激活函数。 10 8 6 (c)逐点卷积 4 图2标准卷积分解过程 2 Fig.2 Standard convolution decomposition process 0 深度卷积计算成本为 -2 -10.0 -5.0 5.010.0 DkXDkXMXDEXDE (1) 0 逐点卷积计算成本为 图3 Leaky ReL激活函数(a=5.5 MXNXDEXDE (2) Fig.3 Leaky ReLU activation function(a;=5.5) 深度可分离卷积计算成本占标准卷积计算成 本的比例为 2L-MobileNet网络结构 DxXDkXMXDEXDE+MXNXDEXDE 11 DxXDKXMXNXDEXDE =N+D 针对经典的CNN网络结构和MobileNet网络 (3) 结构特征提取能力不足和易忽略负值特征信息的 实验表明,当使用3×3的深度可分离卷积 问题,本文提出一种改进的MobileNet网络结构 时,其计算量比标准卷积少8~9倍,而精度只有很 的图像分类方法,即L-MobileNet。首先,研究了 小的损失。MobileNet网络系列在尽可能保证图 基于MobileNet网络中存在特征信息的各个局部 像分类精度稳定的前提下,极大缩短网络训练的 区域:其次,设计了深度卷积取反层和深度卷积 时间与减少参数更新过程中的计算成本,也为后 融合层,将原图像特征和其取反特征进行融合提 续网络结构的优化提供了方向。但MobileNet网 取;最后,加入类残差结构,组合卷积块,通过损 络结构中仍存在着特征信息提取能力不足导致分 失函数优化整个网络进行分类。 类精度不高和网络层中激活函数丢失负值特征信 L-MobileNet网络结构如图4所示,参数设置 息的现象。 如表1所示。深度卷积层得到的特征图通过深度 1.3 Leaky ReLU激活函数 卷积取反层进行取反操作,并将其与原特征图的 激活函数是神经网铬结构中非线性学习能力 特征信息一起通过深度卷积融合层进行特征相 的关键点,RLU激活函数可以有效缓解梯度弥 加,传递至下一个逐点卷积层,然后传递至下一 散现象,成为大多数激活函数的主流选择。但随 个卷积块,以此类推。其中的卷积块中采用 着网络训练轮数的增加,部分神经元对应权重得 Leaky ReLU激活函数,将其作用于每一个卷积块 不到更新,出现神经元死亡现象,并且RLU在特 中的每一个卷积层。为了防止出现梯度弥散现 征提取过程中会丢弃特征图内的负值特征信息。 象,在卷积块中加入了类残差结构,先进行信息 RLU输出值的均值始终大于零,也不利于网络 通道的扩展再进行信息通道的压缩。通过交叉嫡 学习能力的表达。Leaky ReLU激活函数的特性 损失函数优化整个网络,直至收敛。最终经过全 解决了RLU的问题,有效提取负值特征信息,数 局平均池化层和逐点卷积层来达到分类数目要 学形式为 求,通过Softmax分类器进行输入样本的分类
M DK DK DK DK N M 1 1 1 (a) 标准卷积 N (c) 逐点卷积 (b) 深度卷积 M 图 2 标准卷积分解过程 Fig. 2 Standard convolution decomposition process 深度卷积计算成本为 DK × DK × M × DF × DF (1) 逐点卷积计算成本为 M ×N × DF × DF (2) 深度可分离卷积计算成本占标准卷积计算成 本的比例为 DK × DK × M × DF × DF + M ×N × DF × DF DK × DK × M ×N × DF × DF = 1 N + 1 D2 K (3) 实验表明[6] ,当使用 3×3 的深度可分离卷积 时,其计算量比标准卷积少 8~9 倍,而精度只有很 小的损失。MobileNet 网络系列在尽可能保证图 像分类精度稳定的前提下,极大缩短网络训练的 时间与减少参数更新过程中的计算成本,也为后 续网络结构的优化提供了方向。但 MobileNet 网 络结构中仍存在着特征信息提取能力不足导致分 类精度不高和网络层中激活函数丢失负值特征信 息的现象。 1.3 Leaky ReLU 激活函数[18] 激活函数是神经网络结构中非线性学习能力 的关键点,ReLU 激活函数可以有效缓解梯度弥 散现象,成为大多数激活函数的主流选择。但随 着网络训练轮数的增加,部分神经元对应权重得 不到更新,出现神经元死亡现象,并且 ReLU 在特 征提取过程中会丢弃特征图内的负值特征信息。 ReLU 输出值的均值始终大于零,也不利于网络 学习能力的表达。Leaky ReLU 激活函数的特性 解决了 ReLU 的问题,有效提取负值特征信息,数 学形式为 yi = xi , xi ⩾ 0 xi ai , xi < 0 (4) xi i yi i ai i (1,+∞) ai = 5.5 式中: 代表第 层的输出; 代表第 层经过非 线性变换后的输出; 是第 层中的固定参数,其 范围是 。Leaky ReLU 激活函数如图 3 所 示。由于 Leaky ReLU 激活函数负半轴是一个较 小斜率的函数,可以来初始化神经元,避免神经 元死亡的同时增加了负值特征信息的提取。由文 献 [18] 可知,当 Leaky ReLU 激活函数中 时,Leaky ReLU 激活函数的分类效果要优于 ReLU 激活函数。 10 8 6 4 2 0 −2 y −10.0 −5.0 0 5.0 10.0 x 图 3 Leaky ReLU 激活函数 (ai = 5.5 ) Fig. 3 Leaky ReLU activation function(ai = 5.5 ) 2 L-MobileNet 网络结构 针对经典的 CNN 网络结构和 MobileNet 网络 结构特征提取能力不足和易忽略负值特征信息的 问题,本文提出一种改进的 MobileNet 网络结构 的图像分类方法,即 L-MobileNet。首先,研究了 基于 MobileNet 网络中存在特征信息的各个局部 区域;其次,设计了深度卷积取反层和深度卷积 融合层,将原图像特征和其取反特征进行融合提 取;最后,加入类残差结构,组合卷积块,通过损 失函数优化整个网络进行分类。 L-MobileNet 网络结构如图 4 所示,参数设置 如表 1 所示。深度卷积层得到的特征图通过深度 卷积取反层进行取反操作,并将其与原特征图的 特征信息一起通过深度卷积融合层进行特征相 加,传递至下一个逐点卷积层,然后传递至下一 个卷积块,以此类推。其中的卷积块中采 用 Leaky ReLU 激活函数,将其作用于每一个卷积块 中的每一个卷积层。为了防止出现梯度弥散现 象,在卷积块中加入了类残差结构,先进行信息 通道的扩展再进行信息通道的压缩。通过交叉熵 损失函数优化整个网络,直至收敛。最终经过全 局平均池化层和逐点卷积层来达到分类数目要 求,通过 Softmax 分类器进行输入样本的分类。 第 1 期 高淑萍,等:改进 MobileNet 的图像分类方法研究 ·13·
14 智能系统学报 第16卷 相加 取反 相加 相加 取反 取反 ■逐点卷积层 全局平局池化层 ■深度卷积取反层 ■深度卷积层■深度卷积融合层 分类器 图4L-MobileNet网络结构 Fig.4 L-MobileNet network structure 表1L-MobileNet参数设置 Table 1 L-MobileNet parameters setting 卷积核 层名称 步长 填充 层名称 卷积核 步长 填充 大小 个数 大小 个数 输入层 逐点卷积层8 1×1 64 有 逐点卷积层1 1×1 32 1 有 逐点卷积层9 1×1 384 有 深度卷积1 3×3 32 1 有 深度卷积5 3×3 384 有 逐点卷积层2 1×1 24 1 有 逐点卷积层10 1×1 64 有 逐点卷积层3 1×1 144 1 有 逐点卷积层11 1×1 384 有 深度卷积2 3×3 144 2 有 深度卷积6 3×3 384 1 有 逐点卷积层4 1×1 32 1 有 逐点卷积层12 1×1 64 1 有 逐点卷积层5 1×1 196 1 有 逐点卷积层13 1×1 384 1 有 深度卷积3 3×3 196 1 有 全局平均池化 逐点卷积层6 1×1 32 有 逐点卷积层14 1×1 有 逐点卷积层7 1×1 196 有 深度卷积4 3×3 196 有 输出层 2.1特征信息的融合 深度卷积取反层同步对输入进行处理为 如图4所示,本文对特征信息的融合采用的 是在深度卷积层提取了原始图像局部特征后,同 (6) 步进行深度卷积取反层,然后利用深度卷积融合 深度卷积融合层将前2步提取的信息进行融 层对2层特征信息进行处理。符号说明如下:对 合为 于给定的图像,其中1表示当前层,1-1表示前一 =fo,++f-(o,+bieM(⑦) 层,x丈表示当前层第j个特征图,。代表深度卷积 深度卷积融合层所提取出的特征,不仅包含 运算,表示前一层第i个特征图,表示该层 了原始深度卷积层中的特征信息,而且对潜在的 第i个特征图和前一层第j个特征图所作用的卷 图像局部区域的特征进行提取,融合后的特征随 积核,b表示偏置值,M表示产生该层第j个特 着网络训练的进行,不断学习出识别效果优秀的 征图相关的前一层特征图累计值,f()表示Leaky 高维特征信息。 ReLU激活函数。 2.2负值特征信息的提取 深度卷积层对输入的处理为 如图4可知,L-MobileNet网络结构中有6个 o+ (5) 大卷积块,为了提高MobileNet网络中对负值特 征信息的敏感度和负值特征信息传播过程中的完
取反 取反 取反 取反 融 取反 取反 合 融 合 融 合 融 合 融 合 融 合 相加 相加 相加 逐点卷积层 全局平局池化层 深度卷积取反层 深度卷积层 深度卷积融合层 分类器 图 4 L-MobileNet 网络结构 Fig. 4 L-MobileNet network structure 表 1 L-MobileNet 参数设置 Table 1 L-MobileNet parameters setting 层名称 卷积核 步长 填充 层名称 卷积核 步长 填充 大小 个数 大小 个数 输入层 ― ― ― ― 逐点卷积层8 1×1 64 1 有 逐点卷积层1 1×1 32 1 有 逐点卷积层9 1×1 384 1 有 深度卷积1 3×3 32 1 有 深度卷积5 3×3 384 1 有 逐点卷积层2 1×1 24 1 有 逐点卷积层10 1×1 64 1 有 逐点卷积层3 1×1 144 1 有 逐点卷积层11 1×1 384 1 有 深度卷积2 3×3 144 2 有 深度卷积6 3×3 384 1 有 逐点卷积层4 1×1 32 1 有 逐点卷积层12 1×1 64 1 有 逐点卷积层5 1×1 196 1 有 逐点卷积层13 1×1 384 1 有 深度卷积3 3×3 196 1 有 全局平均池化 ― ― ― ― 逐点卷积层6 1×1 32 1 有 逐点卷积层14 1×1 ― 1 有 逐点卷积层7 1×1 196 1 有 ― ― ― ― ― 深度卷积4 3×3 196 2 有 输出层 ― ― ― ― 2.1 特征信息的融合 l l−1 x l j j ◦ x l−1 i i k l i j i j b l j Mj j f (·) 如图 4 所示,本文对特征信息的融合采用的 是在深度卷积层提取了原始图像局部特征后,同 步进行深度卷积取反层,然后利用深度卷积融合 层对 2 层特征信息进行处理。符号说明如下:对 于给定的图像,其中 表示当前层, 表示前一 层, 表示当前层第 个特征图, 代表深度卷积 运算, 表示前一层第 个特征图, 表示该层 第 个特征图和前一层第 个特征图所作用的卷 积核, 表示偏置值, 表示产生该层第 个特 征图相关的前一层特征图累计值, 表示 Leaky ReLU 激活函数。 深度卷积层对输入的处理为 x l j = f ∑ i∈Mj x l−1 i ◦ k l i j +b l j (5) 深度卷积取反层同步对输入进行处理为 x l j = f − ∑ i∈Mj x l−1 i ◦ k l i j +b l j (6) 深度卷积融合层将前 2 步提取的信息进行融 合为 x l j = f [ x l−1 i ◦ k l i j +b l j ] +f [ − ( x l−1 i ◦ k l i j +b l j )], i ∈ Mj (7) 深度卷积融合层所提取出的特征,不仅包含 了原始深度卷积层中的特征信息,而且对潜在的 图像局部区域的特征进行提取,融合后的特征随 着网络训练的进行,不断学习出识别效果优秀的 高维特征信息。 2.2 负值特征信息的提取 如图 4 可知,L-MobileNet 网络结构中有 6 个 大卷积块,为了提高 MobileNet 网络中对负值特 征信息的敏感度和负值特征信息传播过程中的完 ·14· 智 能 系 统 学 报 第 16 卷
第1期 高淑萍,等:改进MobileNet的图像分类方法研究 ·15· 整度,本文将原始的ReLU激活函数替换为Leaky min s(W.b:0)= ,明 ReLU激活函数,并引人类残差结构。经典的 CNN受限于固定的卷积核大小和激活函数的选 y(yn p)log P(y=plx,0p) +R( 取,影响了负值特征信息的提取和传播,而Mobi- (10) leNet网络虽对卷积核形式有所改变但对负值特 式中:C表示类别;W表示样本数;y表示Dirich- 征信息量仍提取不足。由于Leaky ReLU激活函 let函数;参数6=(0,,…,e);R)表示正则化约 数自身特性对负值敏感,能够保障神经元不死 束项;入表示正则化系数。 亡,并且类残差结构可以防止梯度弥散,利于负 损失函数ε对输入c的导数为 值特征信息的传播,所以本文在每一个卷积层后 ds as of(c) (11) 使用Leaky ReLU(a,=5.5)激活函数和在第3、5及 第6卷积块使用类残差结构。 afc)」 1. c≥0 (12) 由于前向传播过程中前面网络层中梯度的计 c<0 算尚可保持较大值,而越靠后的网络层中梯度值 式中:ε表示损失函数;c表示前一网络层的输 会越来越小,导致反向传播过程中极易出现梯度 出;f(c)表示前一网络层经过非线性变换后的输 弥散现象,所以本文将类残差结构放置在网络中 出:a是(L,+o)的固定参数:石表示从网络深 ds 后端位置。以其中一个卷积块为例,如果特征向 量的维度越低,卷积层中的计算量越小,导致网 层传播来的梯度:表示当前层输人值的梯 络结构整体计算速度越快,但这并不能够提取出 度。当增大前向传播中对特征信息的存储后,将 输入图像全面且有效的特征信息。为了达到网络 减小训练样本的误差,再通过反向传播算法进一 结构平衡的目的,本文采取含有高维特征向量的 步影响了网络结构中的参数更新。 设计:卷积块的输入端采用1×1的逐点卷积结构, 参数的更新规则为 目的是将特征信息从低维空间映射到高维空间, 同时受文献[7]的启发,将其中负责维度扩展的 Ac←uac+oac+ae (13) c 超参数的默认值设置为6。卷积块的输出端同样 c←c+△c (14) 采用1×1的逐点卷积结构,在没有超参数的设定 式中:c表示前一网络层的输出;ε表示损失函 下,可以将特征信息从高维空间映射到低维空间。 数;μ表示动量系数;α表示学习率;ω表示权重衰 逐点卷积计算为 减系数。本文L-MobileNet:通过影响网络中参数 c和更新,最终影响到网络结构的分类结果。 图+ (8) 网模型的参数量(空间复杂度)的计算为 式中:()代表逐点卷积运算;其余符号与式(5)相 ExCE-XC+xC (15) 同。为了保证负值特征信息的完整度,在卷积块 F=1 中每一个卷积层后,摒弃掉可能会造成信息丢失 网络模型的计算量(时间复杂度)的计算为 的ReLU激活函数,使用Leaky ReLU激活函数。 卷积块以逐点卷积、深度卷积、逐点卷积交错的 Time De3xkxCr-1+De3xCrxCr- (16 r=l 方式排列。 式中:Cr为第r层卷积核个数;C-1为上一层的输 2.3传播过程中的参数更新原理 出通道数;k为卷积核尺寸;M为输出特征映射 在反向传播的参数更新中,L-MobileNet网络 的边长;D为所有卷积层数;O()为所需要的空间 结构使用Tensorflow框架下tf average_pooling2d 资源量。由于本文使用的激活函数是Leaky 进行全局平均池化,根据输入信息的类别数目由 RLU函数,因此可以通过原位运算完成从输入 逐点卷积层输出。 到输出的非线性映射,排除输出特征映射的参数 用Softmax分类器来进行输出分类为 量。根据式(15)、(I6)计算表明,L-MobileNet参 Y(p)=P(y=plx,0p) (9) 数总量为280万、计算量为320百万次,与Mobi- leNetV1的420万个参数、575百万次计算量和 p=1 MobileNetV2m的340万个参数、300百万次计算 采用交叉熵优化的损失函数为 量相比,本文方法参数量更少
ai = 5.5 整度,本文将原始的 ReLU 激活函数替换为 Leaky ReLU 激活函数,并引入类残差结构。经典的 CNN 受限于固定的卷积核大小和激活函数的选 取,影响了负值特征信息的提取和传播,而 MobileNet 网络虽对卷积核形式有所改变但对负值特 征信息量仍提取不足。由于 Leaky ReLU 激活函 数自身特性对负值敏感,能够保障神经元不死 亡,并且类残差结构可以防止梯度弥散,利于负 值特征信息的传播,所以本文在每一个卷积层后 使用 Leaky ReLU( ) 激活函数和在第 3、5 及 第 6 卷积块使用类残差结构。 由于前向传播过程中前面网络层中梯度的计 算尚可保持较大值,而越靠后的网络层中梯度值 会越来越小,导致反向传播过程中极易出现梯度 弥散现象,所以本文将类残差结构放置在网络中 后端位置。以其中一个卷积块为例,如果特征向 量的维度越低,卷积层中的计算量越小,导致网 络结构整体计算速度越快,但这并不能够提取出 输入图像全面且有效的特征信息。为了达到网络 结构平衡的目的,本文采取含有高维特征向量的 设计:卷积块的输入端采用 1×1 的逐点卷积结构, 目的是将特征信息从低维空间映射到高维空间, 同时受文献 [7] 的启发,将其中负责维度扩展的 超参数的默认值设置为 6。卷积块的输出端同样 采用 1×1 的逐点卷积结构,在没有超参数的设定 下,可以将特征信息从高维空间映射到低维空间。 逐点卷积计算为 x l j = f ∑ i∈Mj x l−1 i · k l i j +b l j (8) 式中: (·) 代表逐点卷积运算;其余符号与式 (5) 相 同。为了保证负值特征信息的完整度,在卷积块 中每一个卷积层后,摒弃掉可能会造成信息丢失 的 ReLU 激活函数,使用 Leaky ReLU 激活函数。 卷积块以逐点卷积、深度卷积、逐点卷积交错的 方式排列。 2.3 传播过程中的参数更新原理 在反向传播的参数更新中,L-MobileNet 网络 结构使用 Tensorflow 框架下 tf.average_pooling2d 进行全局平均池化,根据输入信息的类别数目由 逐点卷积层输出。 用 Softmax 分类器来进行输出分类为 Y (p) = P ( y = p|x , θp ) = e x T θp ∑C p=1 e x Tθp (9) 采用交叉熵优化的损失函数为 min {W,b;θ} ε(W,b; θ) = 1 N ∑N n=1 − ∑C p=1 γ(yn = p)logP ( y = p| x, θp ) +λR(θ) (10) C N γ θ = (θ1, θ2,··· , θk) R(·) λ 式中: 表示类别; 表示样本数; 表示 Dirichlet 函数;参数 ; 表示正则化约 束项; 表示正则化系数。 损失函数 ε 对输入 c 的导数为 ∂ε ∂c = ∂ε ∂ f(c) ∂ f(c) ∂c (11) ∂ f(c) ∂c = 1, c ⩾ 0 1 ai , c < 0 (12) ε c f(c) ai (1,+∞) ∂ε ∂ f(c) ∂ f(c) ∂c 式中: 表示损失函数; 表示前一网络层的输 出; 表示前一网络层经过非线性变换后的输 出; 是 的固定参数; 表示从网络深 层传播来的梯度; 表示当前层输入值的梯 度。当增大前向传播中对特征信息的存储后,将 减小训练样本的误差,再通过反向传播算法进一 步影响了网络结构中的参数更新。 参数的更新规则为 ∆c ← µ∆c+ωαc+α ∂ε ∂c (13) c ← c+∆c (14) c ε µ α ω c ∂ε ∂c 式中: 表示前一网络层的输出; 表示损失函 数; 表示动量系数; 表示学习率; 表示权重衰 减系数。本文 L-MobileNet 通过影响网络中参数 和 更新,最终影响到网络结构的分类结果。 网络模型的参数量 (空间复杂度) 的计算为 CSpace ∼ O ∑D l ′=1 k 3 l ′ ×Cl ′−1 ×Cl ′ + ∑D l ′=1 M3 ×Cl ′ (15) 网络模型的计算量(时间复杂度)的计算为 Time ∼ O ∑B l ′=1 DF 3 ×k 3 l ′ ×Cl ′−1 + DF 3 ×Cl ′ ×Cl ′−1 (16) Cl ′ l ′ Cl ′−1 kl ′ M D O(·) 式中: 为第 层卷积核个数; 为上一层的输 出通道数; 为卷积核尺寸; 为输出特征映射 的边长; 为所有卷积层数; 为所需要的空间 资源量。由于本文使用的激活函数 是 Leaky ReLU 函数,因此可以通过原位运算完成从输入 到输出的非线性映射,排除输出特征映射的参数 量。根据式 (15)、(16) 计算表明,L-MobileNet 参 数总量为 280 万、计算量为 320 百万次,与 MobileNetV1[6] 的 420 万个参数、575 百万次计算量和 MobileNetV2[7] 的 340 万个参数、300 百万次计算 量相比,本文方法参数量更少。 第 1 期 高淑萍,等:改进 MobileNet 的图像分类方法研究 ·15·