当前位置：和泉文库 > 电气与自动化 > 浏览文档

【机器学习】基于改进卷积神经网络的多标记分类算法

文件格式：PDF，文件大小：3.91MB，售价：3.51元

文档详细内容（约9页）

第14卷第3期智能系统学报 Vol.14 No.3 2019年5月 CAAI Transactions on Intelligent Systems May 2019 D0:10.11992/tis.201804056 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20180610.2155.002.html 基于改进卷积神经网络的多标记分类算法余鹰，王乐为，吴新念，伍国华2，张远健 (1.华东交通大学软件学院，江西南昌330013,2.中南大学交通运输工程学院，湖南长沙410000,3.同济大学计算机科学与技术系，上海201804) 摘要：良好的特征表达是提高模型性能的关键，然而当前在多标记学习领域，特征表达依然采用人工设计的方式，所提取的特征抽象程度不高，包含的可区分性信息不足。针对此问题，提出了基于卷积神经网络的多标记分类模型ML_DCCNN,该模型利用卷积神经网络强大的特征提取能力，自动学习能刻画数据本质的特征。为了解决深度卷积神经网络预测精度高，但训练时间复杂度不低的问题，ML_DCCNN利用迁移学习方法缩减模型的训练时间，同时改进卷积神经网络的全连接层，提出双通道神经元，减少全连接层的参数量。实验表明，与传统的多标记分类算法以及已有的基于深度学习的多标记分类模型相比.ML DCCNN保持了较高的分类精度并有效地提高了分类效率，具有一定的理论与实际价值。关键词：多标记学习；卷积神经网络：迁移学习；全连接层；特征表达；多标记分类：深度学习；损失函数中图分类号：TP181文献标志码：A文章编号：1673-4785(2019)03-0566-09 中文引用格式：余鹰，王乐为，吴新念，等.基于改进卷积神经网络的多标记分类算法{J引.智能系统学报，2019,14(3)： 566-574. 英文引用格式：YU Ying,.WANG Lewei,.VU Xinnian,etal.A multi-label classification algorithm based on an improved convolu tional neural network J.CAAI transactions on intelligent systems,2019,14(3):566-574. A multi-label classification algorithm based on an improved convolutional neural network YU Ying',WANG Lewei',WU Xinnian',WU Guohua',ZHANG Yuanjian' (1.College of Software Engineering,East China Jiaotong University,Nanchang 330013,China,2.College of Transportation Engin- eering,Central South University,Changsha 410000,China;3.Department of Computer Science and Technology,Tongji University, Shanghai 201804,China) Abstract:A good feature expression is the key to improve model performance.However,at present,artificially de- signed features are used for multi-label learning.Thus,the level of abstraction of the extracted features is low and lacks the discriminated information involved.To solve this problem,this paper proposes a multi-label classification model based on convolutional neural network(ML DCCNN).This model uses the powerful feature extraction capabilities of CNNs to automatically learn the features from the data.To solve the problem of high forecasting precision versus long training time of CNNs,the ML DCCNN uses the transfer learning method to reduce the training time of the model.In addition,the entire connection layer of the CNN is improved by a dual-channel neuron,which can reduce the number of parameters of the fully connected layer.The experiments show that compared with the traditional multi-label classifica- tion algorithm and existing multi-label classification model based on deep learning,the ML_DCCNN maintains high classification accuracy and can effectively improve the classification efficiency,presenting certain theoretical and prac- tical value. Keywords:multi-label learning;convolutional neural network;transfer learning;fully-connected layer;feature expres- sion;multi-label classification;deep learning;loss function 收稿日期：2018-04-26.网络出版日期：2018-06-11. 基金项目：国家自然科学基金项目(61563016,61603404,61462037，不同于传统的单标记学习问题，多标记学习 61663002):江西省教育厅科技项目(GJJ150546):江西省自然科学基金项目(2018BAB202023). 考虑一个对象对应多个类别标记的情况。例如：通信作者：余鹰.E-mail:yuyingjx@163.com 一个基因可能同时具有多种功能，如新陈代谢

DOI: 10.11992/tis.201804056 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180610.2155.002.html 基于改进卷积神经网络的多标记分类算法余鹰1 ，王乐为1 ，吴新念1 ，伍国华2 ，张远健3 （1. 华东交通大学软件学院，江西南昌 330013; 2. 中南大学交通运输工程学院，湖南长沙 410000; 3. 同济大学计算机科学与技术系，上海 201804）摘要：良好的特征表达是提高模型性能的关键，然而当前在多标记学习领域，特征表达依然采用人工设计的方式，所提取的特征抽象程度不高，包含的可区分性信息不足。针对此问题，提出了基于卷积神经网络的多标记分类模型 ML_DCCNN，该模型利用卷积神经网络强大的特征提取能力，自动学习能刻画数据本质的特征。为了解决深度卷积神经网络预测精度高，但训练时间复杂度不低的问题，ML_DCCNN 利用迁移学习方法缩减模型的训练时间，同时改进卷积神经网络的全连接层，提出双通道神经元，减少全连接层的参数量。实验表明，与传统的多标记分类算法以及已有的基于深度学习的多标记分类模型相比，ML_DCCNN 保持了较高的分类精度并有效地提高了分类效率，具有一定的理论与实际价值。关键词：多标记学习；卷积神经网络；迁移学习；全连接层；特征表达；多标记分类；深度学习；损失函数中图分类号：TP181 文献标志码：A 文章编号：1673−4785(2019)03−0566−09 中文引用格式：余鹰, 王乐为, 吴新念, 等. 基于改进卷积神经网络的多标记分类算法[J]. 智能系统学报, 2019, 14(3): 566–574. 英文引用格式：YU Ying, WANG Lewei, WU Xinnian, et al. A multi-label classification algorithm based on an improved convolutional neural network[J]. CAAI transactions on intelligent systems, 2019, 14(3): 566–574. A multi-label classification algorithm based on an improved convolutional neural network YU Ying1 ，WANG Lewei1 ，WU Xinnian1 ，WU Guohua2 ，ZHANG Yuanjian3 (1. College of Software Engineering, East China Jiaotong University, Nanchang 330013, China; 2. College of Transportation Engineering, Central South University, Changsha 410000, China; 3. Department of Computer Science and Technology, Tongji University, Shanghai 201804, China) Abstract: A good feature expression is the key to improve model performance. However, at present, artificially designed features are used for multi-label learning. Thus, the level of abstraction of the extracted features is low and lacks the discriminated information involved. To solve this problem, this paper proposes a multi-label classification model based on convolutional neural network (ML_DCCNN). This model uses the powerful feature extraction capabilities of CNNs to automatically learn the features from the data. To solve the problem of high forecasting precision versus long training time of CNNs, the ML_DCCNN uses the transfer learning method to reduce the training time of the model. In addition, the entire connection layer of the CNN is improved by a dual-channel neuron, which can reduce the number of parameters of the fully connected layer. The experiments show that compared with the traditional multi-label classification algorithm and existing multi-label classification model based on deep learning, the ML_DCCNN maintains high classification accuracy and can effectively improve the classification efficiency, presenting certain theoretical and practical value. Keywords: multi-label learning; convolutional neural network; transfer learning; fully-connected layer; feature expression; multi-label classification; deep learning; loss function 不同于传统的单标记学习问题，多标记学习考虑一个对象对应多个类别标记的情况。例如：一个基因可能同时具有多种功能，如新陈代谢、收稿日期：2018−04−26. 网络出版日期：2018−06−11. 基金项目：国家自然科学基金项目 (61563016, 61603404, 61462037, 61663002)；江西省教育厅科技项目 (GJJ150546)；江西省自然科学基金项目 (2018BAB202023). 通信作者：余鹰. E-mail: yuyingjx@163.com. 第 14 卷第 3 期智能系统学报 Vol.14 No.3 2019 年 5 月 CAAI Transactions on Intelligent Systems May 2019

第3期余鹰，等：基于改进卷积神经网络的多标记分类算法 ·567· 转录以及蛋白质合成；一首乐曲可能传达了多种模型进行训练，使模型学得函数f:X→Y,其中信息，如钢琴、古典音乐和莫扎特等；一幅图像可 x,∈X表示一个实例，y:∈Y表示实例x,所含有的能同时属于多个类别，如motor、person与car 类别标记，且y为标记集合L的一个子集。训练等。早期，多标记学习的研究主要集中于文本分完成后，将未分类的数据输人模型，得到与实际类中遇到的多义性问题。经过近十年的发展，多标记最大程度接近的分类结果。标记学习已成为当前国际机器学习领域研究的热目前，多标记分类算法根据解决问题方式的点问题之一，逐渐在情感分类”、图像视频语义标不同，可归为问题转换型和算法适应型两类6。注回、生物信息学创和个性化推荐等实际应用中问题转换型是将多标记分类问题转化为多个单标扮演重要的角色。随着相关应用的发展及需求的记分类问题，如算法BR(binary relevance)m、LP(la- 不断提升，多标记学习技术的大规模应用仍然要 bel powerset))I等，然后利用单标记分类方法进行应对很多的问题和挑战。当前在多标记学习领处理。算法适应型则是改进已有的单标记分类算域，特征表达大多采用人工设计的方式，如SIFT、法，使其适应于多标记分类问题，如算法BSVM HOG等，这些特征在特定类型对象中能够达到较 (biased support vector machine)ML-KNN(multi-la- 好的识别效果，但这些算法提取的只是一些低层 belk-nearest neighbor))iol等。随着深度学习的兴次low-level)特征，抽象程度不高，包含的可区分起，已有一些学者开始基于深度学习研究多标记性信息不足，对于分类来说无法提供更多有价值分类问题，Zhang!由传统径向基函数RBF(radial 的语义信息，影响分类的精度。目前，如何让多 basis function)推导出了一种基于神经网络的多标标记系统学会辨别底层数据中隐含的区分性因记学习算法ML-RBF。Wang等将卷积神经网素，自动学习更抽象和有效的特征已成为制约多络CNN(convolutional neural network)和循环神经标记学习研究进一步深人的瓶颈。网络RNN(recurrent neuron network)相结合，提出近年来，深度学习在图像分类和目标检测等了一种多标记学习的复合型框架，用于解决多标领域取得了突破性进展，成为目前最有效的特征记图像分类问题，但这些算法的精度和时间复杂自动学习方法。文献[5]将传统人工设计的特征度都有待进一步提升。与深度神经网络自学习的特征进行了比较，发现。1.2卷积神经网络后者更有助于提升图像自动标注算法的性能。深卷积神经网络CNN是一种深度神经网络模度学习模型具有强大的表征和建模能力，通过监型，主要由卷积层、池化层和全连接层构成，如督或非监督的方式，逐层自动地学习目标的特征图1所示。卷积层负责图像特征提取，池化层用表示，将原始数据经过一系列非线性变换，生成于降维及实现不变形，而全连接层则起到分类器高层次的抽象表示，避免了手工设计特征的烦琐的作用。卷积层和池化层一般作为组合多次成对低效。本文针对多标记学习中存在的特征抽象层出现，也可以根据实际情况灵活使用，如AlexNet" 次不高的问题，利用包含多个隐含层的深度卷积和VGG。神经网络直接从原始输入中学习并构建多层的分级特征，形成更加抽象的高层表示，实现以最少和最有效的特征来表达原始信息。同时，针对卷积神经网络预测精度高但运算速度慢的特点，利输入层卷积层下采样层卷积层下采样层输出层用迁移学习和双通道神经元方法，缩减网络的参图1卷积神经网络结构数量，提高训练速度，在一定程度上弥补了卷积 Fig.1 Convolutional neural network structure 神经网络计算量大、速度较慢的缺陷。相比于传统的特征提取方法，卷积神经网络 1 相关工作不需要事先人工设定特征，而是通过网络模型从大量数据中自动学习特征表示。通过多层非线性 1.1多标记学习映射，逐层提取信息，最底层从像素级原始数据为了便于叙述，在分析之前先给出多标记问学习滤波器，刻画局部边缘和纹理特征；中层滤题的形式化定义。令X={x,2,…,xm}代表实例波器对各种边缘滤波器进行组合后，描述不同类空间，L=l,2,…,g}代表所有标记的集合，Y= 型的局部特征：最高层描述整体全局特征。 y12,…,ym}代表标记空间，T={(x,y1≤i≤m代 1.3迁移学习表训练集。多标记分类的任务就是用训练集T对迁移学习((transfer learning)的基本思想是将

转录以及蛋白质合成；一首乐曲可能传达了多种信息，如钢琴、古典音乐和莫扎特等；一幅图像可能同时属于多个类别，如 motor、person 与 car 等。早期，多标记学习的研究主要集中于文本分类中遇到的多义性问题。经过近十年的发展，多标记学习已成为当前国际机器学习领域研究的热点问题之一，逐渐在情感分类[1] 、图像视频语义标注 [2] 、生物信息学[3]和个性化推荐[4]等实际应用中扮演重要的角色。随着相关应用的发展及需求的不断提升，多标记学习技术的大规模应用仍然要应对很多的问题和挑战。当前在多标记学习领域，特征表达大多采用人工设计的方式，如 SIFT、 HOG 等，这些特征在特定类型对象中能够达到较好的识别效果，但这些算法提取的只是一些低层次 (low-level) 特征，抽象程度不高，包含的可区分性信息不足，对于分类来说无法提供更多有价值的语义信息，影响分类的精度。目前，如何让多标记系统学会辨别底层数据中隐含的区分性因素，自动学习更抽象和有效的特征已成为制约多标记学习研究进一步深入的瓶颈。近年来，深度学习在图像分类和目标检测等领域取得了突破性进展，成为目前最有效的特征自动学习方法。文献[5]将传统人工设计的特征与深度神经网络自学习的特征进行了比较，发现后者更有助于提升图像自动标注算法的性能。深度学习模型具有强大的表征和建模能力，通过监督或非监督的方式，逐层自动地学习目标的特征表示，将原始数据经过一系列非线性变换，生成高层次的抽象表示，避免了手工设计特征的烦琐低效。本文针对多标记学习中存在的特征抽象层次不高的问题，利用包含多个隐含层的深度卷积神经网络直接从原始输入中学习并构建多层的分级特征，形成更加抽象的高层表示，实现以最少和最有效的特征来表达原始信息。同时，针对卷积神经网络预测精度高但运算速度慢的特点，利用迁移学习和双通道神经元方法，缩减网络的参数量，提高训练速度，在一定程度上弥补了卷积神经网络计算量大、速度较慢的缺陷。 1 相关工作 1.1 多标记学习 X = {x1, x2,··· , xm} L = {l1,l2,··· ,lq} {y1, y2,··· , ym} T = {(xi , yi)|1 ⩽ i ⩽ m} 为了便于叙述，在分析之前先给出多标记问题的形式化定义。令代表实例空间，代表所有标记的集合，Y = 代表标记空间，代表训练集。多标记分类的任务就是用训练集 T 对模型进行训练，使模型学得函数 f：X→Y，其中 xi∈X 表示一个实例，yi∈Y 表示实例 xi 所含有的类别标记，且 yi 为标记集合 L 的一个子集。训练完成后，将未分类的数据输入模型，得到与实际标记最大程度接近的分类结果。目前，多标记分类算法根据解决问题方式的不同，可归为问题转换型和算法适应型两类[6]。问题转换型是将多标记分类问题转化为多个单标记分类问题，如算法 BR(binary relevance)[7] 、LP(label powerset)[8]等，然后利用单标记分类方法进行处理。算法适应型则是改进已有的单标记分类算法，使其适应于多标记分类问题，如算法 BSVM (biased support vector machine)[9] 、ML-KNN(multi-label k-nearest neighbor)[10]等。随着深度学习的兴起，已有一些学者开始基于深度学习研究多标记分类问题，Zhang[11]由传统径向基函数 RBF(radial basis function) 推导出了一种基于神经网络的多标记学习算法 ML-RBF。Wang 等 [12]将卷积神经网络 CNN(convolutional neural network) 和循环神经网络 RNN(recurrent neuron network) 相结合，提出了一种多标记学习的复合型框架，用于解决多标记图像分类问题，但这些算法的精度和时间复杂度都有待进一步提升。 1.2 卷积神经网络卷积神经网络 CNN 是一种深度神经网络模型，主要由卷积层、池化层和全连接层构成，如图 1 所示。卷积层负责图像特征提取，池化层用于降维及实现不变形，而全连接层则起到分类器的作用。卷积层和池化层一般作为组合多次成对出现，也可以根据实际情况灵活使用，如 AlexNet[13] 和 VGG[14]。输入层卷积层卷积层下采样层下采样层输出层图 1 卷积神经网络结构 Fig. 1 Convolutional neural network structure 相比于传统的特征提取方法，卷积神经网络不需要事先人工设定特征，而是通过网络模型从大量数据中自动学习特征表示。通过多层非线性映射，逐层提取信息，最底层从像素级原始数据学习滤波器，刻画局部边缘和纹理特征；中层滤波器对各种边缘滤波器进行组合后，描述不同类型的局部特征；最高层描述整体全局特征。 1.3 迁移学习迁移学习 (transfer learning) 的基本思想是将第 3 期余鹰，等：基于改进卷积神经网络的多标记分类算法 ·567·

·568· 智能系统学报第14卷从一个环境中学到的知识用于新环境中的学习拆分成两个较小的一维卷积核，例如将3×3的卷任务。积核分解成1×3和3×1两个卷积核。这种非对目前，迁移学习已被广泛应用于各个领域，例称的拆分方式减少了网络参数量，降低了过拟合如，在文档分类方面，Dai等提出联合聚类的方风险，可以保证对ImageNet之外的数据集具有很法，通过不同领域共享相同的词特征进行知识迁好的泛化性能。移；在智能规划中，Zhuo等1o提出一种新的迁移为了进一步减少全连接层参数数量，本文对学习框架TRAMP,通过建立源领域与目标领域之 Inception V3模型的全连接层进行改进，引入双通间的结构映射来迁移知识，获取人工智能规划中道神经元，优化网络结构，并结合迁移学习提出的动作模型。了多标记分类模型ML DCCNN。最后，将全连接层的输出送入SoftMax分类器，从而得到各标记 2基于改进CNN的多标记分类算法的预测概率，然后根据各标记的概率计算多标记分类损失函数。 2.1算法框架在反向传播时，保留Inception V3模型的特征由于图像传递信息的底层机制相通，因此可提取层，即固定特征提取层的权重和偏置参数，以利用迁移学习，将在源域上训练好的网络模并用神经元个数为20的全连接层替换原有全连型，通过共享网络参数，使之在目标域上也具有接层，设置该层的初始权重和偏置为0，学习率设一定的特征提取能力。本文采用在ImageNet数置为0.001，batchsize设置为100。然后，使用随机据集上训练好的Inception V3I8模型进行图像特梯度下降算法，用PASCAL Visual Object Classes 征提取。该模型引入了“Factorization into small Challenge(VOC)数据集Iu对网络参数进行微调， convolutions'”的思想，将一个较大的二维卷积核使其适应于新数据集，算法的具体流程如图2所示。 ImageNet 双通道源域神经元迁优针对多分类器标记分类优化器移化选 Inception V3 定选模型择义择替换多标记输入固化特征 :全连接层损失函数随机梯度达到训练 Y 最终图片提取层下降算法次数输出模型参数 N 调下一次训练图2基于改进CNN的多标记分类算法框架 Fig.2 Multi-label classification algorithm framework based on improved convolution neural network 2.2双通道神经元息的神经元称为普通神经元，如图3(a)所示，全在卷积神经网络中，卷积、池化和激活函数连接层中最后一层的神经元个数和具体分类问题等操作将原始数据映射到隐层特征空间，全连接的标记总数相等，如某数据集上共有n种标记，层则将学到的分布式特征表示映射到标记空间，则最后一层全连接层上的神经元个数为n。即全连接层在整个卷积神经网络中起到了“分类本文将可以接受两种标记特征信息的神经元器”的作用。但全连接层上往往包含大量参数，对称为双通道神经元。一个双通道神经元相当于两整个网络的速度有一定影响。虽然FCN20全卷积个普通神经元的合并，它改进了全连接层，有效模型取消了全连接层，避免了全连接层的副作地减少了该层的参数。在接受到特征信息后，为用，但是在Zhang等2的研究中，全连接层能够在了能将合并的标记区分，使用双通道的神经元，模型表示能力迁移过程中充当“防火墙”的作用，需在其后再连接两个神经元，分别表示对应的标保证模型表示能力的迁移。因此为了能够在保留记，并规定所连接的两个神经元上的权重分别为全连接层的基础上，减少网络参数，本文提出了 1和-1，如图3b)所示。双通道神经元的概念。在图3(a)中，假设分类标记数为n,全连层输 2.2.1基本结构入为m,则权重参数有m×n个，偏置参数有n个，本文将全连接层中只能接受一种标记特征信总参数有m×n+n个

从一个环境中学到的知识用于新环境中的学习任务。目前，迁移学习已被广泛应用于各个领域，例如，在文档分类方面，Dai 等 [15]提出联合聚类的方法，通过不同领域共享相同的词特征进行知识迁移；在智能规划中，Zhuo 等 [16]提出一种新的迁移学习框架 TRAMP，通过建立源领域与目标领域之间的结构映射来迁移知识，获取人工智能规划中的动作模型。 2 基于改进 CNN 的多标记分类算法 2.1 算法框架由于图像传递信息的底层机制相通，因此可以利用迁移学习，将在源域上训练好的网络模型，通过共享网络参数，使之在目标域上也具有一定的特征提取能力。本文采用在 ImageNet[17]数据集上训练好的 Inception V3[18]模型进行图像特征提取。该模型引入了“Factorization into small convolutions”的思想，将一个较大的二维卷积核 3×3 1×3 3×1 拆分成两个较小的一维卷积核，例如将的卷积核分解成和两个卷积核。这种非对称的拆分方式减少了网络参数量，降低了过拟合风险，可以保证对 ImageNet 之外的数据集具有很好的泛化性能。为了进一步减少全连接层参数数量，本文对 Inception V3 模型的全连接层进行改进，引入双通道神经元，优化网络结构，并结合迁移学习提出了多标记分类模型 ML_DCCNN。最后，将全连接层的输出送入 SoftMax 分类器，从而得到各标记的预测概率，然后根据各标记的概率计算多标记分类损失函数。在反向传播时，保留 Inception V3 模型的特征提取层，即固定特征提取层的权重和偏置参数，并用神经元个数为 20 的全连接层替换原有全连接层，设置该层的初始权重和偏置为 0，学习率设置为 0.001，batchsize 设置为 100。然后，使用随机梯度下降算法，用 PASCAL Visual Object Classes Challenge(VOC) 数据集[19]对网络参数进行微调，使其适应于新数据集，算法的具体流程如图 2 所示。 ImageNet 源域双通道神经元迁移优化输入微调选择选择定义下一次训练多标记图片 Inception V3 模型固化特征提取层替换全连接层 SoftMax 分类器针对多标记分类损失函数优化器随机梯度下降算法达到训练次数最终模型参数 Y 输出 N 图 2 基于改进 CNN 的多标记分类算法框架 Fig. 2 Multi-label classification algorithm framework based on improved convolution neural network 2.2 双通道神经元在卷积神经网络中，卷积、池化和激活函数等操作将原始数据映射到隐层特征空间，全连接层则将学到的分布式特征表示映射到标记空间，即全连接层在整个卷积神经网络中起到了“分类器”的作用。但全连接层上往往包含大量参数，对整个网络的速度有一定影响。虽然 FCN[20]全卷积模型取消了全连接层，避免了全连接层的副作用，但是在 Zhang 等 [21]的研究中，全连接层能够在模型表示能力迁移过程中充当“防火墙”的作用，保证模型表示能力的迁移。因此为了能够在保留全连接层的基础上，减少网络参数，本文提出了双通道神经元的概念。 2.2.1 基本结构本文将全连接层中只能接受一种标记特征信 n n 息的神经元称为普通神经元，如图 3(a) 所示，全连接层中最后一层的神经元个数和具体分类问题的标记总数相等，如某数据集上共有种标记，则最后一层全连接层上的神经元个数为。本文将可以接受两种标记特征信息的神经元称为双通道神经元。一个双通道神经元相当于两个普通神经元的合并，它改进了全连接层，有效地减少了该层的参数。在接受到特征信息后，为了能将合并的标记区分，使用双通道的神经元，需在其后再连接两个神经元，分别表示对应的标记，并规定所连接的两个神经元上的权重分别为 1 和−1，如图 3(b) 所示。 n m m×n n m×n+n 在图 3(a) 中，假设分类标记数为，全连层输入为，则权重参数有个，偏置参数有个，总参数有个。 ·568· 智能系统学报第 14 卷

第3期余鹰，等：基于改进卷积神经网络的多标记分类算法 ·569· ception V3模型的输入m为2048，输出标记n为 20,所以在m远大于n前提下，使用双通道神经元最多可缩减一半参数，如公式(1)所示： 10m+10d+e)+24≤1 (1) (m+1)n 式中：m岁n;n=2d+e。 2.2.2核心思想打包和解包是双通道神经元的核心思想。打包主要表现在将两种标记合二为一在一个神经元 1=2d+ (a)普通神经元 (b)双通道神经元上，即最后一层全连接层上的每个神经元可以表示两种标记，接受两种标记的特征信息。例如：图3全连接层 Fig.3 Fully connected layer 将飞机和自行车这两种标签打包在一起，由一个在图3(b)中，假设全连接层有d个双通道神神经元负责输出，则该神经元上的权重只对飞机经元和e个不使用双通道的神经元。在同样假设和自行车的特征信息敏感。但仅用一个神经元输条件下，该层权重参数为m×(d+e)+2d个，偏置出，存在无法判别输出是飞机还是自行车的情参数为d+e个，总参数为m+l)×(d+e)+2d个。况，因此需要解包思想，主要表现在一个神经元一般情况下，输人值m远大于输出值n,例如In- 又“分裂”出两个神经元，具体如图4所示。图4打包与解包示意 Fig.4 Package and unpack diagram 图4左边为普通全连接层的神经元，每个神中，得出图片含有各标记的概率，例如图片x,含经元仅对一种标记特征信息敏感，如上方神经元有标记l的概率：仅对飞机特征信息敏感，下方神经元仅对自行车 exp(f(x)) Pu=- (2) 特征信息敏感。图4右边使用了双通道神经元， ∑exp(f(x,) 每个神经元对两种类别的特征信息敏感，例如同式中：fx)表示图片x,对应标记的激活值，q 时对飞机和自行车的特征信息敏感，在提取出飞表示数据集的标记总数。经过SoftMax分类器输机和自行车的特征后，再分裂出两个神经元分别出各标记概率后，定义交叉熵损失函数：代表对应的标记，其中权重为1的代表飞机，权重 Piilog(Pii) (3) 为-1的代表自行车。 i=l i=l 2.3损失函数式中：两表示图片x是否含有标记：当图片x含设D={(x,yi=1,2,…,m代表具有n个样本有标记时，西值为二，当图片x,不含有标记的训练集，其中x=[xHx2…d是第i个样本的d j时，值为0，如式(4)：维特征向量，y,=Dy2yJ是第i个样本的标记 1 向量，其维度q与数据集标记总数相等，=1表 Py= 财=1 (4) 示x含有标签，y=0则表示不含有。 0 %=0 SoftMax分类器不仅可以用于处理单标记分由式(3)和式(4)可以推导出：类问题，也可以用于处理多标记分类问题。本文 J=-22上1g (5) 将最后一层全连接层的输出送入SoftMax分类器 : 1=1

… … … … … m n … … … … m d+e n=2d+e e 1 d 1 1 1 −1 −1 (a) 普通神经元 (b) 双通道神经元图 3 全连接层 Fig. 3 Fully connected layer d m×(d +e)+2d (m+1)×(d +e)+2d m n 在图 3(b) 中，假设全连接层有个双通道神经元和 e 个不使用双通道的神经元。在同样假设条件下，该层权重参数为个，偏置参数为 d+e 个，总参数为个。一般情况下，输入值远大于输出值，例如 Inm n m n ception V3 模型的输入为 2 048，输出标记为 20，所以在远大于前提下，使用双通道神经元最多可缩减一半参数，如公式 (1) 所示： 1 2 ⩽ (m+1) (d +e)+2d (m+1)n ⩽ 1 (1) 式中：m ≫ n；n = 2d +e。 2.2.2 核心思想打包和解包是双通道神经元的核心思想。打包主要表现在将两种标记合二为一在一个神经元上，即最后一层全连接层上的每个神经元可以表示两种标记，接受两种标记的特征信息。例如：将飞机和自行车这两种标签打包在一起，由一个神经元负责输出，则该神经元上的权重只对飞机和自行车的特征信息敏感。但仅用一个神经元输出，存在无法判别输出是飞机还是自行车的情况，因此需要解包思想，主要表现在一个神经元又“分裂”出两个神经元，具体如图 4 所示。 … … … … … … … −1 1 图 4 打包与解包示意 Fig. 4 Package and unpack diagram 图 4 左边为普通全连接层的神经元，每个神经元仅对一种标记特征信息敏感，如上方神经元仅对飞机特征信息敏感，下方神经元仅对自行车特征信息敏感。图 4 右边使用了双通道神经元，每个神经元对两种类别的特征信息敏感，例如同时对飞机和自行车的特征信息敏感，在提取出飞机和自行车的特征后，再分裂出两个神经元分别代表对应的标记，其中权重为 1 的代表飞机，权重为−1 的代表自行车。 2.3 损失函数 D = {(xi , yi)|i = 1,2,··· ,n} n xi = [xi1 xi2 ··· xid] i d yi = [yi1 yi2 ··· yiq] i q yi j = 1 lj yi j = 0 设代表具有个样本的训练集，其中是第个样本的维特征向量，是第个样本的标记向量，其维度与数据集标记总数相等，表示 xi 含有标签，则表示不含有。 SoftMax 分类器不仅可以用于处理单标记分类问题，也可以用于处理多标记分类问题。本文将最后一层全连接层的输出送入 SoftMax 分类器 lj 中，得出图片含有各标记的概率，例如图片 xi 含有标记的概率： pi j= exp(fj(xi)) ∑c k=1 exp(fk(xi)) (2) l 式中：fj (xi ) 表示图片 xi 对应标记 j 的激活值， q 表示数据集的标记总数。经过 SoftMax 分类器输出各标记概率后，定义交叉熵损失函数： J = − ∑n i=1 ∑q j=1 pi j log(pi j) (3) pi j pi j 1 c+ pi j 式中：表示图片 xi 是否含有标记 j；当图片 xi 含有 j 标记时，值为，当图片 xi 不含有标记 j 时，值为 0，如式 (4)： pi j=    1 c+ , yi j = 1 0, yi j = 0 (4) 由式 (3) 和式 (4) 可以推导出： J = − ∑n i=1 ∑c+ j=1 1 c+ log(pi j) (5) 第 3 期余鹰，等：基于改进卷积神经网络的多标记分类算法 ·569·

·570 智能系统学报第14卷式中：n表示一个Batch上的图片数量；c+表示图表1标签合并方式片x,上正标记的总个数。 Table 1 Label merging mode 序号标签1 标签2 3实验与分析 1 plane bike 本文实验在处理器为i5-3210M的Windows 2 bird boat PC机上完成，基于TensorFlow1.2.1实现卷积神 3 bottle bus 经网络，采用了PASCAL VOC2007和PASCAL V0C2012两个多标记数据集，二者均含有20个 4 car cat 类别标记。PASCAL VOC2007数据集共有9963 5 chair cow 张图片，其中训练验证集有5011张，测试集有4952 6 table dog 张，PASCAL VOC2012共有33260张图片，其中 7 horse motor 训练验证集有17125张，测试集有16135张。为了验证双通道神经元的可用性，本文对普 8 person plant 通全连接层结构和采用双通道神经元的全连层结 9 sheep sofa 构的分类效果进行了比较，其中双通道神经元的 10 train Tv 标签两两合并方式如表1所示。表2显示了 PASCAL VOC数据集中的一个多标记图像（如表2使用两种全连接层的分类结果比较图5)分别使用普通全连接层和包含10个双通道 Table 2 Result comparison of two fully connected layers 神经元的全连层在训练2000步时，softmax分类标签 FC DC GT 器的输出值，其中，FC表示普通全连接层， motor 0.3127 0.3374 DC(Dual Channel)表示双通道神经元全连接层， GT表示ground_truth.。DC所用d值为l0,即 person 0.2064 0.1839 10个双通道神经元结构。表3为训练了5000次 car 0.0967 0.0789 的普通全连接层FC和使用10个双通道神经元的 dog 0.0377 0.0430 0 全连接层DC在100张图片上每个标记soft- max的平均输出值，其中NUM表示在l00张图片 bird 0.0311 0.0370 0 上每个标记出现的总数，出现次数最多的标记分 cat 0.0301 0.0089 0 别为person和car,可以看出两种全连接层在这两 bike 0.0275 0.0316 0 个标记上所对应的softmax也最大，且很接近。由表2和表3可知，在使用10个双通道神经元 plant 0.0247 0.0038 0 时，全连接层参数缩减了近一半，但网络仍能准 train 0.0245 0.0343 0 确识别出多标记图片中的物体类别，且soft max分类器的输出值与普通全连接层相近，在 chair 0.0238 0.0328 0 定程度上证明了双通道神经元的可用性。 plane 0.0219 0.0223 bus 0.0215 0.0300 0 bottle 0.0212 0.0235 0 horse 0.0206 0.0021 0 TV 0.0197 0.0205 0 sofa 0.0180 0.0257 0 boat 0.0165 0.0190 0 sheep 0.0161 0.0274 0 table 0.0149 0.0164 0 图5多标记图像 cow 0.0144 0.0215 0 Fig.5 Multi-label image

式中：n 表示一个 Batch 上的图片数量；c+表示图片 xi 上正标记的总个数。 3 实验与分析本文实验在处理器为 i5-3210M 的 Windows PC 机上完成，基于 TensorFlow 1.2.1 实现卷积神经网络，采用了 PASCAL VOC2007 和 PASCAL VOC2012 两个多标记数据集，二者均含有 20 个类别标记。PASCAL VOC2007 数据集共有 9 963 张图片，其中训练验证集有 5 011 张，测试集有 4 952 张，PASCAL VOC2012 共有 33 260 张图片，其中训练验证集有 17 125 张，测试集有 16 135 张。 d 为了验证双通道神经元的可用性，本文对普通全连接层结构和采用双通道神经元的全连层结构的分类效果进行了比较，其中双通道神经元的标签两两合并方式如表 1 所示。表 2 显示了 PASCAL VOC 数据集中的一个多标记图像 (如图 5) 分别使用普通全连接层和包含 10 个双通道神经元的全连层在训练 2 000 步时，softmax 分类器的输出值，其中， F C 表示普通全连接层， DC(Dual_Channel) 表示双通道神经元全连接层， GT 表示 ground_truth。DC 所用值为 10，即 10 个双通道神经元结构。表 3 为训练了 5 000 次的普通全连接层 FC 和使用 10 个双通道神经元的全连接层 DC 在 100 张图片上每个标记 softmax 的平均输出值，其中 NUM 表示在 100 张图片上每个标记出现的总数，出现次数最多的标记分别为 person 和 car，可以看出两种全连接层在这两个标记上所对应的 softmax 也最大，且很接近。由表 2 和表 3 可知，在使用 10 个双通道神经元时，全连接层参数缩减了近一半，但网络仍能准确识别出多标记图片中的物体类别，且 softmax 分类器的输出值与普通全连接层相近，在一定程度上证明了双通道神经元的可用性。图 5 多标记图像 Fig. 5 Multi-label image 表 1 标签合并方式 Table 1 Label merging mode 序号标签 1 标签 2 1 plane bike 2 bird boat 3 bottle bus 4 car cat 5 chair cow 6 table dog 7 horse motor 8 person plant 9 sheep sofa 10 train TV 表 2 使用两种全连接层的分类结果比较 Table 2 Result comparison of two fully connected layers 标签 FC DC GT motor 0.312 7 0.337 4 1 person 0.206 4 0.183 9 1 car 0.096 7 0.078 9 1 dog 0.037 7 0.043 0 0 bird 0.031 1 0.037 0 0 cat 0.030 1 0.008 9 0 bike 0.027 5 0.031 6 0 plant 0.024 7 0.003 8 0 train 0.024 5 0.034 3 0 chair 0.023 8 0.032 8 0 plane 0.021 9 0.022 3 0 bus 0.021 5 0.030 0 0 bottle 0.021 2 0.023 5 0 horse 0.020 6 0.002 1 0 TV 0.019 7 0.020 5 0 sofa 0.018 0 0.025 7 0 boat 0.016 5 0.019 0 0 sheep 0.016 1 0.027 4 0 table 0.014 9 0.016 4 0 cow 0.014 4 0.021 5 0 ·570· 智能系统学报第 14 卷

点击进入文档下载页（PDF格式）

共9页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录