第14卷第3期 智能系统学报 Vol.14 No.3 2019年5月 CAAI Transactions on Intelligent Systems May 2019 D0:10.11992/tis.201804056 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180610.2155.002.html 基于改进卷积神经网络的多标记分类算法 余鹰,王乐为,吴新念,伍国华2,张远健 (1.华东交通大学软件学院,江西南昌330013,2.中南大学交通运输工程学院,湖南长沙410000,3.同济大学 计算机科学与技术系,上海201804) 摘要:良好的特征表达是提高模型性能的关键,然而当前在多标记学习领域,特征表达依然采用人工设计的 方式,所提取的特征抽象程度不高,包含的可区分性信息不足。针对此问题,提出了基于卷积神经网络的多标 记分类模型ML_DCCNN,该模型利用卷积神经网络强大的特征提取能力,自动学习能刻画数据本质的特征。 为了解决深度卷积神经网络预测精度高,但训练时间复杂度不低的问题,ML_DCCNN利用迁移学习方法缩减 模型的训练时间,同时改进卷积神经网络的全连接层,提出双通道神经元,减少全连接层的参数量。实验表 明,与传统的多标记分类算法以及已有的基于深度学习的多标记分类模型相比.ML DCCNN保持了较高的分 类精度并有效地提高了分类效率,具有一定的理论与实际价值。 关键词:多标记学习;卷积神经网络:迁移学习;全连接层;特征表达;多标记分类:深度学习;损失函数 中图分类号:TP181文献标志码:A文章编号:1673-4785(2019)03-0566-09 中文引用格式:余鹰,王乐为,吴新念,等.基于改进卷积神经网络的多标记分类算法{J引.智能系统学报,2019,14(3): 566-574. 英文引用格式:YU Ying,.WANG Lewei,.VU Xinnian,etal.A multi-label classification algorithm based on an improved convolu tional neural network J.CAAI transactions on intelligent systems,2019,14(3):566-574. A multi-label classification algorithm based on an improved convolutional neural network YU Ying',WANG Lewei',WU Xinnian',WU Guohua',ZHANG Yuanjian' (1.College of Software Engineering,East China Jiaotong University,Nanchang 330013,China,2.College of Transportation Engin- eering,Central South University,Changsha 410000,China;3.Department of Computer Science and Technology,Tongji University, Shanghai 201804,China) Abstract:A good feature expression is the key to improve model performance.However,at present,artificially de- signed features are used for multi-label learning.Thus,the level of abstraction of the extracted features is low and lacks the discriminated information involved.To solve this problem,this paper proposes a multi-label classification model based on convolutional neural network(ML DCCNN).This model uses the powerful feature extraction capabilities of CNNs to automatically learn the features from the data.To solve the problem of high forecasting precision versus long training time of CNNs,the ML DCCNN uses the transfer learning method to reduce the training time of the model.In addition,the entire connection layer of the CNN is improved by a dual-channel neuron,which can reduce the number of parameters of the fully connected layer.The experiments show that compared with the traditional multi-label classifica- tion algorithm and existing multi-label classification model based on deep learning,the ML_DCCNN maintains high classification accuracy and can effectively improve the classification efficiency,presenting certain theoretical and prac- tical value. Keywords:multi-label learning;convolutional neural network;transfer learning;fully-connected layer;feature expres- sion;multi-label classification;deep learning;loss function 收稿日期:2018-04-26.网络出版日期:2018-06-11. 基金项目:国家自然科学基金项目(61563016,61603404,61462037, 不同于传统的单标记学习问题,多标记学习 61663002):江西省教育厅科技项目(GJJ150546):江 西省自然科学基金项目(2018BAB202023). 考虑一个对象对应多个类别标记的情况。例如: 通信作者:余鹰.E-mail:yuyingjx@163.com 一个基因可能同时具有多种功能,如新陈代谢
DOI: 10.11992/tis.201804056 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180610.2155.002.html 基于改进卷积神经网络的多标记分类算法 余鹰1 ,王乐为1 ,吴新念1 ,伍国华2 ,张远健3 (1. 华东交通大学 软件学院,江西 南昌 330013; 2. 中南大学 交通运输工程学院,湖南 长沙 410000; 3. 同济大学 计算机科学与技术系,上海 201804) 摘 要:良好的特征表达是提高模型性能的关键,然而当前在多标记学习领域,特征表达依然采用人工设计的 方式,所提取的特征抽象程度不高,包含的可区分性信息不足。针对此问题,提出了基于卷积神经网络的多标 记分类模型 ML_DCCNN,该模型利用卷积神经网络强大的特征提取能力,自动学习能刻画数据本质的特征。 为了解决深度卷积神经网络预测精度高,但训练时间复杂度不低的问题,ML_DCCNN 利用迁移学习方法缩减 模型的训练时间,同时改进卷积神经网络的全连接层,提出双通道神经元,减少全连接层的参数量。实验表 明,与传统的多标记分类算法以及已有的基于深度学习的多标记分类模型相比,ML_DCCNN 保持了较高的分 类精度并有效地提高了分类效率,具有一定的理论与实际价值。 关键词:多标记学习;卷积神经网络;迁移学习;全连接层;特征表达;多标记分类;深度学习;损失函数 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2019)03−0566−09 中文引用格式:余鹰, 王乐为, 吴新念, 等. 基于改进卷积神经网络的多标记分类算法[J]. 智能系统学报, 2019, 14(3): 566–574. 英文引用格式:YU Ying, WANG Lewei, WU Xinnian, et al. A multi-label classification algorithm based on an improved convolutional neural network[J]. CAAI transactions on intelligent systems, 2019, 14(3): 566–574. A multi-label classification algorithm based on an improved convolutional neural network YU Ying1 ,WANG Lewei1 ,WU Xinnian1 ,WU Guohua2 ,ZHANG Yuanjian3 (1. College of Software Engineering, East China Jiaotong University, Nanchang 330013, China; 2. College of Transportation Engineering, Central South University, Changsha 410000, China; 3. Department of Computer Science and Technology, Tongji University, Shanghai 201804, China) Abstract: A good feature expression is the key to improve model performance. However, at present, artificially designed features are used for multi-label learning. Thus, the level of abstraction of the extracted features is low and lacks the discriminated information involved. To solve this problem, this paper proposes a multi-label classification model based on convolutional neural network (ML_DCCNN). This model uses the powerful feature extraction capabilities of CNNs to automatically learn the features from the data. To solve the problem of high forecasting precision versus long training time of CNNs, the ML_DCCNN uses the transfer learning method to reduce the training time of the model. In addition, the entire connection layer of the CNN is improved by a dual-channel neuron, which can reduce the number of parameters of the fully connected layer. The experiments show that compared with the traditional multi-label classification algorithm and existing multi-label classification model based on deep learning, the ML_DCCNN maintains high classification accuracy and can effectively improve the classification efficiency, presenting certain theoretical and practical value. Keywords: multi-label learning; convolutional neural network; transfer learning; fully-connected layer; feature expression; multi-label classification; deep learning; loss function 不同于传统的单标记学习问题,多标记学习 考虑一个对象对应多个类别标记的情况。例如: 一个基因可能同时具有多种功能,如新陈代谢、 收稿日期:2018−04−26. 网络出版日期:2018−06−11. 基金项目:国家自然科学基金项目 (61563016, 61603404, 61462037, 61663002);江西省教育厅科技项目 (GJJ150546);江 西省自然科学基金项目 (2018BAB202023). 通信作者:余鹰. E-mail: yuyingjx@163.com. 第 14 卷第 3 期 智 能 系 统 学 报 Vol.14 No.3 2019 年 5 月 CAAI Transactions on Intelligent Systems May 2019
第3期 余鹰,等:基于改进卷积神经网络的多标记分类算法 ·567· 转录以及蛋白质合成;一首乐曲可能传达了多种 模型进行训练,使模型学得函数f:X→Y,其中 信息,如钢琴、古典音乐和莫扎特等;一幅图像可 x,∈X表示一个实例,y:∈Y表示实例x,所含有的 能同时属于多个类别,如motor、person与car 类别标记,且y为标记集合L的一个子集。训练 等。早期,多标记学习的研究主要集中于文本分 完成后,将未分类的数据输人模型,得到与实际 类中遇到的多义性问题。经过近十年的发展,多 标记最大程度接近的分类结果。 标记学习已成为当前国际机器学习领域研究的热 目前,多标记分类算法根据解决问题方式的 点问题之一,逐渐在情感分类”、图像视频语义标 不同,可归为问题转换型和算法适应型两类6。 注回、生物信息学创和个性化推荐等实际应用中 问题转换型是将多标记分类问题转化为多个单标 扮演重要的角色。随着相关应用的发展及需求的 记分类问题,如算法BR(binary relevance)m、LP(la- 不断提升,多标记学习技术的大规模应用仍然要 bel powerset))I等,然后利用单标记分类方法进行 应对很多的问题和挑战。当前在多标记学习领 处理。算法适应型则是改进已有的单标记分类算 域,特征表达大多采用人工设计的方式,如SIFT、 法,使其适应于多标记分类问题,如算法BSVM HOG等,这些特征在特定类型对象中能够达到较 (biased support vector machine)ML-KNN(multi-la- 好的识别效果,但这些算法提取的只是一些低层 belk-nearest neighbor))iol等。随着深度学习的兴 次low-level)特征,抽象程度不高,包含的可区分 起,已有一些学者开始基于深度学习研究多标记 性信息不足,对于分类来说无法提供更多有价值 分类问题,Zhang!由传统径向基函数RBF(radial 的语义信息,影响分类的精度。目前,如何让多 basis function)推导出了一种基于神经网络的多标 标记系统学会辨别底层数据中隐含的区分性因 记学习算法ML-RBF。Wang等将卷积神经网 素,自动学习更抽象和有效的特征已成为制约多 络CNN(convolutional neural network)和循环神经 标记学习研究进一步深人的瓶颈。 网络RNN(recurrent neuron network)相结合,提出 近年来,深度学习在图像分类和目标检测等 了一种多标记学习的复合型框架,用于解决多标 领域取得了突破性进展,成为目前最有效的特征 记图像分类问题,但这些算法的精度和时间复杂 自动学习方法。文献[5]将传统人工设计的特征 度都有待进一步提升。 与深度神经网络自学习的特征进行了比较,发现 。1.2卷积神经网络 后者更有助于提升图像自动标注算法的性能。深 卷积神经网络CNN是一种深度神经网络模 度学习模型具有强大的表征和建模能力,通过监 型,主要由卷积层、池化层和全连接层构成,如 督或非监督的方式,逐层自动地学习目标的特征 图1所示。卷积层负责图像特征提取,池化层用 表示,将原始数据经过一系列非线性变换,生成 于降维及实现不变形,而全连接层则起到分类器 高层次的抽象表示,避免了手工设计特征的烦琐 的作用。卷积层和池化层一般作为组合多次成对 低效。本文针对多标记学习中存在的特征抽象层 出现,也可以根据实际情况灵活使用,如AlexNet" 次不高的问题,利用包含多个隐含层的深度卷积 和VGG。 神经网络直接从原始输入中学习并构建多层的分 级特征,形成更加抽象的高层表示,实现以最少 和最有效的特征来表达原始信息。同时,针对卷 积神经网络预测精度高但运算速度慢的特点,利 输入层卷积层 下采样层 卷积层下采样层 输出层 用迁移学习和双通道神经元方法,缩减网络的参 图1卷积神经网络结构 数量,提高训练速度,在一定程度上弥补了卷积 Fig.1 Convolutional neural network structure 神经网络计算量大、速度较慢的缺陷。 相比于传统的特征提取方法,卷积神经网络 1 相关工作 不需要事先人工设定特征,而是通过网络模型从 大量数据中自动学习特征表示。通过多层非线性 1.1多标记学习 映射,逐层提取信息,最底层从像素级原始数据 为了便于叙述,在分析之前先给出多标记问 学习滤波器,刻画局部边缘和纹理特征;中层滤 题的形式化定义。令X={x,2,…,xm}代表实例 波器对各种边缘滤波器进行组合后,描述不同类 空间,L=l,2,…,g}代表所有标记的集合,Y= 型的局部特征:最高层描述整体全局特征。 y12,…,ym}代表标记空间,T={(x,y1≤i≤m代 1.3迁移学习 表训练集。多标记分类的任务就是用训练集T对 迁移学习((transfer learning)的基本思想是将
转录以及蛋白质合成;一首乐曲可能传达了多种 信息,如钢琴、古典音乐和莫扎特等;一幅图像可 能同时属于多个类别,如 motor、person 与 car 等。早期,多标记学习的研究主要集中于文本分 类中遇到的多义性问题。经过近十年的发展,多 标记学习已成为当前国际机器学习领域研究的热 点问题之一,逐渐在情感分类[1] 、图像视频语义标 注 [2] 、生物信息学[3]和个性化推荐[4]等实际应用中 扮演重要的角色。随着相关应用的发展及需求的 不断提升,多标记学习技术的大规模应用仍然要 应对很多的问题和挑战。当前在多标记学习领 域,特征表达大多采用人工设计的方式,如 SIFT、 HOG 等,这些特征在特定类型对象中能够达到较 好的识别效果,但这些算法提取的只是一些低层 次 (low-level) 特征,抽象程度不高,包含的可区分 性信息不足,对于分类来说无法提供更多有价值 的语义信息,影响分类的精度。目前,如何让多 标记系统学会辨别底层数据中隐含的区分性因 素,自动学习更抽象和有效的特征已成为制约多 标记学习研究进一步深入的瓶颈。 近年来,深度学习在图像分类和目标检测等 领域取得了突破性进展,成为目前最有效的特征 自动学习方法。文献[5]将传统人工设计的特征 与深度神经网络自学习的特征进行了比较,发现 后者更有助于提升图像自动标注算法的性能。深 度学习模型具有强大的表征和建模能力,通过监 督或非监督的方式,逐层自动地学习目标的特征 表示,将原始数据经过一系列非线性变换,生成 高层次的抽象表示,避免了手工设计特征的烦琐 低效。本文针对多标记学习中存在的特征抽象层 次不高的问题,利用包含多个隐含层的深度卷积 神经网络直接从原始输入中学习并构建多层的分 级特征,形成更加抽象的高层表示,实现以最少 和最有效的特征来表达原始信息。同时,针对卷 积神经网络预测精度高但运算速度慢的特点,利 用迁移学习和双通道神经元方法,缩减网络的参 数量,提高训练速度,在一定程度上弥补了卷积 神经网络计算量大、速度较慢的缺陷。 1 相关工作 1.1 多标记学习 X = {x1, x2,··· , xm} L = {l1,l2,··· ,lq} {y1, y2,··· , ym} T = {(xi , yi)|1 ⩽ i ⩽ m} 为了便于叙述,在分析之前先给出多标记问 题的形式化定义。令 代表实例 空间, 代表所有标记的集合,Y = 代表标记空间, 代 表训练集。多标记分类的任务就是用训练集 T 对 模型进行训练,使模型学得函数 f:X→Y,其中 xi∈X 表示一个实例,yi∈Y 表示实例 xi 所含有的 类别标记,且 yi 为标记集合 L 的一个子集。训练 完成后,将未分类的数据输入模型,得到与实际 标记最大程度接近的分类结果。 目前,多标记分类算法根据解决问题方式的 不同,可归为问题转换型和算法适应型两类[6]。 问题转换型是将多标记分类问题转化为多个单标 记分类问题,如算法 BR(binary relevance)[7] 、LP(label powerset)[8]等,然后利用单标记分类方法进行 处理。算法适应型则是改进已有的单标记分类算 法,使其适应于多标记分类问题,如算法 BSVM (biased support vector machine)[9] 、ML-KNN(multi-label k-nearest neighbor)[10]等。随着深度学习的兴 起,已有一些学者开始基于深度学习研究多标记 分类问题,Zhang[11]由传统径向基函数 RBF(radial basis function) 推导出了一种基于神经网络的多标 记学习算法 ML-RBF。Wang 等 [12]将卷积神经网 络 CNN(convolutional neural network) 和循环神经 网络 RNN(recurrent neuron network) 相结合,提出 了一种多标记学习的复合型框架,用于解决多标 记图像分类问题,但这些算法的精度和时间复杂 度都有待进一步提升。 1.2 卷积神经网络 卷积神经网络 CNN 是一种深度神经网络模 型,主要由卷积层、池化层和全连接层构成,如 图 1 所示。卷积层负责图像特征提取,池化层用 于降维及实现不变形,而全连接层则起到分类器 的作用。卷积层和池化层一般作为组合多次成对 出现,也可以根据实际情况灵活使用,如 AlexNet[13] 和 VGG[14]。 输入层 卷积层 卷积层 下采样层 下采样层 输出层 图 1 卷积神经网络结构 Fig. 1 Convolutional neural network structure 相比于传统的特征提取方法,卷积神经网络 不需要事先人工设定特征,而是通过网络模型从 大量数据中自动学习特征表示。通过多层非线性 映射,逐层提取信息,最底层从像素级原始数据 学习滤波器,刻画局部边缘和纹理特征;中层滤 波器对各种边缘滤波器进行组合后,描述不同类 型的局部特征;最高层描述整体全局特征。 1.3 迁移学习 迁移学习 (transfer learning) 的基本思想是将 第 3 期 余鹰,等:基于改进卷积神经网络的多标记分类算法 ·567·
·568· 智能系统学报 第14卷 从一个环境中学到的知识用于新环境中的学习 拆分成两个较小的一维卷积核,例如将3×3的卷 任务。 积核分解成1×3和3×1两个卷积核。这种非对 目前,迁移学习已被广泛应用于各个领域,例 称的拆分方式减少了网络参数量,降低了过拟合 如,在文档分类方面,Dai等提出联合聚类的方 风险,可以保证对ImageNet之外的数据集具有很 法,通过不同领域共享相同的词特征进行知识迁 好的泛化性能。 移;在智能规划中,Zhuo等1o提出一种新的迁移 为了进一步减少全连接层参数数量,本文对 学习框架TRAMP,通过建立源领域与目标领域之 Inception V3模型的全连接层进行改进,引入双通 间的结构映射来迁移知识,获取人工智能规划中 道神经元,优化网络结构,并结合迁移学习提出 的动作模型。 了多标记分类模型ML DCCNN。最后,将全连接 层的输出送入SoftMax分类器,从而得到各标记 2基于改进CNN的多标记分类算法 的预测概率,然后根据各标记的概率计算多标记 分类损失函数。 2.1算法框架 在反向传播时,保留Inception V3模型的特征 由于图像传递信息的底层机制相通,因此可 提取层,即固定特征提取层的权重和偏置参数, 以利用迁移学习,将在源域上训练好的网络模 并用神经元个数为20的全连接层替换原有全连 型,通过共享网络参数,使之在目标域上也具有 接层,设置该层的初始权重和偏置为0,学习率设 一定的特征提取能力。本文采用在ImageNet数 置为0.001,batchsize设置为100。然后,使用随机 据集上训练好的Inception V3I8模型进行图像特 梯度下降算法,用PASCAL Visual Object Classes 征提取。该模型引入了“Factorization into small Challenge(VOC)数据集Iu对网络参数进行微调, convolutions'”的思想,将一个较大的二维卷积核 使其适应于新数据集,算法的具体流程如图2所示。 ImageNet 双通道 源域 神经元 迁 优 针对多 分类器 标记分类 优化器 移 化 选 Inception V3 定 选 模型 择 义 择 替换 多标记输入 固化特征 :全连接层 损失函数 随机梯度 达到训练 Y 最终 图片 提取层 下降算法 次数 输出模型参数 N 调 下一次训练 图2基于改进CNN的多标记分类算法框架 Fig.2 Multi-label classification algorithm framework based on improved convolution neural network 2.2双通道神经元 息的神经元称为普通神经元,如图3(a)所示,全 在卷积神经网络中,卷积、池化和激活函数 连接层中最后一层的神经元个数和具体分类问题 等操作将原始数据映射到隐层特征空间,全连接 的标记总数相等,如某数据集上共有n种标记, 层则将学到的分布式特征表示映射到标记空间, 则最后一层全连接层上的神经元个数为n。 即全连接层在整个卷积神经网络中起到了“分类 本文将可以接受两种标记特征信息的神经元 器”的作用。但全连接层上往往包含大量参数,对 称为双通道神经元。一个双通道神经元相当于两 整个网络的速度有一定影响。虽然FCN20全卷积 个普通神经元的合并,它改进了全连接层,有效 模型取消了全连接层,避免了全连接层的副作 地减少了该层的参数。在接受到特征信息后,为 用,但是在Zhang等2的研究中,全连接层能够在 了能将合并的标记区分,使用双通道的神经元, 模型表示能力迁移过程中充当“防火墙”的作用, 需在其后再连接两个神经元,分别表示对应的标 保证模型表示能力的迁移。因此为了能够在保留 记,并规定所连接的两个神经元上的权重分别为 全连接层的基础上,减少网络参数,本文提出了 1和-1,如图3b)所示。 双通道神经元的概念。 在图3(a)中,假设分类标记数为n,全连层输 2.2.1基本结构 入为m,则权重参数有m×n个,偏置参数有n个, 本文将全连接层中只能接受一种标记特征信 总参数有m×n+n个
从一个环境中学到的知识用于新环境中的学习 任务。 目前,迁移学习已被广泛应用于各个领域,例 如,在文档分类方面,Dai 等 [15]提出联合聚类的方 法,通过不同领域共享相同的词特征进行知识迁 移;在智能规划中,Zhuo 等 [16]提出一种新的迁移 学习框架 TRAMP,通过建立源领域与目标领域之 间的结构映射来迁移知识,获取人工智能规划中 的动作模型。 2 基于改进 CNN 的多标记分类算法 2.1 算法框架 由于图像传递信息的底层机制相通,因此可 以利用迁移学习,将在源域上训练好的网络模 型,通过共享网络参数,使之在目标域上也具有 一定的特征提取能力。本文采用在 ImageNet[17]数 据集上训练好的 Inception V3[18]模型进行图像特 征提取。该模型引入了“Factorization into small convolutions”的思想,将一个较大的二维卷积核 3×3 1×3 3×1 拆分成两个较小的一维卷积核,例如将 的卷 积核分解成 和 两个卷积核。这种非对 称的拆分方式减少了网络参数量,降低了过拟合 风险,可以保证对 ImageNet 之外的数据集具有很 好的泛化性能。 为了进一步减少全连接层参数数量,本文对 Inception V3 模型的全连接层进行改进,引入双通 道神经元,优化网络结构,并结合迁移学习提出 了多标记分类模型 ML_DCCNN。最后,将全连接 层的输出送入 SoftMax 分类器,从而得到各标记 的预测概率,然后根据各标记的概率计算多标记 分类损失函数。 在反向传播时,保留 Inception V3 模型的特征 提取层,即固定特征提取层的权重和偏置参数, 并用神经元个数为 20 的全连接层替换原有全连 接层,设置该层的初始权重和偏置为 0,学习率设 置为 0.001,batchsize 设置为 100。然后,使用随机 梯度下降算法,用 PASCAL Visual Object Classes Challenge(VOC) 数据集[19]对网络参数进行微调, 使其适应于新数据集,算法的具体流程如图 2 所示。 ImageNet 源域 双通道 神经元 迁 移 优 化 输入 微 调 选 择 选 择 定 义 下一次训练 多标记 图片 Inception V3 模型 固化特征 提取层 替换 全连接层 SoftMax 分类器 针对多 标记分类 损失函数 优化器 随机梯度 下降算法 达到训练 次数 最终 模型参数 Y 输出 N 图 2 基于改进 CNN 的多标记分类算法框架 Fig. 2 Multi-label classification algorithm framework based on improved convolution neural network 2.2 双通道神经元 在卷积神经网络中,卷积、池化和激活函数 等操作将原始数据映射到隐层特征空间,全连接 层则将学到的分布式特征表示映射到标记空间, 即全连接层在整个卷积神经网络中起到了“分类 器”的作用。但全连接层上往往包含大量参数,对 整个网络的速度有一定影响。虽然 FCN[20]全卷积 模型取消了全连接层,避免了全连接层的副作 用,但是在 Zhang 等 [21]的研究中,全连接层能够在 模型表示能力迁移过程中充当“防火墙”的作用, 保证模型表示能力的迁移。因此为了能够在保留 全连接层的基础上,减少网络参数,本文提出了 双通道神经元的概念。 2.2.1 基本结构 本文将全连接层中只能接受一种标记特征信 n n 息的神经元称为普通神经元,如图 3(a) 所示,全 连接层中最后一层的神经元个数和具体分类问题 的标记总数相等,如某数据集上共有 种标记, 则最后一层全连接层上的神经元个数为 。 本文将可以接受两种标记特征信息的神经元 称为双通道神经元。一个双通道神经元相当于两 个普通神经元的合并,它改进了全连接层,有效 地减少了该层的参数。在接受到特征信息后,为 了能将合并的标记区分,使用双通道的神经元, 需在其后再连接两个神经元,分别表示对应的标 记,并规定所连接的两个神经元上的权重分别为 1 和−1,如图 3(b) 所示。 n m m×n n m×n+n 在图 3(a) 中,假设分类标记数为 ,全连层输 入为 ,则权重参数有 个,偏置参数有 个, 总参数有 个。 ·568· 智 能 系 统 学 报 第 14 卷
第3期 余鹰,等:基于改进卷积神经网络的多标记分类算法 ·569· ception V3模型的输入m为2048,输出标记n为 20,所以在m远大于n前提下,使用双通道神经 元最多可缩减一半参数,如公式(1)所示: 10m+10d+e)+24≤1 (1) (m+1)n 式中:m岁n;n=2d+e。 2.2.2核心思想 打包和解包是双通道神经元的核心思想。打 包主要表现在将两种标记合二为一在一个神经元 1=2d+ (a)普通神经元 (b)双通道神经元 上,即最后一层全连接层上的每个神经元可以表 示两种标记,接受两种标记的特征信息。例如: 图3全连接层 Fig.3 Fully connected layer 将飞机和自行车这两种标签打包在一起,由一个 在图3(b)中,假设全连接层有d个双通道神 神经元负责输出,则该神经元上的权重只对飞机 经元和e个不使用双通道的神经元。在同样假设 和自行车的特征信息敏感。但仅用一个神经元输 条件下,该层权重参数为m×(d+e)+2d个,偏置 出,存在无法判别输出是飞机还是自行车的情 参数为d+e个,总参数为m+l)×(d+e)+2d个。 况,因此需要解包思想,主要表现在一个神经元 一般情况下,输人值m远大于输出值n,例如In- 又“分裂”出两个神经元,具体如图4所示。 图4打包与解包示意 Fig.4 Package and unpack diagram 图4左边为普通全连接层的神经元,每个神 中,得出图片含有各标记的概率,例如图片x,含 经元仅对一种标记特征信息敏感,如上方神经元 有标记l的概率: 仅对飞机特征信息敏感,下方神经元仅对自行车 exp(f(x)) Pu=- (2) 特征信息敏感。图4右边使用了双通道神经元, ∑exp(f(x,) 每个神经元对两种类别的特征信息敏感,例如同 式中:fx)表示图片x,对应标记的激活值,q 时对飞机和自行车的特征信息敏感,在提取出飞 表示数据集的标记总数。经过SoftMax分类器输 机和自行车的特征后,再分裂出两个神经元分别 出各标记概率后,定义交叉熵损失函数: 代表对应的标记,其中权重为1的代表飞机,权重 Piilog(Pii) (3) 为-1的代表自行车。 i=l i=l 2.3损失函数 式中:两表示图片x是否含有标记:当图片x含 设D={(x,yi=1,2,…,m代表具有n个样本 有标记时,西值为二,当图片x,不含有标记 的训练集,其中x=[xHx2…d是第i个样本的d j时,值为0,如式(4): 维特征向量,y,=Dy2yJ是第i个样本的标记 1 向量,其维度q与数据集标记总数相等,=1表 Py= 财=1 (4) 示x含有标签,y=0则表示不含有。 0 %=0 SoftMax分类器不仅可以用于处理单标记分 由式(3)和式(4)可以推导出: 类问题,也可以用于处理多标记分类问题。本文 J=-22上1g (5) 将最后一层全连接层的输出送入SoftMax分类器 : 1=1
… … … … … m n … … … … m d+e n=2d+e e 1 d 1 1 1 −1 −1 (a) 普通神经元 (b) 双通道神经元 图 3 全连接层 Fig. 3 Fully connected layer d m×(d +e)+2d (m+1)×(d +e)+2d m n 在图 3(b) 中,假设全连接层有 个双通道神 经元和 e 个不使用双通道的神经元。在同样假设 条件下,该层权重参数为 个,偏置 参数为 d+e 个,总参数为 个。 一般情况下,输入值 远大于输出值 ,例如 Inm n m n ception V3 模型的输入 为 2 048,输出标记 为 20,所以在 远大于 前提下,使用双通道神经 元最多可缩减一半参数,如公式 (1) 所示: 1 2 ⩽ (m+1) (d +e)+2d (m+1)n ⩽ 1 (1) 式中:m ≫ n;n = 2d +e。 2.2.2 核心思想 打包和解包是双通道神经元的核心思想。打 包主要表现在将两种标记合二为一在一个神经元 上,即最后一层全连接层上的每个神经元可以表 示两种标记,接受两种标记的特征信息。例如: 将飞机和自行车这两种标签打包在一起,由一个 神经元负责输出,则该神经元上的权重只对飞机 和自行车的特征信息敏感。但仅用一个神经元输 出,存在无法判别输出是飞机还是自行车的情 况,因此需要解包思想,主要表现在一个神经元 又“分裂”出两个神经元,具体如图 4 所示。 … … … … … … … −1 1 图 4 打包与解包示意 Fig. 4 Package and unpack diagram 图 4 左边为普通全连接层的神经元,每个神 经元仅对一种标记特征信息敏感,如上方神经元 仅对飞机特征信息敏感,下方神经元仅对自行车 特征信息敏感。图 4 右边使用了双通道神经元, 每个神经元对两种类别的特征信息敏感,例如同 时对飞机和自行车的特征信息敏感,在提取出飞 机和自行车的特征后,再分裂出两个神经元分别 代表对应的标记,其中权重为 1 的代表飞机,权重 为−1 的代表自行车。 2.3 损失函数 D = {(xi , yi)|i = 1,2,··· ,n} n xi = [xi1 xi2 ··· xid] i d yi = [yi1 yi2 ··· yiq] i q yi j = 1 lj yi j = 0 设 代表具有 个样本 的训练集,其中 是第 个样本的 维特征向量, 是第 个样本的标记 向量,其维度 与数据集标记总数相等, 表 示 xi 含有标签 , 则表示不含有。 SoftMax 分类器不仅可以用于处理单标记分 类问题,也可以用于处理多标记分类问题。本文 将最后一层全连接层的输出送入 SoftMax 分类器 lj 中,得出图片含有各标记的概率,例如图片 xi 含 有标记 的概率: pi j= exp(fj(xi)) ∑c k=1 exp(fk(xi)) (2) l 式中:fj (xi ) 表示图片 xi 对应标记 j 的激活值, q 表示数据集的标记总数。经过 SoftMax 分类器输 出各标记概率后,定义交叉熵损失函数: J = − ∑n i=1 ∑q j=1 pi j log(pi j) (3) pi j pi j 1 c+ pi j 式中: 表示图片 xi 是否含有标记 j;当图片 xi 含 有 j 标记时, 值为 ,当图片 xi 不含有标记 j 时, 值为 0,如式 (4): pi j= 1 c+ , yi j = 1 0, yi j = 0 (4) 由式 (3) 和式 (4) 可以推导出: J = − ∑n i=1 ∑c+ j=1 1 c+ log(pi j) (5) 第 3 期 余鹰,等:基于改进卷积神经网络的多标记分类算法 ·569·
·570 智能系统学报 第14卷 式中:n表示一个Batch上的图片数量;c+表示图 表1标签合并方式 片x,上正标记的总个数。 Table 1 Label merging mode 序号 标签1 标签2 3实验与分析 1 plane bike 本文实验在处理器为i5-3210M的Windows 2 bird boat PC机上完成,基于TensorFlow1.2.1实现卷积神 3 bottle bus 经网络,采用了PASCAL VOC2007和PASCAL V0C2012两个多标记数据集,二者均含有20个 4 car cat 类别标记。PASCAL VOC2007数据集共有9963 5 chair cow 张图片,其中训练验证集有5011张,测试集有4952 6 table dog 张,PASCAL VOC2012共有33260张图片,其中 7 horse motor 训练验证集有17125张,测试集有16135张。 为了验证双通道神经元的可用性,本文对普 8 person plant 通全连接层结构和采用双通道神经元的全连层结 9 sheep sofa 构的分类效果进行了比较,其中双通道神经元的 10 train Tv 标签两两合并方式如表1所示。表2显示了 PASCAL VOC数据集中的一个多标记图像(如 表2使用两种全连接层的分类结果比较 图5)分别使用普通全连接层和包含10个双通道 Table 2 Result comparison of two fully connected layers 神经元的全连层在训练2000步时,softmax分类 标签 FC DC GT 器的输出值,其中,FC表示普通全连接层, motor 0.3127 0.3374 DC(Dual Channel)表示双通道神经元全连接层, GT表示ground_truth.。DC所用d值为l0,即 person 0.2064 0.1839 10个双通道神经元结构。表3为训练了5000次 car 0.0967 0.0789 的普通全连接层FC和使用10个双通道神经元的 dog 0.0377 0.0430 0 全连接层DC在100张图片上每个标记soft- max的平均输出值,其中NUM表示在l00张图片 bird 0.0311 0.0370 0 上每个标记出现的总数,出现次数最多的标记分 cat 0.0301 0.0089 0 别为person和car,可以看出两种全连接层在这两 bike 0.0275 0.0316 0 个标记上所对应的softmax也最大,且很接近。 由表2和表3可知,在使用10个双通道神经元 plant 0.0247 0.0038 0 时,全连接层参数缩减了近一半,但网络仍能准 train 0.0245 0.0343 0 确识别出多标记图片中的物体类别,且soft max分类器的输出值与普通全连接层相近,在 chair 0.0238 0.0328 0 定程度上证明了双通道神经元的可用性。 plane 0.0219 0.0223 bus 0.0215 0.0300 0 bottle 0.0212 0.0235 0 horse 0.0206 0.0021 0 TV 0.0197 0.0205 0 sofa 0.0180 0.0257 0 boat 0.0165 0.0190 0 sheep 0.0161 0.0274 0 table 0.0149 0.0164 0 图5多标记图像 cow 0.0144 0.0215 0 Fig.5 Multi-label image
式中:n 表示一个 Batch 上的图片数量;c+表示图 片 xi 上正标记的总个数。 3 实验与分析 本文实验在处理器为 i5-3210M 的 Windows PC 机上完成,基于 TensorFlow 1.2.1 实现卷积神 经网络,采用了 PASCAL VOC2007 和 PASCAL VOC2012 两个多标记数据集,二者均含有 20 个 类别标记。PASCAL VOC2007 数据集共有 9 963 张图片,其中训练验证集有 5 011 张,测试集有 4 952 张,PASCAL VOC2012 共有 33 260 张图片,其中 训练验证集有 17 125 张,测试集有 16 135 张。 d 为了验证双通道神经元的可用性,本文对普 通全连接层结构和采用双通道神经元的全连层结 构的分类效果进行了比较,其中双通道神经元的 标签两两合并方式如 表 1 所示。 表 2 显 示 了 PASCAL VOC 数据集中的一个多标记图像 (如 图 5) 分别使用普通全连接层和包含 10 个双通道 神经元的全连层在训练 2 000 步时,softmax 分类 器的输出值,其中, F C 表示普通全连接层, DC(Dual_Channel) 表示双通道神经元全连接层, GT 表示 ground_truth。DC 所用 值为 10,即 10 个双通道神经元结构。表 3 为训练了 5 000 次 的普通全连接层 FC 和使用 10 个双通道神经元的 全连接层 DC 在 100 张图片上每个标记 softmax 的平均输出值,其中 NUM 表示在 100 张图片 上每个标记出现的总数,出现次数最多的标记分 别为 person 和 car,可以看出两种全连接层在这两 个标记上所对应的 softmax 也最大,且很接近。 由表 2 和表 3 可知,在使用 10 个双通道神经元 时,全连接层参数缩减了近一半,但网络仍能准 确识别出多标记图片中的物体类别, 且 softmax 分类器的输出值与普通全连接层相近,在一 定程度上证明了双通道神经元的可用性。 图 5 多标记图像 Fig. 5 Multi-label image 表 1 标签合并方式 Table 1 Label merging mode 序号 标签 1 标签 2 1 plane bike 2 bird boat 3 bottle bus 4 car cat 5 chair cow 6 table dog 7 horse motor 8 person plant 9 sheep sofa 10 train TV 表 2 使用两种全连接层的分类结果比较 Table 2 Result comparison of two fully connected layers 标签 FC DC GT motor 0.312 7 0.337 4 1 person 0.206 4 0.183 9 1 car 0.096 7 0.078 9 1 dog 0.037 7 0.043 0 0 bird 0.031 1 0.037 0 0 cat 0.030 1 0.008 9 0 bike 0.027 5 0.031 6 0 plant 0.024 7 0.003 8 0 train 0.024 5 0.034 3 0 chair 0.023 8 0.032 8 0 plane 0.021 9 0.022 3 0 bus 0.021 5 0.030 0 0 bottle 0.021 2 0.023 5 0 horse 0.020 6 0.002 1 0 TV 0.019 7 0.020 5 0 sofa 0.018 0 0.025 7 0 boat 0.016 5 0.019 0 0 sheep 0.016 1 0.027 4 0 table 0.014 9 0.016 4 0 cow 0.014 4 0.021 5 0 ·570· 智 能 系 统 学 报 第 14 卷