当前位置：和泉文库 > 电气与自动化 > 浏览文档

【知识工程】基于注意力融合的图像描述生成方法

文件格式：PDF，文件大小：3.45MB，售价：3.9元

文档详细内容（约10页）

第15卷第4期智能系统学报 Vol.15 No.4 2020年7月 CAAI Transactions on Intelligent Systems Jul.2020 D0L:10.11992tis.201910039 基于注意力融合的图像描述生成方法莫宏伟，田朋 (哈尔滨工程大学自动化学院，黑龙江哈尔滨150001) 摘要：空间注意力机制和高层语义注意力机制都能够提升图像描述的效果，但是通过直接划分卷积神经网络提取图像空间注意力的方式不能准确地提取图像中目标对应的特征。为了提高基于注意力的图像描述效果，提出了一种基于注意力融合的图像描述模型，使用Faster R-CNN(faster region with convolutional neural network) 作为编码器在提取图像特征的同时可以检测出目标的准确位置和名称属性特征，再将这些特征分别作为高层语义注意力和空间注意力来指导单词序列的生成。在COCO数据集上的实验结果表明，基于注意力融合的图像描述模型的性能优于基于空间注意力的图像描述模型和多数主流的图像描述模型。在使用交叉嫡训练方法的基础上，使用强化学习方法直接优化图像描述评价指标对模型进行训练，提升了基于注意力融合的图像描述模型的准确率。关键词：图像描述；卷积神经网络；空间注意力：Faster R-CNN:注意力机制；名称属性；高层语义；强化学习中图分类号：TP181文献标志码：A文章编号：1673-4785(2020)04-0740-10 中文引用格式：莫宏伟，田朋.基于注意力融合的图像描述生成方法J.智能系统学报，2020,15(4)：740-749. 英文引用格式：MO Hongwei,,TIAN Peng.An image caption generation method based on attention fusion.CAAI transactions on intelligent systems,2020,15(4):740-749. An image caption generation method based on attention fusion MO Hongwei,TIAN Peng (College of Automation,Harbin Engineering University,Harbin 150001,China) Abstract:The spatial attention mechanism and the high-level semantic attention mechanism can improve the effect of image captioning,but the method for extracting the spatial attention of image by directly dividing the convolutional neural network cannot accurately extract the features corresponding to target in the image.In order to improve the effect of image captioning based on attention,this paper proposes an image caption model based on attention fusion,using Faster R-CNN(faster region with convolutional neural network)as an encoder to exect image features and simultan- eously detect the features of accurate position and noun attribute of the target object,then those features as high-level se- mantic attention and spatial attention respectively to guide the generation of word sequence.The experimental results on COCO dataset show that the performance of the image caption model based on attention fusion outperforms the image caption models based on spatial attention and most mainstream image caption models.Based on the cross entropy train- ing method,we use reinforcement learning method to directly optimize the image caption evaluation index to train the model,which significantly improves the accuracy of the image caption model based on attention fusion. Keywords:image caption;convolutional neural network;spatial attention;Faster R-CNN;attention mechanism;noun attribute:high-level semantic;reinforcement learning 图像描述是计算机视觉和自然语言处理的交点和难点问题。图像描述是让计算机生成给定叉学科，也是当前人工智能领域中研究的一个热图像内容的文字性表述，相比于图像分类和目标收稿日期：2019-10-29. 检测识别等视觉任务，图像描述不仅需要检测识基金项目：国家重点研发计划新一代人工智能重大专项别出图像中的物体和关系，还需要使用自然语言 (2018AAA0102702). 通信作者：莫宏伟.E-mail:honwei2004@126.com. 将图像的主要语义信息进行准确地表述

DOI: 10.11992/tis.201910039 基于注意力融合的图像描述生成方法莫宏伟，田朋（哈尔滨工程大学自动化学院，黑龙江哈尔滨 150001）摘要：空间注意力机制和高层语义注意力机制都能够提升图像描述的效果，但是通过直接划分卷积神经网络提取图像空间注意力的方式不能准确地提取图像中目标对应的特征。为了提高基于注意力的图像描述效果，提出了一种基于注意力融合的图像描述模型，使用 Faster R-CNN（faster region with convolutional neural network）作为编码器在提取图像特征的同时可以检测出目标的准确位置和名称属性特征，再将这些特征分别作为高层语义注意力和空间注意力来指导单词序列的生成。在 COCO 数据集上的实验结果表明，基于注意力融合的图像描述模型的性能优于基于空间注意力的图像描述模型和多数主流的图像描述模型。在使用交叉熵训练方法的基础上，使用强化学习方法直接优化图像描述评价指标对模型进行训练，提升了基于注意力融合的图像描述模型的准确率。关键词：图像描述；卷积神经网络；空间注意力；Faster R-CNN；注意力机制；名称属性；高层语义；强化学习中图分类号：TP181 文献标志码：A 文章编号：1673−4785(2020)04−0740−10 中文引用格式：莫宏伟, 田朋. 基于注意力融合的图像描述生成方法 [J]. 智能系统学报, 2020, 15(4): 740–749. 英文引用格式：MO Hongwei, TIAN Peng. An image caption generation method based on attention fusion[J]. CAAI transactions on intelligent systems, 2020, 15(4): 740–749. An image caption generation method based on attention fusion MO Hongwei，TIAN Peng (College of Automation, Harbin Engineering University, Harbin 150001, China) Abstract: The spatial attention mechanism and the high-level semantic attention mechanism can improve the effect of image captioning, but the method for extracting the spatial attention of image by directly dividing the convolutional neural network cannot accurately extract the features corresponding to target in the image. In order to improve the effect of image captioning based on attention, this paper proposes an image caption model based on attention fusion, using Faster R-CNN (faster region with convolutional neural network) as an encoder to exect image features and simultaneously detect the features of accurate position and noun attribute of the target object, then those features as high-level semantic attention and spatial attention respectively to guide the generation of word sequence. The experimental results on COCO dataset show that the performance of the image caption model based on attention fusion outperforms the image caption models based on spatial attention and most mainstream image caption models. Based on the cross entropy training method, we use reinforcement learning method to directly optimize the image caption evaluation index to train the model, which significantly improves the accuracy of the image caption model based on attention fusion. Keywords: image caption; convolutional neural network; spatial attention; Faster R-CNN; attention mechanism; noun attribute; high-level semantic; reinforcement learning 图像描述是计算机视觉和自然语言处理的交叉学科，也是当前人工智能领域中研究的一个热点和难点问题[1]。图像描述是让计算机生成给定图像内容的文字性表述，相比于图像分类和目标检测识别等视觉任务，图像描述不仅需要检测识别出图像中的物体和关系，还需要使用自然语言将图像的主要语义信息进行准确地表述[2]。收稿日期：2019−10−29. 基金项目：国家重点研发计划新一代人工智能重大专项 ( 2018AAA0102702). 通信作者：莫宏伟. E-mail：honwei2004@126.com.. 第 15 卷第 4 期智能系统学报 Vol.15 No.4 2020 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2020

第4期莫宏伟，等：基于注意力融合的图像描述生成方法 ·741· 人类获取外部世界信息主要是通过视觉系进一步提高模型的性能。统，人类大脑的注意力机制能从环境中选择出感 1 兴趣的目标区域，并重点关注这些目标区域的相相关研究关信息。受此启发，研究人员成功地将注意力机图像描述涉及计算机视觉与自然语言处理两制应用于机器翻译和图像描述等诸多深度学习任个研究领域，近年来成为深度学习中的研究热点。务中B 图像描述的方法可以分为三大类：基于模板的方在基于编码解码结构的图像描述模型中，卷法、基于检索的方法和基于编码解码结构的方法。积神经网络作为编码器将图像的主要特征提取为早期的图像描述研究主要是基于模板的方一个固定大小的特征向量，长短期记忆网络作为法，该方法首先检测出图像中的物体及其属性等解码器利用该特征向量生成描述文本561。长短关键信息，然后将这些信息通过特定的模板、语期记忆网络沿着时间展开，其网络中包含的图像言模型或句法模型生成对应的描述。Farhadi等图特征信息会逐渐减少，而且一次将全部特征信息将图像中的物体、动作和场景检测出来，形成对送入到解码器中，这不能使解码器充分地利用特应的三元组，根据模型信息生成描述；Girish等例征信息，因此该模型无法取得非常好的描述效果。使用检测器识别图像中的物体、物体属性和相互在基于注意力机制的图像描述模型中，卷积关系，然后使用条件随机场预测标签，最后使用神经网络将提取的图像特征按照图像的空间位置文本语料库生成图像的描述；Li等o将图像中物划分为一定数量的局部特征向量，注意力机制根体的相关信息表示为关系短语，通过语言模型将据长短期记忆网络的隐藏状态从图像局部特征向短语组合生成描述语句。量集合中动态选择与当前时刻生成单词有关的图基于模板的方法生成描述的质量依赖于特征像局部特征来指导当前时刻单词的生成。使用注提取部分的性能和模板的设定，由于使用的模板意力机制改进的图像描述模型能够充分地利用图是固定的，其生成的描述虽然能够包含图像的主像的特征信息，显著地提升了模型生成描述的效果口要语义信息，但其描述格式单调，表达生硬，效果然而使用固定值均匀地划分图像获取空间注并不理想。意力的方法存在着注意力不精确的问题，分割出基于检索的方法将图像描述问题转化成图像来的图像区域一般与目标的大小不符，不利于单检索问题，在提取图像特征信息后通过相似度量词序列的生成。为了解决基于空间注意力机制存算法来比较图像之间的相似度，然后利用数据集在的不能准确选取目标对应特征的问题，本文提中相似图像的描述经过合理地组织生成新的描出了一种基于空间注意力和高层语义注意力融合述。Polina等在图像数据集中检索出与要描述的图像描述模型，使用具有卷积神经网络的快速图像相似的图像，将这些图像对应的描述文本通区域目标检测模型(faster region with convolutional 过随机树形结构算法提取出词组以生成图像的描 neural network,Faster R-CNN)作为图像描述模型述语句。Yashaswi等使用图像的视觉特征作的编码器，使用高层语义注意力机制在提取图像为衡量图像相似度的指标，将与要描述图像相似特征的同时检测图像中的物体和显著视觉区域的的描述文本分解成短语，通过图像的相似性等指位置和名称属性，将位置特征和名称属性特征分标确定最优描述。Jacob等]使用视觉几何组网别作为空间注意力机制和高层语义注意力机制的络(visual geometry group network,VGG)模型提输入，从而提高图像描述的准确性。取图像特征，使用KNN9找到与描述图像相似的本文的主要贡献如下：图像以确定目标图像的描述。 1)针对空间注意力机制中存在的注意力不精基于检索的方法将图像描述看作是一种检索确的问题，提出使用Faster R-CNN作为编码器对任务，其性能依赖于标注的图像数据集的大小和空间注意力机制进行改进，提高空间注意力机制检索算法的准确程度，该方法过于依赖描述数据的精度；集，所生成的图像描述局限于数据集中的描述。 2)提出一种融合空间注意力与高层语义注意基于编码解码结构的图像描述模型使用卷积力的注意力机制，在提取图像特征的同时检测出神经网络作为编码器提取图像特征向量，使用循图像中目标的准确位置和名称属性特征以指导单环神经网络作为解码器，根据提取到的图像特征词的生成：向量来生成图像对应的描述文本。 3)使用强化学习方法训练基于注意力融合的 Mao等16首先提出编码解码结构的图像描述图像描述模型，提升模型在评价指标上的得分，模型m-RNN,使用卷积神经网络将图像转化成特

人类获取外部世界信息主要是通过视觉系统，人类大脑的注意力机制能从环境中选择出感兴趣的目标区域，并重点关注这些目标区域的相关信息。受此启发，研究人员成功地将注意力机制应用于机器翻译和图像描述等诸多深度学习任务中[3-4]。在基于编码解码结构的图像描述模型中，卷积神经网络作为编码器将图像的主要特征提取为一个固定大小的特征向量，长短期记忆网络作为解码器利用该特征向量生成描述文本[5-6]。长短期记忆网络沿着时间展开，其网络中包含的图像特征信息会逐渐减少，而且一次将全部特征信息送入到解码器中，这不能使解码器充分地利用特征信息，因此该模型无法取得非常好的描述效果。在基于注意力机制的图像描述模型中，卷积神经网络将提取的图像特征按照图像的空间位置划分为一定数量的局部特征向量，注意力机制根据长短期记忆网络的隐藏状态从图像局部特征向量集合中动态选择与当前时刻生成单词有关的图像局部特征来指导当前时刻单词的生成。使用注意力机制改进的图像描述模型能够充分地利用图像的特征信息，显著地提升了模型生成描述的效果[7]。然而使用固定值均匀地划分图像获取空间注意力的方法存在着注意力不精确的问题，分割出来的图像区域一般与目标的大小不符，不利于单词序列的生成。为了解决基于空间注意力机制存在的不能准确选取目标对应特征的问题，本文提出了一种基于空间注意力和高层语义注意力融合的图像描述模型，使用具有卷积神经网络的快速区域目标检测模型（faster region with convolutional neural network, Faster R-CNN）作为图像描述模型的编码器，使用高层语义注意力机制在提取图像特征的同时检测图像中的物体和显著视觉区域的位置和名称属性，将位置特征和名称属性特征分别作为空间注意力机制和高层语义注意力机制的输入，从而提高图像描述的准确性。本文的主要贡献如下： 1) 针对空间注意力机制中存在的注意力不精确的问题，提出使用 Faster R-CNN 作为编码器对空间注意力机制进行改进，提高空间注意力机制的精度； 2) 提出一种融合空间注意力与高层语义注意力的注意力机制，在提取图像特征的同时检测出图像中目标的准确位置和名称属性特征以指导单词的生成； 3) 使用强化学习方法训练基于注意力融合的图像描述模型，提升模型在评价指标上的得分，进一步提高模型的性能。 1 相关研究图像描述涉及计算机视觉与自然语言处理两个研究领域，近年来成为深度学习中的研究热点。图像描述的方法可以分为三大类：基于模板的方法、基于检索的方法和基于编码解码结构的方法。早期的图像描述研究主要是基于模板的方法，该方法首先检测出图像中的物体及其属性等关键信息，然后将这些信息通过特定的模板、语言模型或句法模型生成对应的描述。Farhadi 等 [8] 将图像中的物体、动作和场景检测出来，形成对应的三元组，根据模型信息生成描述；Girish 等 [9] 使用检测器识别图像中的物体、物体属性和相互关系，然后使用条件随机场预测标签，最后使用文本语料库生成图像的描述；Li 等 [10] 将图像中物体的相关信息表示为关系短语，通过语言模型将短语组合生成描述语句。基于模板的方法生成描述的质量依赖于特征提取部分的性能和模板的设定，由于使用的模板是固定的，其生成的描述虽然能够包含图像的主要语义信息，但其描述格式单调，表达生硬，效果并不理想。基于检索的方法将图像描述问题转化成图像检索问题，在提取图像特征信息后通过相似度量算法来比较图像之间的相似度，然后利用数据集中相似图像的描述经过合理地组织生成新的描述。Polina 等 [11] 在图像数据集中检索出与要描述图像相似的图像，将这些图像对应的描述文本通过随机树形结构算法提取出词组以生成图像的描述语句。Yashaswi 等 [12] 使用图像的视觉特征作为衡量图像相似度的指标，将与要描述图像相似的描述文本分解成短语，通过图像的相似性等指标确定最优描述。Jacob 等 [13] 使用视觉几何组网络（visual geometry group network, VGG）模型[14] 提取图像特征，使用 KNN[15] 找到与描述图像相似的图像以确定目标图像的描述。基于检索的方法将图像描述看作是一种检索任务，其性能依赖于标注的图像数据集的大小和检索算法的准确程度，该方法过于依赖描述数据集，所生成的图像描述局限于数据集中的描述。基于编码解码结构的图像描述模型使用卷积神经网络作为编码器提取图像特征向量，使用循环神经网络作为解码器，根据提取到的图像特征向量来生成图像对应的描述文本。 Mao 等 [16] 首先提出编码解码结构的图像描述模型 m-RNN，使用卷积神经网络将图像转化成特第 4 期莫宏伟，等：基于注意力融合的图像描述生成方法 ·741·

·742· 智能系统学报第15卷征向量，利用循环神经网络根据之前生成的单词该机制的难点是如何找到与预测词对应的隐状和图像的特征向量生成下一个单词，循环此过程态。Xu等21对图像描述的网络结构进行了改直至生成完整的描述。Oriol等1刀提出的图像描进，使用卷积层提取图像特征，每个时刻传入述模型使用长短期记忆网络(long short-.term LSTM的是上一时刻的状态和经过加权处理后的 memory,.LSTM)18!替代循环神经网络作为解码卷积层特征，使用注意力机制对提取的特征进行器，LSTM不仅能够记忆长期信息，而且能够解决加权。梯度消失和梯度爆炸问题。 2017年，Marc0等241提出使用一种区域注意与基于模板和基于检索的方法相比，基于编力模型，考虑了状态与预测单词以及图像区域与码解码结构的方法利用卷积神经网络提取图像特单词和状态之间的关系，使用卷积神经网络提取征和循环神经网络生成序列数据上的优势，所生图像特征并生成描述单词。Li等2提出一种使成的描述结构灵活、表达自然，而且模型泛化能用注意力机制将局部特征与全局特征的权重进行力强、性能良好。组合的模型，首先分别提取全局特征与局部特受到人的注意力会集中在感兴趣的物体上的征，然后使用注意力机制对全局特征和局部特征启发，研究人员将视觉注意力机制引入到编码解进行权重分配。Lu等2提出一种带有视觉标记码模型中，使得模型在生成不同的单词时关注图的自适应注意力模型，在解码过程中依据语义信像中对应区域的特征。注意力机制改变了编码器息对不同的单词分配不同的注意力权重。与解码器之间的连接方式，使得模型生成的描述 20l8年，Anderson等21提出使用Faster R- 更符合图像的内容。目前使用的注意力机制主要 CNN2I作为编码器在提取图像特征的同时检测分以下3类：目标及其所在的区域，将这些区域对应的特征向 1)空间注意力量送入到空间注意力模型中，经过注意力机制的 Xu等最先提出将空间注意机制加入到编动态分配来指导单词序列的生成。码解码模型中，将编码器提取到的图像特征先划当前大多数图像描述算法使用交叉熵作为损分为不同的区域，利用当前时刻长短期记忆单元失函数训练模型存在着曝光偏差和衡量标准不的隐藏状态和图像区域特征经过注意力模型决定致的问题，曝光偏差会导致生成的单词与图像内各区域特征的权重，动态地选择与当前时刻生成容具有差异，影响下一个单词生成的准确性，衡单词相关的图像区域特征来指导单词的生成。量标准不一致导致模型在训练时无法充分地优化 2)高层语义注意力评价指标。为了解这个问题，研究人员提出了使 You等20提出使用目标检测算法检测图像中用强化学习方法29来改进图像描述模型。Marc 主要目标的名称属性，并将其作为高层语义信 aurelio等o使用强化学习方法优化序列生成模息，由此提出了基于高层语义注意力机制模型。型，Liu等使用全连接网络来估计基线，并使用该模型先将提取的物体名称属性向量送入注意力更符合人类评价标准的图像描述指标SPICE(se: 机制模型，然后通过动态地选择名称属性向量来 mantic propositional image caption evaluation). 指导单词序列的生成，从而提高生成描述的质量。文使用REINFORCE算法B对图像描述模型进行 3)层级注意力训练，将该算法应用到基于注意力融合的图像描 Chen等2)提出了融合空间和高层语义注意述模型中，解决了交叉嫡训练方法存在的曝光偏力的基于层级注意力的图像描述模型，使用层级差和衡量标准不一致的问题，提高了基于注意力注意力机制动态地选择卷积神经网络的卷积特征融合的图像描述模型生成描述的准确率。图来指导单词的生成。该模型结合空间注意力机 2模型框架制、语义注意力机制和层级注意力机制，所生成的图像描述效果超过了同时期的其他图像描述 2.1整体模型模型。基于注意力融合的图像描述模型主要由图像伴随着深度学习技术的快速发展，基于编码特征提取、特征编码、注意力模型和特征解码等解码结构的图像描述方法逐渐成为主流，由于注部分组成。使用ResNet-1O1BI作为Faster R- 意力机制的应用，图像描述的效果也在不断地提 CNN的特征提取网络以提高图像特征提取的能升。2015年，Minh-thang等四提出全局注意力和力和目标检测的精度，Faster R-CNN作为编码器局部注意力模型，全局注意力考虑输人的隐状态能够提取图像中物体和显著视觉区域的位置和名来生成语境向量，局部注意力关注部分隐状态，称属性信息，将目标对应的特征向量和名称属性

征向量，利用循环神经网络根据之前生成的单词和图像的特征向量生成下一个单词，循环此过程直至生成完整的描述。Oriol 等 [17] 提出的图像描述模型使用长短期记忆网络（ long short-term memory, LSTM） [18] 替代循环神经网络作为解码器，LSTM 不仅能够记忆长期信息，而且能够解决梯度消失和梯度爆炸问题。与基于模板和基于检索的方法相比，基于编码解码结构的方法利用卷积神经网络提取图像特征和循环神经网络生成序列数据上的优势，所生成的描述结构灵活、表达自然，而且模型泛化能力强、性能良好。受到人的注意力会集中在感兴趣的物体上的启发，研究人员将视觉注意力机制引入到编码解码模型中，使得模型在生成不同的单词时关注图像中对应区域的特征。注意力机制改变了编码器与解码器之间的连接方式，使得模型生成的描述更符合图像的内容。目前使用的注意力机制主要分以下 3 类： 1) 空间注意力 Xu 等 [19] 最先提出将空间注意机制加入到编码解码模型中，将编码器提取到的图像特征先划分为不同的区域，利用当前时刻长短期记忆单元的隐藏状态和图像区域特征经过注意力模型决定各区域特征的权重，动态地选择与当前时刻生成单词相关的图像区域特征来指导单词的生成。 2) 高层语义注意力 You 等 [20] 提出使用目标检测算法检测图像中主要目标的名称属性，并将其作为高层语义信息，由此提出了基于高层语义注意力机制模型。该模型先将提取的物体名称属性向量送入注意力机制模型，然后通过动态地选择名称属性向量来指导单词序列的生成，从而提高生成描述的质量。 3) 层级注意力 Chen 等 [21] 提出了融合空间和高层语义注意力的基于层级注意力的图像描述模型，使用层级注意力机制动态地选择卷积神经网络的卷积特征图来指导单词的生成。该模型结合空间注意力机制、语义注意力机制和层级注意力机制，所生成的图像描述效果超过了同时期的其他图像描述模型。伴随着深度学习技术的快速发展，基于编码解码结构的图像描述方法逐渐成为主流，由于注意力机制的应用，图像描述的效果也在不断地提升。2015 年，Minh-thang 等 [22] 提出全局注意力和局部注意力模型，全局注意力考虑输入的隐状态来生成语境向量，局部注意力关注部分隐状态，该机制的难点是如何找到与预测词对应的隐状态。Xu 等 [23] 对图像描述的网络结构进行了改进，使用卷积层提取图像特征，每个时刻传入 LSTM 的是上一时刻的状态和经过加权处理后的卷积层特征，使用注意力机制对提取的特征进行加权。 2017 年，Marco 等 [24] 提出使用一种区域注意力模型，考虑了状态与预测单词以及图像区域与单词和状态之间的关系，使用卷积神经网络提取图像特征并生成描述单词。Li 等 [25] 提出一种使用注意力机制将局部特征与全局特征的权重进行组合的模型，首先分别提取全局特征与局部特征，然后使用注意力机制对全局特征和局部特征进行权重分配。Lu 等 [26] 提出一种带有视觉标记的自适应注意力模型，在解码过程中依据语义信息对不同的单词分配不同的注意力权重。 2018 年，Anderson 等 [27] 提出使用 Faster RCNN[28] 作为编码器在提取图像特征的同时检测目标及其所在的区域，将这些区域对应的特征向量送入到空间注意力模型中，经过注意力机制的动态分配来指导单词序列的生成。当前大多数图像描述算法使用交叉熵作为损失函数训练模型存在着曝光偏差和衡量标准不一致的问题，曝光偏差会导致生成的单词与图像内容具有差异，影响下一个单词生成的准确性，衡量标准不一致导致模型在训练时无法充分地优化评价指标。为了解这个问题，研究人员提出了使用强化学习方法[29] 来改进图像描述模型。Marc’ aurelio 等 [30] 使用强化学习方法优化序列生成模型，Liu 等 [31]使用全连接网络来估计基线，并使用更符合人类评价标准的图像描述指标 SPICE（semantic propositional image caption evaluation）。本文使用 REINFORCE 算法[32] 对图像描述模型进行训练，将该算法应用到基于注意力融合的图像描述模型中，解决了交叉熵训练方法存在的曝光偏差和衡量标准不一致的问题，提高了基于注意力融合的图像描述模型生成描述的准确率。 2 模型框架 2.1 整体模型基于注意力融合的图像描述模型主要由图像特征提取、特征编码、注意力模型和特征解码等部分组成。使用 ResNet-101[ 3 3 ] 作为 Faster RCNN 的特征提取网络以提高图像特征提取的能力和目标检测的精度，Faster R-CNN 作为编码器能够提取图像中物体和显著视觉区域的位置和名称属性信息，将目标对应的特征向量和名称属性 ·742· 智能系统学报第 15 卷

第4期莫宏伟，等：基于注意力融合的图像描述生成方法 ·743· 信息分别作为空间注意力机制和高层语义注意力码器，最终由解码器生成单词序列，基于注意力机制的输入，经过注意力模型整合处理后送入解融合的图像描述模型结构如图1所示。 two women are playing soccer <E> 单词概率分布 V) p V.) 输出词嵌入 Vo04 LSTM ho LSTM LSTM LSTM LSTM LSTM LSTM 7T=0 T=1 7T=2 T=3 =4 T=5 T=6 输入词嵌人 eplayin socce 输入单词 me are aying 注意力机制图像全局 Wil 特征1 Faster R-CNN 目标特征全局平均池化目标图像特征向五目标名称词嵌入目标名称属性向量图1基于注意力融合的图像描述模型结构 Fig.I Image caption model structure based on attention fusion 使用Faster R-CNN模型对输入图像进行检相等，使用注意力模型同时决定两者的权重。测，并提供空间注意力和高层语义注意力，目标 2.2注意力机制对应的图像特征隐式地包含了名称属性信息，对本文使用的注意力模型选取目标对应的特征该图像特征进行推断得到目标的名称属性，在其向量{，2，…，V}和名称属性向量{a,2,…,an}以中筛选置信度大于0.3的目标作为注意力机制的及解码器中长短期记忆网络上一时刻的隐藏状态输入。被检测到目标的空间位置信息对应在Res h-1来决定当前时刻选取的特征向量和名称属性 Net-l01最后一层卷积层的特征图，将其进行平均向量的权重，计算公式为池化处理得到2048维的图像特征向量作为空间 ey=f(h-l,Vaj） (1) 注意机制的输入，将目标的名称属性经过词嵌入 exp(eii) 表示为512维的名称属性向量作为高层语义注意 qi= (2) 力的输入。将ResNet-l01最后一层卷积层的特征图经过平均池化处理得到2048维的图像全局特 p6 T 其中注意力机制f血是一个多层感知机模型，对其征向量作为编码器初始时刻的输入，目标对应的输出结果使用Softmax进行归一化可以得到目标图像特征向量和名称属性向量经过注意力机制的分配在解码器生成单词的过程中动态地指导单词对应的特征在时刻i的权重分布，这些权重就表序列的生成。使用在ImageNet数据集上预先训示描述模型对图像各目标的重视程度。练好的Faster R-CNN作为编码器，在训练图像描当前时刻输人的视觉上下文信息为述模型时固定Faster R-CNN的参数，仅对注意力 4= (3) 机制和解码器的参数进行训练。本文直接设置目标对应的特征向量的权重与名称属性向量的权重将图像全局特征V分别通过两个独立的多层

信息分别作为空间注意力机制和高层语义注意力机制的输入，经过注意力模型整合处理后送入解码器，最终由解码器生成单词序列，基于注意力融合的图像描述模型结构如图 1 所示。单词概率分布输出词嵌入输入词嵌入输入单词注意力机制图像全局特征 1 目标特征目标名称词嵌入全局平均池化目标图像特征向量目标名称属性向量 two p (y1 ) p (y2 ) p (y3 ) p (y4 ) p (y5 ) p (y6 ) WoO1 WoO2 WoO3 WoO4 WoO5 WoO6 LSTM h0 T=0 LSTM T=1 LSTM T=2 LSTM T=3 LSTM T=4 LSTM T=5 LSTM T=6 We<S> Wetwo Wewomen Weare Weplaying Wesoccer <S> two women Faster R-CNN WiI are playing soccer h1 h2 h3 h4 h5 women are playing soccer <E> 图 1 基于注意力融合的图像描述模型结构 Fig. 1 Image caption model structure based on attention fusion 使用 Faster R-CNN 模型对输入图像进行检测，并提供空间注意力和高层语义注意力，目标对应的图像特征隐式地包含了名称属性信息，对该图像特征进行推断得到目标的名称属性，在其中筛选置信度大于 0.3 的目标作为注意力机制的输入。被检测到目标的空间位置信息对应在 ResNet-101 最后一层卷积层的特征图，将其进行平均池化处理得到 2 048 维的图像特征向量作为空间注意机制的输入，将目标的名称属性经过词嵌入表示为 512 维的名称属性向量作为高层语义注意力的输入。将 ResNet-101 最后一层卷积层的特征图经过平均池化处理得到 2 048 维的图像全局特征向量作为编码器初始时刻的输入，目标对应的图像特征向量和名称属性向量经过注意力机制的分配在解码器生成单词的过程中动态地指导单词序列的生成。使用在 ImageNet 数据集上预先训练好的 Faster R-CNN 作为编码器，在训练图像描述模型时固定 Faster R-CNN 的参数，仅对注意力机制和解码器的参数进行训练。本文直接设置目标对应的特征向量的权重与名称属性向量的权重相等，使用注意力模型同时决定两者的权重。 2.2 注意力机制 {v1, v2,··· , vn} {α1,α2,··· ,αn} hi−1 αi j 本文使用的注意力模型选取目标对应的特征向量和名称属性向量以及解码器中长短期记忆网络上一时刻的隐藏状态来决定当前时刻选取的特征向量和名称属性向量的权重，计算公式为 ei j = fatt( hi−1, vj ,aj ) (1) αi j = exp( ei j) ∑Tx k=1 exp(eik) (2) f 其中注意力机制 att 是一个多层感知机模型，对其输出结果使用 Softmax 进行归一化可以得到目标对应的特征在时刻 i 的权重分布，这些权重就表示描述模型对图像各目标的重视程度。当前时刻输入的视觉上下文信息 zi 为 zi =   ∑L j=1 αi jvj , ∑L j=1 αi jaj   (3) 将图像全局特征 V 分别通过两个独立的多层第 4 期莫宏伟，等：基于注意力融合的图像描述生成方法 ·743·

·744· 智能系统学报第15卷感知机计算得到长短期记忆网络的细胞单元状态损失函数关于参数θ的梯度为 co和隐藏状态的初始值： VoL(0)=-E,-p.[r(y)Vologpo(y)] (12) Co=finite (V) (4) 训练时使用蒙特卡罗方法从概率分布P%中 ho=finit (V) (5) 采样得到的句子序列y可以近似得到期望梯度，然后，根据前一时刻的输出y-1、前一时刻的对于每个训练样本有：隐藏状态h-1和视觉上下文z可以计算得到当前 VL(0≈-ry）7 logpe(y） (13) 时刻的隐藏状态，由长短期记忆网络的公式计使用链式法则，将损失函数关于参数0的梯算可得：度表示为 h;LSTM(y1,h1) (6) 由当前时刻的隐藏状态、视觉上下文信息以 10=乃@2 台品a0 (14) 及前一时刻的输出通过Softmax可以得到当前输其中z,表示softmax层的输入。出单词的概率分布：将模型通过贪婪解码方法得到的句子y= p(yilzi,y-1)=softmax(Ey1+Lih+L)(7) y12,…y}在图像描述指标上的得分ry)作为模型使用交叉熵损失函数进行训练，给定人基线，可以得到：工标注描述y,使用0表示模型中的参数，交叉嫡损失函数L(0的表达式为 aL@≈ry-r6ph)-l） (15) L(0=- ∑1og(p6ya,1》+l6Ig 由式(1)可得，当采样所得句子的得分高于 (8) 基线时，模型会向增大生成该类型句子概率的方其中I0匠表示L2正则化项，可以防止模型过向调整参数，若低于基线，模型会向降低生成该拟合，加快模型收敛的速度。类型句子概率的方向调整参数。这种训练方法可 2.3模型优化使模型在训练时通过采样得到的结果优于测试测 REINFORCE算法是强化学习中一种常用的时通过贪婪解码方式得到的结果，不仅能减少梯策略梯度算法，首先将策略参数化用以估计目标度的方差，而且使模型的训练更加稳定。函数对策略参数的梯度，然后根据梯度下降算法 3实验设置不断对策略参数进行更新，直至找到最优策略。由于REINFORCE算法在模型的训练过程中 3.1 数据集预处理能够对离散和不可微的指标进行优化，适用于处本文使用COCO341数据集，采用Karpathy 理文本序列生成问题，在训练时可以直接优化评分割方法B将数据集分为训练集、验证集和测试价指标对模型进行训练以提高模型生成描述的效集，选取113287张图像和对应的人工标注描述果。所以将REINFORCE算法应用到基于注意力作为训练集，分别选取5000张图像和对应的人融合的图像描述模型中，将图像描述评价指标作工标注描述作为验证集和测试集。为奖励函数，把模型的参数看成状态，把生成的训练模型之前需要先对数据集中的图像和人描述在图像描述评价指标上的得分作为奖励，并工标注描述进行预处理。对于人工标注描述，先利用得到的奖励来更新模型参数。将其中所有单词转换成小写的形式，使用空格替使用图像描述评价指标CIDEr作为奖励函代标点符号，然后统计所有单词出现的次数，将数，模型生成的图像描述为y,数据集中图像对应出现频率超过5次的单词构成单词表，并使用的人工标注描述为s,则奖励ry)表示为 <UNK>替换出现频率小于5次的单词，以避免罕 r(y)=CIDEr(y.s) (9) 见单词不利于描述文本的生成，最终得到的单词图像描述模型训练的目标是最大化期望奖表包含9487个单词。励，其表达式为 3.2模型训练 L(0=-Em[r(y刀 (10) 实验中使用的图像全局特征和目标对应的局其中y=,…,y}表示模型采样得到的单词所部特征的维度均设置为2048，词向量的维度设置构成的单词序列，图像描述生成的单词是从单词为512，长短期记忆网络隐藏层的维度设置为的概率分布P。中采样得到的，单个采样样本对应 512,生成的描述文本最大长度设置为16。的损失函数可以近似为模型训练使用的批量大小设置为64，最大迭 L(0≈-ry),y~pg (11) 代周期设置为30。使用Adam优化算法作为训

c0 感知机计算得到长短期记忆网络的细胞单元状态和隐藏状态的初始值： c0 = finit,c (V) (4) h0 = finit,h (V) (5) yi−1 hi−1 zi hi 然后，根据前一时刻的输出、前一时刻的隐藏状态和视觉上下文可以计算得到当前时刻的隐藏状态，由长短期记忆网络的公式计算可得： hi = LSTM(yi−1,hi−1,zi) (6) 由当前时刻的隐藏状态、视觉上下文信息以及前一时刻的输出通过 Softmax 可以得到当前输出单词的概率分布： p(yi |zi , yi−1) = softmax(Eyi−1 + Lhhi + Lzzi) (7) y ∗ θ L(θ) 模型使用交叉熵损失函数进行训练，给定人工标注描述，使用表示模型中的参数，交叉熵损失函数的表达式为 L(θ) = − ∑N i=1 log(p ( y ∗ i zi , y ∗ i−1 ))+λθ∥ θ ∥ 2 2 (8) λθ∥ θ ∥ 2 其中 2 表示 L2 正则化项，可以防止模型过拟合，加快模型收敛的速度。 2.3 模型优化 REINFORCE 算法是强化学习中一种常用的策略梯度算法，首先将策略参数化用以估计目标函数对策略参数的梯度，然后根据梯度下降算法不断对策略参数进行更新，直至找到最优策略。由于 REINFORCE 算法在模型的训练过程中能够对离散和不可微的指标进行优化，适用于处理文本序列生成问题，在训练时可以直接优化评价指标对模型进行训练以提高模型生成描述的效果。所以将 REINFORCE 算法应用到基于注意力融合的图像描述模型中，将图像描述评价指标作为奖励函数，把模型的参数看成状态，把生成的描述在图像描述评价指标上的得分作为奖励，并利用得到的奖励来更新模型参数。 r(y) 使用图像描述评价指标 CIDEr 作为奖励函数，模型生成的图像描述为 y，数据集中图像对应的人工标注描述为 s，则奖励表示为 r(y) = CIDEr(y,s) (9) 图像描述模型训练的目标是最大化期望奖励，其表达式为 L(θ) = −Ey s∼pθ [r( y s )] (10) y s = { y s 1 , y s 2 ,··· , y s T } pθ 其中表示模型采样得到的单词所构成的单词序列，图像描述生成的单词是从单词的概率分布中采样得到的，单个采样样本对应的损失函数可以近似为 L(θ) ≈ −r(y s ), y s ∼ pθ (11) 损失函数关于参数 θ 的梯度为 ∇θL(θ) = −Ey s∼pθ [ r(y s )∇θ logpθ ( y s )] (12) pθ y s 训练时使用蒙特卡罗方法从概率分布中采样得到的句子序列可以近似得到期望梯度，对于每个训练样本有： ∇θL(θ) ≈ −r(y s )∇θ logpθ (y s ) (13) 使用链式法则，将损失函数关于参数 θ 的梯度表示为 ∇θL(θ) = ∑T t=1 ∂L(θ) ∂zt ∂zt ∂θ (14) 其中 zt 表示 softmax 层的输入。 y = {y1, y2,··· , yT } r(y) 将模型通过贪婪解码方法得到的句子在图像描述指标上的得分作为基线，可以得到： ∂L(θ) ∂zt ≈ (r( y s )−r(y ))(pθ (yt |ht)−1y s t ) (15) 由式（1）可得，当采样所得句子的得分高于基线时，模型会向增大生成该类型句子概率的方向调整参数，若低于基线，模型会向降低生成该类型句子概率的方向调整参数。这种训练方法可使模型在训练时通过采样得到的结果优于测试测时通过贪婪解码方式得到的结果，不仅能减少梯度的方差，而且使模型的训练更加稳定。 3 实验设置 3.1 数据集预处理本文使用 COCO[ 3 4 ] 数据集，采用 Karpathy 分割方法[35] 将数据集分为训练集、验证集和测试集，选取 113 287 张图像和对应的人工标注描述作为训练集，分别选取 5 000 张图像和对应的人工标注描述作为验证集和测试集。训练模型之前需要先对数据集中的图像和人工标注描述进行预处理。对于人工标注描述，先将其中所有单词转换成小写的形式，使用空格替代标点符号，然后统计所有单词出现的次数，将出现频率超过 5 次的单词构成单词表，并使用 <UNK>替换出现频率小于 5 次的单词，以避免罕见单词不利于描述文本的生成，最终得到的单词表包含 9 487 个单词。 3.2 模型训练实验中使用的图像全局特征和目标对应的局部特征的维度均设置为 2 048，词向量的维度设置为 512，长短期记忆网络隐藏层的维度设置为 512，生成的描述文本最大长度设置为 16。模型训练使用的批量大小设置为 64，最大迭代周期设置为 30。使用 Adam 优化算法[36] 作为训 ·744· 智能系统学报第 15 卷

点击进入文档下载页（PDF格式）

共10页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录