第15卷第4期 智能系统学报 Vol.15 No.4 2020年7月 CAAI Transactions on Intelligent Systems Jul.2020 D0L:10.11992tis.201910039 基于注意力融合的图像描述生成方法 莫宏伟,田朋 (哈尔滨工程大学自动化学院,黑龙江哈尔滨150001) 摘要:空间注意力机制和高层语义注意力机制都能够提升图像描述的效果,但是通过直接划分卷积神经网络 提取图像空间注意力的方式不能准确地提取图像中目标对应的特征。为了提高基于注意力的图像描述效果, 提出了一种基于注意力融合的图像描述模型,使用Faster R-CNN(faster region with convolutional neural network) 作为编码器在提取图像特征的同时可以检测出目标的准确位置和名称属性特征,再将这些特征分别作为高层 语义注意力和空间注意力来指导单词序列的生成。在COCO数据集上的实验结果表明,基于注意力融合的图 像描述模型的性能优于基于空间注意力的图像描述模型和多数主流的图像描述模型。在使用交叉嫡训练方法 的基础上,使用强化学习方法直接优化图像描述评价指标对模型进行训练,提升了基于注意力融合的图像描述 模型的准确率。 关键词:图像描述;卷积神经网络;空间注意力:Faster R-CNN:注意力机制;名称属性;高层语义;强化学习 中图分类号:TP181文献标志码:A文章编号:1673-4785(2020)04-0740-10 中文引用格式:莫宏伟,田朋.基于注意力融合的图像描述生成方法J.智能系统学报,2020,15(4):740-749. 英文引用格式:MO Hongwei,,TIAN Peng.An image caption generation method based on attention fusion.CAAI transactions on intelligent systems,2020,15(4):740-749. An image caption generation method based on attention fusion MO Hongwei,TIAN Peng (College of Automation,Harbin Engineering University,Harbin 150001,China) Abstract:The spatial attention mechanism and the high-level semantic attention mechanism can improve the effect of image captioning,but the method for extracting the spatial attention of image by directly dividing the convolutional neural network cannot accurately extract the features corresponding to target in the image.In order to improve the effect of image captioning based on attention,this paper proposes an image caption model based on attention fusion,using Faster R-CNN(faster region with convolutional neural network)as an encoder to exect image features and simultan- eously detect the features of accurate position and noun attribute of the target object,then those features as high-level se- mantic attention and spatial attention respectively to guide the generation of word sequence.The experimental results on COCO dataset show that the performance of the image caption model based on attention fusion outperforms the image caption models based on spatial attention and most mainstream image caption models.Based on the cross entropy train- ing method,we use reinforcement learning method to directly optimize the image caption evaluation index to train the model,which significantly improves the accuracy of the image caption model based on attention fusion. Keywords:image caption;convolutional neural network;spatial attention;Faster R-CNN;attention mechanism;noun attribute:high-level semantic;reinforcement learning 图像描述是计算机视觉和自然语言处理的交点和难点问题。图像描述是让计算机生成给定 叉学科,也是当前人工智能领域中研究的一个热 图像内容的文字性表述,相比于图像分类和目标 收稿日期:2019-10-29. 检测识别等视觉任务,图像描述不仅需要检测识 基金项目:国家重点研发计划新一代人工智能重大专项 别出图像中的物体和关系,还需要使用自然语言 (2018AAA0102702). 通信作者:莫宏伟.E-mail:honwei2004@126.com. 将图像的主要语义信息进行准确地表述
DOI: 10.11992/tis.201910039 基于注意力融合的图像描述生成方法 莫宏伟,田朋 (哈尔滨工程大学 自动化学院,黑龙江 哈尔滨 150001) 摘 要:空间注意力机制和高层语义注意力机制都能够提升图像描述的效果,但是通过直接划分卷积神经网络 提取图像空间注意力的方式不能准确地提取图像中目标对应的特征。为了提高基于注意力的图像描述效果, 提出了一种基于注意力融合的图像描述模型,使用 Faster R-CNN(faster region with convolutional neural network) 作为编码器在提取图像特征的同时可以检测出目标的准确位置和名称属性特征,再将这些特征分别作为高层 语义注意力和空间注意力来指导单词序列的生成。在 COCO 数据集上的实验结果表明,基于注意力融合的图 像描述模型的性能优于基于空间注意力的图像描述模型和多数主流的图像描述模型。在使用交叉熵训练方法 的基础上,使用强化学习方法直接优化图像描述评价指标对模型进行训练,提升了基于注意力融合的图像描述 模型的准确率。 关键词:图像描述;卷积神经网络; 空间注意力;Faster R-CNN;注意力机制;名称属性; 高层语义;强化学习 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2020)04−0740−10 中文引用格式:莫宏伟, 田朋. 基于注意力融合的图像描述生成方法 [J]. 智能系统学报, 2020, 15(4): 740–749. 英文引用格式:MO Hongwei, TIAN Peng. An image caption generation method based on attention fusion[J]. CAAI transactions on intelligent systems, 2020, 15(4): 740–749. An image caption generation method based on attention fusion MO Hongwei,TIAN Peng (College of Automation, Harbin Engineering University, Harbin 150001, China) Abstract: The spatial attention mechanism and the high-level semantic attention mechanism can improve the effect of image captioning, but the method for extracting the spatial attention of image by directly dividing the convolutional neural network cannot accurately extract the features corresponding to target in the image. In order to improve the effect of image captioning based on attention, this paper proposes an image caption model based on attention fusion, using Faster R-CNN (faster region with convolutional neural network) as an encoder to exect image features and simultaneously detect the features of accurate position and noun attribute of the target object, then those features as high-level semantic attention and spatial attention respectively to guide the generation of word sequence. The experimental results on COCO dataset show that the performance of the image caption model based on attention fusion outperforms the image caption models based on spatial attention and most mainstream image caption models. Based on the cross entropy training method, we use reinforcement learning method to directly optimize the image caption evaluation index to train the model, which significantly improves the accuracy of the image caption model based on attention fusion. Keywords: image caption; convolutional neural network; spatial attention; Faster R-CNN; attention mechanism; noun attribute; high-level semantic; reinforcement learning 图像描述是计算机视觉和自然语言处理的交 叉学科,也是当前人工智能领域中研究的一个热 点和难点问题[1]。图像描述是让计算机生成给定 图像内容的文字性表述,相比于图像分类和目标 检测识别等视觉任务,图像描述不仅需要检测识 别出图像中的物体和关系,还需要使用自然语言 将图像的主要语义信息进行准确地表述[2]。 收稿日期:2019−10−29. 基金项目:国家重点研发计划新一代人工智能重大专项 ( 2018AAA0102702). 通信作者:莫宏伟. E-mail:honwei2004@126.com.. 第 15 卷第 4 期 智 能 系 统 学 报 Vol.15 No.4 2020 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2020
第4期 莫宏伟,等:基于注意力融合的图像描述生成方法 ·741· 人类获取外部世界信息主要是通过视觉系 进一步提高模型的性能。 统,人类大脑的注意力机制能从环境中选择出感 1 兴趣的目标区域,并重点关注这些目标区域的相 相关研究 关信息。受此启发,研究人员成功地将注意力机 图像描述涉及计算机视觉与自然语言处理两 制应用于机器翻译和图像描述等诸多深度学习任 个研究领域,近年来成为深度学习中的研究热点。 务中B 图像描述的方法可以分为三大类:基于模板的方 在基于编码解码结构的图像描述模型中,卷 法、基于检索的方法和基于编码解码结构的方法。 积神经网络作为编码器将图像的主要特征提取为 早期的图像描述研究主要是基于模板的方 一个固定大小的特征向量,长短期记忆网络作为 法,该方法首先检测出图像中的物体及其属性等 解码器利用该特征向量生成描述文本561。长短 关键信息,然后将这些信息通过特定的模板、语 期记忆网络沿着时间展开,其网络中包含的图像 言模型或句法模型生成对应的描述。Farhadi等图 特征信息会逐渐减少,而且一次将全部特征信息 将图像中的物体、动作和场景检测出来,形成对 送入到解码器中,这不能使解码器充分地利用特 应的三元组,根据模型信息生成描述;Girish等例 征信息,因此该模型无法取得非常好的描述效果。 使用检测器识别图像中的物体、物体属性和相互 在基于注意力机制的图像描述模型中,卷积 关系,然后使用条件随机场预测标签,最后使用 神经网络将提取的图像特征按照图像的空间位置 文本语料库生成图像的描述;Li等o将图像中物 划分为一定数量的局部特征向量,注意力机制根 体的相关信息表示为关系短语,通过语言模型将 据长短期记忆网络的隐藏状态从图像局部特征向 短语组合生成描述语句。 量集合中动态选择与当前时刻生成单词有关的图 基于模板的方法生成描述的质量依赖于特征 像局部特征来指导当前时刻单词的生成。使用注 提取部分的性能和模板的设定,由于使用的模板 意力机制改进的图像描述模型能够充分地利用图 是固定的,其生成的描述虽然能够包含图像的主 像的特征信息,显著地提升了模型生成描述的效果口 要语义信息,但其描述格式单调,表达生硬,效果 然而使用固定值均匀地划分图像获取空间注 并不理想。 意力的方法存在着注意力不精确的问题,分割出 基于检索的方法将图像描述问题转化成图像 来的图像区域一般与目标的大小不符,不利于单 检索问题,在提取图像特征信息后通过相似度量 词序列的生成。为了解决基于空间注意力机制存 算法来比较图像之间的相似度,然后利用数据集 在的不能准确选取目标对应特征的问题,本文提 中相似图像的描述经过合理地组织生成新的描 出了一种基于空间注意力和高层语义注意力融合 述。Polina等在图像数据集中检索出与要描述 的图像描述模型,使用具有卷积神经网络的快速 图像相似的图像,将这些图像对应的描述文本通 区域目标检测模型(faster region with convolutional 过随机树形结构算法提取出词组以生成图像的描 neural network,Faster R-CNN)作为图像描述模型 述语句。Yashaswi等使用图像的视觉特征作 的编码器,使用高层语义注意力机制在提取图像 为衡量图像相似度的指标,将与要描述图像相似 特征的同时检测图像中的物体和显著视觉区域的 的描述文本分解成短语,通过图像的相似性等指 位置和名称属性,将位置特征和名称属性特征分 标确定最优描述。Jacob等]使用视觉几何组网 别作为空间注意力机制和高层语义注意力机制的 络(visual geometry group network,VGG)模型提 输入,从而提高图像描述的准确性。 取图像特征,使用KNN9找到与描述图像相似的 本文的主要贡献如下: 图像以确定目标图像的描述。 1)针对空间注意力机制中存在的注意力不精 基于检索的方法将图像描述看作是一种检索 确的问题,提出使用Faster R-CNN作为编码器对 任务,其性能依赖于标注的图像数据集的大小和 空间注意力机制进行改进,提高空间注意力机制 检索算法的准确程度,该方法过于依赖描述数据 的精度; 集,所生成的图像描述局限于数据集中的描述。 2)提出一种融合空间注意力与高层语义注意 基于编码解码结构的图像描述模型使用卷积 力的注意力机制,在提取图像特征的同时检测出 神经网络作为编码器提取图像特征向量,使用循 图像中目标的准确位置和名称属性特征以指导单 环神经网络作为解码器,根据提取到的图像特征 词的生成: 向量来生成图像对应的描述文本。 3)使用强化学习方法训练基于注意力融合的 Mao等16首先提出编码解码结构的图像描述 图像描述模型,提升模型在评价指标上的得分, 模型m-RNN,使用卷积神经网络将图像转化成特
人类获取外部世界信息主要是通过视觉系 统,人类大脑的注意力机制能从环境中选择出感 兴趣的目标区域,并重点关注这些目标区域的相 关信息。受此启发,研究人员成功地将注意力机 制应用于机器翻译和图像描述等诸多深度学习任 务中[3-4]。 在基于编码解码结构的图像描述模型中,卷 积神经网络作为编码器将图像的主要特征提取为 一个固定大小的特征向量,长短期记忆网络作为 解码器利用该特征向量生成描述文本[5-6]。长短 期记忆网络沿着时间展开,其网络中包含的图像 特征信息会逐渐减少,而且一次将全部特征信息 送入到解码器中,这不能使解码器充分地利用特 征信息,因此该模型无法取得非常好的描述效果。 在基于注意力机制的图像描述模型中,卷积 神经网络将提取的图像特征按照图像的空间位置 划分为一定数量的局部特征向量,注意力机制根 据长短期记忆网络的隐藏状态从图像局部特征向 量集合中动态选择与当前时刻生成单词有关的图 像局部特征来指导当前时刻单词的生成。使用注 意力机制改进的图像描述模型能够充分地利用图 像的特征信息,显著地提升了模型生成描述的效果[7]。 然而使用固定值均匀地划分图像获取空间注 意力的方法存在着注意力不精确的问题,分割出 来的图像区域一般与目标的大小不符,不利于单 词序列的生成。为了解决基于空间注意力机制存 在的不能准确选取目标对应特征的问题,本文提 出了一种基于空间注意力和高层语义注意力融合 的图像描述模型,使用具有卷积神经网络的快速 区域目标检测模型(faster region with convolutional neural network, Faster R-CNN)作为图像描述模型 的编码器,使用高层语义注意力机制在提取图像 特征的同时检测图像中的物体和显著视觉区域的 位置和名称属性,将位置特征和名称属性特征分 别作为空间注意力机制和高层语义注意力机制的 输入,从而提高图像描述的准确性。 本文的主要贡献如下: 1) 针对空间注意力机制中存在的注意力不精 确的问题,提出使用 Faster R-CNN 作为编码器对 空间注意力机制进行改进,提高空间注意力机制 的精度; 2) 提出一种融合空间注意力与高层语义注意 力的注意力机制,在提取图像特征的同时检测出 图像中目标的准确位置和名称属性特征以指导单 词的生成; 3) 使用强化学习方法训练基于注意力融合的 图像描述模型,提升模型在评价指标上的得分, 进一步提高模型的性能。 1 相关研究 图像描述涉及计算机视觉与自然语言处理两 个研究领域,近年来成为深度学习中的研究热点。 图像描述的方法可以分为三大类:基于模板的方 法、基于检索的方法和基于编码解码结构的方法。 早期的图像描述研究主要是基于模板的方 法,该方法首先检测出图像中的物体及其属性等 关键信息,然后将这些信息通过特定的模板、语 言模型或句法模型生成对应的描述。Farhadi 等 [8] 将图像中的物体、动作和场景检测出来,形成对 应的三元组,根据模型信息生成描述;Girish 等 [9] 使用检测器识别图像中的物体、物体属性和相互 关系,然后使用条件随机场预测标签,最后使用 文本语料库生成图像的描述;Li 等 [10] 将图像中物 体的相关信息表示为关系短语,通过语言模型将 短语组合生成描述语句。 基于模板的方法生成描述的质量依赖于特征 提取部分的性能和模板的设定,由于使用的模板 是固定的,其生成的描述虽然能够包含图像的主 要语义信息,但其描述格式单调,表达生硬,效果 并不理想。 基于检索的方法将图像描述问题转化成图像 检索问题,在提取图像特征信息后通过相似度量 算法来比较图像之间的相似度,然后利用数据集 中相似图像的描述经过合理地组织生成新的描 述。Polina 等 [11] 在图像数据集中检索出与要描述 图像相似的图像,将这些图像对应的描述文本通 过随机树形结构算法提取出词组以生成图像的描 述语句。Yashaswi 等 [12] 使用图像的视觉特征作 为衡量图像相似度的指标,将与要描述图像相似 的描述文本分解成短语,通过图像的相似性等指 标确定最优描述。Jacob 等 [13] 使用视觉几何组网 络(visual geometry group network, VGG)模型[14] 提 取图像特征,使用 KNN[15] 找到与描述图像相似的 图像以确定目标图像的描述。 基于检索的方法将图像描述看作是一种检索 任务,其性能依赖于标注的图像数据集的大小和 检索算法的准确程度,该方法过于依赖描述数据 集,所生成的图像描述局限于数据集中的描述。 基于编码解码结构的图像描述模型使用卷积 神经网络作为编码器提取图像特征向量,使用循 环神经网络作为解码器,根据提取到的图像特征 向量来生成图像对应的描述文本。 Mao 等 [16] 首先提出编码解码结构的图像描述 模型 m-RNN,使用卷积神经网络将图像转化成特 第 4 期 莫宏伟,等:基于注意力融合的图像描述生成方法 ·741·
·742· 智能系统学报 第15卷 征向量,利用循环神经网络根据之前生成的单词 该机制的难点是如何找到与预测词对应的隐状 和图像的特征向量生成下一个单词,循环此过程 态。Xu等21对图像描述的网络结构进行了改 直至生成完整的描述。Oriol等1刀提出的图像描 进,使用卷积层提取图像特征,每个时刻传入 述模型使用长短期记忆网络(long short-.term LSTM的是上一时刻的状态和经过加权处理后的 memory,.LSTM)18!替代循环神经网络作为解码 卷积层特征,使用注意力机制对提取的特征进行 器,LSTM不仅能够记忆长期信息,而且能够解决 加权。 梯度消失和梯度爆炸问题。 2017年,Marc0等241提出使用一种区域注意 与基于模板和基于检索的方法相比,基于编 力模型,考虑了状态与预测单词以及图像区域与 码解码结构的方法利用卷积神经网络提取图像特 单词和状态之间的关系,使用卷积神经网络提取 征和循环神经网络生成序列数据上的优势,所生 图像特征并生成描述单词。Li等2提出一种使 成的描述结构灵活、表达自然,而且模型泛化能 用注意力机制将局部特征与全局特征的权重进行 力强、性能良好。 组合的模型,首先分别提取全局特征与局部特 受到人的注意力会集中在感兴趣的物体上的 征,然后使用注意力机制对全局特征和局部特征 启发,研究人员将视觉注意力机制引入到编码解 进行权重分配。Lu等2提出一种带有视觉标记 码模型中,使得模型在生成不同的单词时关注图 的自适应注意力模型,在解码过程中依据语义信 像中对应区域的特征。注意力机制改变了编码器 息对不同的单词分配不同的注意力权重。 与解码器之间的连接方式,使得模型生成的描述 20l8年,Anderson等21提出使用Faster R- 更符合图像的内容。目前使用的注意力机制主要 CNN2I作为编码器在提取图像特征的同时检测 分以下3类: 目标及其所在的区域,将这些区域对应的特征向 1)空间注意力 量送入到空间注意力模型中,经过注意力机制的 Xu等最先提出将空间注意机制加入到编 动态分配来指导单词序列的生成。 码解码模型中,将编码器提取到的图像特征先划 当前大多数图像描述算法使用交叉熵作为损 分为不同的区域,利用当前时刻长短期记忆单元 失函数训练模型存在着曝光偏差和衡量标准不 的隐藏状态和图像区域特征经过注意力模型决定 致的问题,曝光偏差会导致生成的单词与图像内 各区域特征的权重,动态地选择与当前时刻生成 容具有差异,影响下一个单词生成的准确性,衡 单词相关的图像区域特征来指导单词的生成。 量标准不一致导致模型在训练时无法充分地优化 2)高层语义注意力 评价指标。为了解这个问题,研究人员提出了使 You等20提出使用目标检测算法检测图像中 用强化学习方法29来改进图像描述模型。Marc 主要目标的名称属性,并将其作为高层语义信 aurelio等o使用强化学习方法优化序列生成模 息,由此提出了基于高层语义注意力机制模型。 型,Liu等使用全连接网络来估计基线,并使用 该模型先将提取的物体名称属性向量送入注意力 更符合人类评价标准的图像描述指标SPICE(se: 机制模型,然后通过动态地选择名称属性向量来 mantic propositional image caption evaluation). 指导单词序列的生成,从而提高生成描述的质量。 文使用REINFORCE算法B对图像描述模型进行 3)层级注意力 训练,将该算法应用到基于注意力融合的图像描 Chen等2)提出了融合空间和高层语义注意 述模型中,解决了交叉嫡训练方法存在的曝光偏 力的基于层级注意力的图像描述模型,使用层级 差和衡量标准不一致的问题,提高了基于注意力 注意力机制动态地选择卷积神经网络的卷积特征 融合的图像描述模型生成描述的准确率。 图来指导单词的生成。该模型结合空间注意力机 2模型框架 制、语义注意力机制和层级注意力机制,所生成 的图像描述效果超过了同时期的其他图像描述 2.1整体模型 模型。 基于注意力融合的图像描述模型主要由图像 伴随着深度学习技术的快速发展,基于编码 特征提取、特征编码、注意力模型和特征解码等 解码结构的图像描述方法逐渐成为主流,由于注 部分组成。使用ResNet-1O1BI作为Faster R- 意力机制的应用,图像描述的效果也在不断地提 CNN的特征提取网络以提高图像特征提取的能 升。2015年,Minh-thang等四提出全局注意力和 力和目标检测的精度,Faster R-CNN作为编码器 局部注意力模型,全局注意力考虑输人的隐状态 能够提取图像中物体和显著视觉区域的位置和名 来生成语境向量,局部注意力关注部分隐状态, 称属性信息,将目标对应的特征向量和名称属性
征向量,利用循环神经网络根据之前生成的单词 和图像的特征向量生成下一个单词,循环此过程 直至生成完整的描述。Oriol 等 [17] 提出的图像描 述模型使用长短期记忆网络( long short-term memory, LSTM) [18] 替代循环神经网络作为解码 器,LSTM 不仅能够记忆长期信息,而且能够解决 梯度消失和梯度爆炸问题。 与基于模板和基于检索的方法相比,基于编 码解码结构的方法利用卷积神经网络提取图像特 征和循环神经网络生成序列数据上的优势,所生 成的描述结构灵活、表达自然,而且模型泛化能 力强、性能良好。 受到人的注意力会集中在感兴趣的物体上的 启发,研究人员将视觉注意力机制引入到编码解 码模型中,使得模型在生成不同的单词时关注图 像中对应区域的特征。注意力机制改变了编码器 与解码器之间的连接方式,使得模型生成的描述 更符合图像的内容。目前使用的注意力机制主要 分以下 3 类: 1) 空间注意力 Xu 等 [19] 最先提出将空间注意机制加入到编 码解码模型中,将编码器提取到的图像特征先划 分为不同的区域,利用当前时刻长短期记忆单元 的隐藏状态和图像区域特征经过注意力模型决定 各区域特征的权重,动态地选择与当前时刻生成 单词相关的图像区域特征来指导单词的生成。 2) 高层语义注意力 You 等 [20] 提出使用目标检测算法检测图像中 主要目标的名称属性,并将其作为高层语义信 息,由此提出了基于高层语义注意力机制模型。 该模型先将提取的物体名称属性向量送入注意力 机制模型,然后通过动态地选择名称属性向量来 指导单词序列的生成,从而提高生成描述的质量。 3) 层级注意力 Chen 等 [21] 提出了融合空间和高层语义注意 力的基于层级注意力的图像描述模型,使用层级 注意力机制动态地选择卷积神经网络的卷积特征 图来指导单词的生成。该模型结合空间注意力机 制、语义注意力机制和层级注意力机制,所生成 的图像描述效果超过了同时期的其他图像描述 模型。 伴随着深度学习技术的快速发展,基于编码 解码结构的图像描述方法逐渐成为主流,由于注 意力机制的应用,图像描述的效果也在不断地提 升。2015 年,Minh-thang 等 [22] 提出全局注意力和 局部注意力模型,全局注意力考虑输入的隐状态 来生成语境向量,局部注意力关注部分隐状态, 该机制的难点是如何找到与预测词对应的隐状 态。Xu 等 [23] 对图像描述的网络结构进行了改 进,使用卷积层提取图像特征,每个时刻传入 LSTM 的是上一时刻的状态和经过加权处理后的 卷积层特征,使用注意力机制对提取的特征进行 加权。 2017 年,Marco 等 [24] 提出使用一种区域注意 力模型,考虑了状态与预测单词以及图像区域与 单词和状态之间的关系,使用卷积神经网络提取 图像特征并生成描述单词。Li 等 [25] 提出一种使 用注意力机制将局部特征与全局特征的权重进行 组合的模型,首先分别提取全局特征与局部特 征,然后使用注意力机制对全局特征和局部特征 进行权重分配。Lu 等 [26] 提出一种带有视觉标记 的自适应注意力模型,在解码过程中依据语义信 息对不同的单词分配不同的注意力权重。 2018 年,Anderson 等 [27] 提出使用 Faster RCNN[28] 作为编码器在提取图像特征的同时检测 目标及其所在的区域,将这些区域对应的特征向 量送入到空间注意力模型中,经过注意力机制的 动态分配来指导单词序列的生成。 当前大多数图像描述算法使用交叉熵作为损 失函数训练模型存在着曝光偏差和衡量标准不一 致的问题,曝光偏差会导致生成的单词与图像内 容具有差异,影响下一个单词生成的准确性,衡 量标准不一致导致模型在训练时无法充分地优化 评价指标。为了解这个问题,研究人员提出了使 用强化学习方法[29] 来改进图像描述模型。Marc’ aurelio 等 [30] 使用强化学习方法优化序列生成模 型,Liu 等 [31]使用全连接网络来估计基线,并使用 更符合人类评价标准的图像描述指标 SPICE(semantic propositional image caption evaluation)。本 文使用 REINFORCE 算法[32] 对图像描述模型进行 训练,将该算法应用到基于注意力融合的图像描 述模型中,解决了交叉熵训练方法存在的曝光偏 差和衡量标准不一致的问题,提高了基于注意力 融合的图像描述模型生成描述的准确率。 2 模型框架 2.1 整体模型 基于注意力融合的图像描述模型主要由图像 特征提取、特征编码、注意力模型和特征解码等 部分组成。使用 ResNet-101[ 3 3 ] 作为 Faster RCNN 的特征提取网络以提高图像特征提取的能 力和目标检测的精度,Faster R-CNN 作为编码器 能够提取图像中物体和显著视觉区域的位置和名 称属性信息,将目标对应的特征向量和名称属性 ·742· 智 能 系 统 学 报 第 15 卷
第4期 莫宏伟,等:基于注意力融合的图像描述生成方法 ·743· 信息分别作为空间注意力机制和高层语义注意力 码器,最终由解码器生成单词序列,基于注意力 机制的输入,经过注意力模型整合处理后送入解 融合的图像描述模型结构如图1所示。 two women are playing soccer <E> 单词概率分布 V) p V.) 输出词嵌入 Vo04 LSTM ho LSTM LSTM LSTM LSTM LSTM LSTM 7T=0 T=1 7T=2 T=3 =4 T=5 T=6 输入词嵌人 eplayin socce 输入单词 me are aying 注意力机制 图像全局 Wil 特征1 Faster R-CNN 目标特征 全局平均池化 目标图像特征向五 目标名称 词嵌入 目标名称属性向量 图1基于注意力融合的图像描述模型结构 Fig.I Image caption model structure based on attention fusion 使用Faster R-CNN模型对输入图像进行检 相等,使用注意力模型同时决定两者的权重。 测,并提供空间注意力和高层语义注意力,目标 2.2注意力机制 对应的图像特征隐式地包含了名称属性信息,对 本文使用的注意力模型选取目标对应的特征 该图像特征进行推断得到目标的名称属性,在其 向量{,2,…,V}和名称属性向量{a,2,…,an}以 中筛选置信度大于0.3的目标作为注意力机制的 及解码器中长短期记忆网络上一时刻的隐藏状态 输入。被检测到目标的空间位置信息对应在Res h-1来决定当前时刻选取的特征向量和名称属性 Net-l01最后一层卷积层的特征图,将其进行平均 向量的权重,计算公式为 池化处理得到2048维的图像特征向量作为空间 ey=f(h-l,Vaj) (1) 注意机制的输入,将目标的名称属性经过词嵌入 exp(eii) 表示为512维的名称属性向量作为高层语义注意 qi= (2) 力的输入。将ResNet-l01最后一层卷积层的特征 图经过平均池化处理得到2048维的图像全局特 p6 T 其中注意力机制f血是一个多层感知机模型,对其 征向量作为编码器初始时刻的输入,目标对应的 输出结果使用Softmax进行归一化可以得到目标 图像特征向量和名称属性向量经过注意力机制的 分配在解码器生成单词的过程中动态地指导单词 对应的特征在时刻i的权重分布,这些权重就表 序列的生成。使用在ImageNet数据集上预先训 示描述模型对图像各目标的重视程度。 练好的Faster R-CNN作为编码器,在训练图像描 当前时刻输人的视觉上下文信息为 述模型时固定Faster R-CNN的参数,仅对注意力 4= (3) 机制和解码器的参数进行训练。本文直接设置目 标对应的特征向量的权重与名称属性向量的权重 将图像全局特征V分别通过两个独立的多层
信息分别作为空间注意力机制和高层语义注意力 机制的输入,经过注意力模型整合处理后送入解 码器,最终由解码器生成单词序列,基于注意力 融合的图像描述模型结构如图 1 所示。 单词概率分布 输出词嵌入 输入词嵌入 输入单词 注意力机制 图像全局 特征 1 目标特征 目标名称 词嵌入 全局平均池化 目标图像特征向量 目标名称属性向量 two p (y1 ) p (y2 ) p (y3 ) p (y4 ) p (y5 ) p (y6 ) WoO1 WoO2 WoO3 WoO4 WoO5 WoO6 LSTM h0 T=0 LSTM T=1 LSTM T=2 LSTM T=3 LSTM T=4 LSTM T=5 LSTM T=6 We<S> Wetwo Wewomen Weare Weplaying Wesoccer <S> two women Faster R-CNN WiI are playing soccer h1 h2 h3 h4 h5 women are playing soccer <E> 图 1 基于注意力融合的图像描述模型结构 Fig. 1 Image caption model structure based on attention fusion 使用 Faster R-CNN 模型对输入图像进行检 测,并提供空间注意力和高层语义注意力,目标 对应的图像特征隐式地包含了名称属性信息,对 该图像特征进行推断得到目标的名称属性,在其 中筛选置信度大于 0.3 的目标作为注意力机制的 输入。被检测到目标的空间位置信息对应在 ResNet-101 最后一层卷积层的特征图,将其进行平均 池化处理得到 2 048 维的图像特征向量作为空间 注意机制的输入,将目标的名称属性经过词嵌入 表示为 512 维的名称属性向量作为高层语义注意 力的输入。将 ResNet-101 最后一层卷积层的特征 图经过平均池化处理得到 2 048 维的图像全局特 征向量作为编码器初始时刻的输入,目标对应的 图像特征向量和名称属性向量经过注意力机制的 分配在解码器生成单词的过程中动态地指导单词 序列的生成。使用在 ImageNet 数据集上预先训 练好的 Faster R-CNN 作为编码器,在训练图像描 述模型时固定 Faster R-CNN 的参数,仅对注意力 机制和解码器的参数进行训练。本文直接设置目 标对应的特征向量的权重与名称属性向量的权重 相等,使用注意力模型同时决定两者的权重。 2.2 注意力机制 {v1, v2,··· , vn} {α1,α2,··· ,αn} hi−1 αi j 本文使用的注意力模型选取目标对应的特征 向量 和名称属性向量 以 及解码器中长短期记忆网络上一时刻的隐藏状态 来决定当前时刻选取的特征向量和名称属性 向量的权重 ,计算公式为 ei j = fatt( hi−1, vj ,aj ) (1) αi j = exp( ei j) ∑Tx k=1 exp(eik) (2) f 其中注意力机制 att 是一个多层感知机模型,对其 输出结果使用 Softmax 进行归一化可以得到目标 对应的特征在时刻 i 的权重分布,这些权重就表 示描述模型对图像各目标的重视程度。 当前时刻输入的视觉上下文信息 zi 为 zi = ∑L j=1 αi jvj , ∑L j=1 αi jaj (3) 将图像全局特征 V 分别通过两个独立的多层 第 4 期 莫宏伟,等:基于注意力融合的图像描述生成方法 ·743·
·744· 智能系统学报 第15卷 感知机计算得到长短期记忆网络的细胞单元状态 损失函数关于参数θ的梯度为 co和隐藏状态的初始值: VoL(0)=-E,-p.[r(y)Vologpo(y)] (12) Co=finite (V) (4) 训练时使用蒙特卡罗方法从概率分布P%中 ho=finit (V) (5) 采样得到的句子序列y可以近似得到期望梯度, 然后,根据前一时刻的输出y-1、前一时刻的 对于每个训练样本有: 隐藏状态h-1和视觉上下文z可以计算得到当前 VL(0≈-ry)7 logpe(y) (13) 时刻的隐藏状态,由长短期记忆网络的公式计 使用链式法则,将损失函数关于参数0的梯 算可得: 度表示为 h;LSTM(y1,h1) (6) 由当前时刻的隐藏状态、视觉上下文信息以 10=乃@2 台品a0 (14) 及前一时刻的输出通过Softmax可以得到当前输 其中z,表示softmax层的输入。 出单词的概率分布: 将模型通过贪婪解码方法得到的句子y= p(yilzi,y-1)=softmax(Ey1+Lih+L)(7) y12,…y}在图像描述指标上的得分ry)作为 模型使用交叉熵损失函数进行训练,给定人 基线,可以得到: 工标注描述y,使用0表示模型中的参数,交叉嫡 损失函数L(0的表达式为 aL@≈ry-r6ph)-l) (15) L(0=- ∑1og(p6ya,1》+l6Ig 由式(1)可得,当采样所得句子的得分高于 (8) 基线时,模型会向增大生成该类型句子概率的方 其中I0匠表示L2正则化项,可以防止模型过 向调整参数,若低于基线,模型会向降低生成该 拟合,加快模型收敛的速度。 类型句子概率的方向调整参数。这种训练方法可 2.3模型优化 使模型在训练时通过采样得到的结果优于测试测 REINFORCE算法是强化学习中一种常用的 时通过贪婪解码方式得到的结果,不仅能减少梯 策略梯度算法,首先将策略参数化用以估计目标 度的方差,而且使模型的训练更加稳定。 函数对策略参数的梯度,然后根据梯度下降算法 3实验设置 不断对策略参数进行更新,直至找到最优策略。 由于REINFORCE算法在模型的训练过程中 3.1 数据集预处理 能够对离散和不可微的指标进行优化,适用于处 本文使用COCO341数据集,采用Karpathy 理文本序列生成问题,在训练时可以直接优化评 分割方法B将数据集分为训练集、验证集和测试 价指标对模型进行训练以提高模型生成描述的效 集,选取113287张图像和对应的人工标注描述 果。所以将REINFORCE算法应用到基于注意力 作为训练集,分别选取5000张图像和对应的人 融合的图像描述模型中,将图像描述评价指标作 工标注描述作为验证集和测试集。 为奖励函数,把模型的参数看成状态,把生成的 训练模型之前需要先对数据集中的图像和人 描述在图像描述评价指标上的得分作为奖励,并 工标注描述进行预处理。对于人工标注描述,先 利用得到的奖励来更新模型参数。 将其中所有单词转换成小写的形式,使用空格替 使用图像描述评价指标CIDEr作为奖励函 代标点符号,然后统计所有单词出现的次数,将 数,模型生成的图像描述为y,数据集中图像对应 出现频率超过5次的单词构成单词表,并使用 的人工标注描述为s,则奖励ry)表示为 <UNK>替换出现频率小于5次的单词,以避免罕 r(y)=CIDEr(y.s) (9) 见单词不利于描述文本的生成,最终得到的单词 图像描述模型训练的目标是最大化期望奖 表包含9487个单词。 励,其表达式为 3.2模型训练 L(0=-Em[r(y刀 (10) 实验中使用的图像全局特征和目标对应的局 其中y=,…,y}表示模型采样得到的单词所 部特征的维度均设置为2048,词向量的维度设置 构成的单词序列,图像描述生成的单词是从单词 为512,长短期记忆网络隐藏层的维度设置为 的概率分布P。中采样得到的,单个采样样本对应 512,生成的描述文本最大长度设置为16。 的损失函数可以近似为 模型训练使用的批量大小设置为64,最大迭 L(0≈-ry),y~pg (11) 代周期设置为30。使用Adam优化算法作为训
c0 感知机计算得到长短期记忆网络的细胞单元状态 和隐藏状态的初始值: c0 = finit,c (V) (4) h0 = finit,h (V) (5) yi−1 hi−1 zi hi 然后,根据前一时刻的输出 、前一时刻的 隐藏状态 和视觉上下文 可以计算得到当前 时刻的隐藏状态 ,由长短期记忆网络的公式计 算可得: hi = LSTM(yi−1,hi−1,zi) (6) 由当前时刻的隐藏状态、视觉上下文信息以 及前一时刻的输出通过 Softmax 可以得到当前输 出单词的概率分布: p(yi |zi , yi−1) = softmax(Eyi−1 + Lhhi + Lzzi) (7) y ∗ θ L(θ) 模型使用交叉熵损失函数进行训练,给定人 工标注描述 ,使用 表示模型中的参数,交叉熵 损失函数 的表达式为 L(θ) = − ∑N i=1 log(p ( y ∗ i zi , y ∗ i−1 ))+λθ∥ θ ∥ 2 2 (8) λθ∥ θ ∥ 2 其中 2 表示 L2 正则化项,可以防止模型过 拟合,加快模型收敛的速度。 2.3 模型优化 REINFORCE 算法是强化学习中一种常用的 策略梯度算法,首先将策略参数化用以估计目标 函数对策略参数的梯度,然后根据梯度下降算法 不断对策略参数进行更新,直至找到最优策略。 由于 REINFORCE 算法在模型的训练过程中 能够对离散和不可微的指标进行优化,适用于处 理文本序列生成问题,在训练时可以直接优化评 价指标对模型进行训练以提高模型生成描述的效 果。所以将 REINFORCE 算法应用到基于注意力 融合的图像描述模型中,将图像描述评价指标作 为奖励函数,把模型的参数看成状态,把生成的 描述在图像描述评价指标上的得分作为奖励,并 利用得到的奖励来更新模型参数。 r(y) 使用图像描述评价指标 CIDEr 作为奖励函 数,模型生成的图像描述为 y,数据集中图像对应 的人工标注描述为 s,则奖励 表示为 r(y) = CIDEr(y,s) (9) 图像描述模型训练的目标是最大化期望奖 励,其表达式为 L(θ) = −Ey s∼pθ [r( y s )] (10) y s = { y s 1 , y s 2 ,··· , y s T } pθ 其中 表示模型采样得到的单词所 构成的单词序列,图像描述生成的单词是从单词 的概率分布 中采样得到的,单个采样样本对应 的损失函数可以近似为 L(θ) ≈ −r(y s ), y s ∼ pθ (11) 损失函数关于参数 θ 的梯度为 ∇θL(θ) = −Ey s∼pθ [ r(y s )∇θ logpθ ( y s )] (12) pθ y s 训练时使用蒙特卡罗方法从概率分布 中 采样得到的句子序列 可以近似得到期望梯度, 对于每个训练样本有: ∇θL(θ) ≈ −r(y s )∇θ logpθ (y s ) (13) 使用链式法则,将损失函数关于参数 θ 的梯 度表示为 ∇θL(θ) = ∑T t=1 ∂L(θ) ∂zt ∂zt ∂θ (14) 其中 zt 表示 softmax 层的输入。 y = {y1, y2,··· , yT } r(y) 将模型通过贪婪解码方法得到的句子 在图像描述指标上的得分 作为 基线,可以得到: ∂L(θ) ∂zt ≈ (r( y s )−r(y ))(pθ (yt |ht)−1y s t ) (15) 由式(1)可得,当采样所得句子的得分高于 基线时,模型会向增大生成该类型句子概率的方 向调整参数,若低于基线,模型会向降低生成该 类型句子概率的方向调整参数。这种训练方法可 使模型在训练时通过采样得到的结果优于测试测 时通过贪婪解码方式得到的结果,不仅能减少梯 度的方差,而且使模型的训练更加稳定。 3 实验设置 3.1 数据集预处理 本文使用 COCO[ 3 4 ] 数据集,采用 Karpathy 分割方法[35] 将数据集分为训练集、验证集和测试 集,选取 113 287 张图像和对应的人工标注描述 作为训练集,分别选取 5 000 张图像和对应的人 工标注描述作为验证集和测试集。 训练模型之前需要先对数据集中的图像和人 工标注描述进行预处理。对于人工标注描述,先 将其中所有单词转换成小写的形式,使用空格替 代标点符号,然后统计所有单词出现的次数,将 出现频率超过 5 次的单词构成单词表,并使用 <UNK>替换出现频率小于 5 次的单词,以避免罕 见单词不利于描述文本的生成,最终得到的单词 表包含 9 487 个单词。 3.2 模型训练 实验中使用的图像全局特征和目标对应的局 部特征的维度均设置为 2 048,词向量的维度设置 为 512,长短期记忆网络隐藏层的维度设置为 512,生成的描述文本最大长度设置为 16。 模型训练使用的批量大小设置为 64,最大迭 代周期设置为 30。使用 Adam 优化算法[36] 作为训 ·744· 智 能 系 统 学 报 第 15 卷