当前位置：和泉文库 > 电气与自动化 > 浏览文档

【人工智能】一致性协议匹配的跨模态图像文本检索方法

文件格式：PDF，文件大小：4.66MB，售价：3.12元

文档详细内容（约8页）

第16卷第6期智能系统学报 Vol.16 No.6 2021年11月 CAAI Transactions on Intelligent Systems Nov.2021 D0:10.11992/tis.202108013 网络出版地址：https:/ns.cnki.net/kcms/detail/23.1538.TP.20210922.1142.004html 一致性协议匹配的跨模态图像文本检索方法宫大汉2，陈辉，陈仕江，包勇军5，丁贵广2 (1.清华大学软件学院，北京100084；2.清华大学北京信息科学与技术国家研究中心，北京100084,3.清华大学自动化系，北京100084：4.涿溪脑与智能研究所，浙江杭州311121：5.京东集团，北京100176) 摘要：跨模态图像文本检索的任务对于理解视觉和语言之间的对应关系很重要，大多数现有方法利用不同的注意力模块挖掘区域到词和词到区域的对齐来探索细粒度的跨模态关联。然而，现有的方法没有考虑到基于双重注意力会导致对齐不一致的问题。为此，本文提出了一种一致性协议匹配方法，旨在利用一致性对齐来增强跨模态检索的性能。本文采用注意力实现跨模态关联对齐，并基于跨模态对齐结果设计了基于竞争性投票的跨模态协议，该协议衡量了跨模态对齐的一致性，可以有效提升跨模态图像文本检索的性能。在Flickr30K 和MS COCO两个基准数据集上，本文通过大量的实验证明了所提出的方法的有效性。关键词：人工智能：计算机视觉；视觉和语言；跨模态检索：一致性协议匹配：注意力；卷积神经网络；循环神经网络：门控循环单元中图分类号：TP18文献标志码：A文章编号：1673-4785(2021)06-1143-08 中文引用格式：宫大汉，陈辉，陈仕江，等.一致性协议匹配的跨模态图像文本检索方法J.智能系统学报，2021,16(6)： 1143-1150. 英文引用格式：GONG Dahan,,CHEN Hui,.CHEN Shijiang,etal.Matching with agreement for cross-modal image-text retrievall,. CAAI transactions on intelligent systems,2021,16(6):1143-1150. Matching with agreement for cross-modal image-text retrieval GONG Dahan2,CHEN Hui23,CHEN Shijiang',BAO Yongjun,DING Guiguang'2 (1.School of Software,Tsinghua University,Beijing 100084,China;2.Beijing National Research Center for Information Science and Technology,Tsinghua University,Beijing 100084,China;3.Department of Automation,Tsinghua University,Beijing 100084, China:4.Zhuoxi Institute of Brain and Intelligence,Hangzhou 311121,China;5.Jd.Com,Inc,Beijing 100176,China) Abstract:The task of cross-modal image-text retrieval is important to understand the correspondence between vision and language.Most existing methods leverage different attention modules to explore region-to-word and word-to-region alignments and study fine-grained cross-modal correlations.However,the inconsistent alignment problem based on at- tention has rarely been considered.This study proposes a matching with agreement(MAG)method,which aims to take advantage of the alignment consistency,enhancing the cross-modal retrieval performance.The attention mechanism is adopted to achieve the cross-modal association alignment,which is then used to perform a cross-modal matching agree- ment with a novel competitive voting strategy.This agreement evaluates the cross-modal matching consistency and ef- fectively improves the performance.The extensive experiments on two benchmark datasets,namely,Flickr30K and MS COCO,show that our MAG method can achieve state-of-the-art performance,demonstrating its effectiveness well. Keywords:artificial intelligence;computer vision;vision and language;cross-modal retrieval;matching with agree- ment:attention:convolutional neural network:recurrent neural network:gated recurrent unit 随着社交媒体的空前发展，互联网上积累了大量的用户数据，比如图像、文本、语音等。利用收稿日期：2021-08-13.网络出版日期：2021-09-23 这些跨模态数据挖掘用户需求，提升产品服务，成基金项目：国家自然科学基金项目(61925107，U1936202):中国为了工业界的迫切需求之一。跨模态图像文本检博士后科学基金创新人才支持计划项目(BX2021161). 通信作者：丁贵广.E-mail:dinggg@tsinghua.edu.cn 索是实现跨模态数据挖掘的关键技术之一。它旨

DOI: 10.11992/tis.202108013 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210922.1142.004.html 一致性协议匹配的跨模态图像文本检索方法宫大汉1,2，陈辉2,3，陈仕江4 ，包勇军5 ，丁贵广1,2 （1. 清华大学软件学院，北京 100084; 2. 清华大学北京信息科学与技术国家研究中心，北京 100084; 3. 清华大学自动化系，北京 100084; 4. 涿溪脑与智能研究所，浙江杭州 311121; 5. 京东集团，北京 100176）摘要：跨模态图像文本检索的任务对于理解视觉和语言之间的对应关系很重要，大多数现有方法利用不同的注意力模块挖掘区域到词和词到区域的对齐来探索细粒度的跨模态关联。然而，现有的方法没有考虑到基于双重注意力会导致对齐不一致的问题。为此，本文提出了一种一致性协议匹配方法，旨在利用一致性对齐来增强跨模态检索的性能。本文采用注意力实现跨模态关联对齐，并基于跨模态对齐结果设计了基于竞争性投票的跨模态协议，该协议衡量了跨模态对齐的一致性，可以有效提升跨模态图像文本检索的性能。在 Flickr30K 和 MS COCO 两个基准数据集上，本文通过大量的实验证明了所提出的方法的有效性。关键词：人工智能；计算机视觉；视觉和语言；跨模态检索；一致性协议匹配；注意力；卷积神经网络；循环神经网络；门控循环单元中图分类号：TP18 文献标志码：A 文章编号：1673−4785(2021)06−1143−08 中文引用格式：宫大汉, 陈辉, 陈仕江, 等. 一致性协议匹配的跨模态图像文本检索方法 [J]. 智能系统学报, 2021, 16(6): 1143–1150. 英文引用格式：GONG Dahan, CHEN Hui, CHEN Shijiang, et al. Matching with agreement for cross-modal image-text retrieval[J]. CAAI transactions on intelligent systems, 2021, 16(6): 1143–1150. Matching with agreement for cross-modal image-text retrieval GONG Dahan1,2 ，CHEN Hui2,3 ，CHEN Shijiang4 ，BAO Yongjun5 ，DING Guiguang1,2 (1. School of Software, Tsinghua University, Beijing 100084, China; 2. Beijing National Research Center for Information Science and Technology, Tsinghua University, Beijing 100084, China; 3. Department of Automation, Tsinghua University, Beijing 100084, China; 4. Zhuoxi Institute of Brain and Intelligence, Hangzhou 311121, China; 5. Jd.Com, Inc, Beijing 100176, China) Abstract: The task of cross-modal image-text retrieval is important to understand the correspondence between vision and language. Most existing methods leverage different attention modules to explore region-to-word and word-to-region alignments and study fine-grained cross-modal correlations. However, the inconsistent alignment problem based on attention has rarely been considered. This study proposes a matching with agreement (MAG) method, which aims to take advantage of the alignment consistency, enhancing the cross-modal retrieval performance. The attention mechanism is adopted to achieve the cross-modal association alignment, which is then used to perform a cross-modal matching agreement with a novel competitive voting strategy. This agreement evaluates the cross-modal matching consistency and effectively improves the performance. The extensive experiments on two benchmark datasets, namely, Flickr30K and MS COCO, show that our MAG method can achieve state-of-the-art performance, demonstrating its effectiveness well. Keywords: artificial intelligence; computer vision; vision and language; cross-modal retrieval; matching with agreement; attention; convolutional neural network; recurrent neural network; gated recurrent unit 随着社交媒体的空前发展，互联网上积累了大量的用户数据，比如图像、文本、语音等。利用这些跨模态数据挖掘用户需求，提升产品服务，成为了工业界的迫切需求之一。跨模态图像文本检索是实现跨模态数据挖掘的关键技术之一。它旨收稿日期：2021−08−13. 网络出版日期：2021−09−23. 基金项目：国家自然科学基金项目 (61925107，U1936202)；中国博士后科学基金创新人才支持计划项目 (BX2021161). 通信作者：丁贵广. E-mail：dinggg@tsinghua.edu.cn. 第 16 卷第 6 期智能系统学报 Vol.16 No.6 2021 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2021

·1144· 智能系统学报第16卷在探索图像和文本之间的对应关系，实现图像和文本的跨模态信息理解，以及文本检索图像或图区域像检索文本的智能服务。图像和文本的跨模态检 :s1- 单词不一致索在实际社交媒体领域有广泛的技术应用价值， beautiful 一致比如在人机交互、商业化广告文案推荐以及内容推单词区域荐等领域，因此吸引了众多研究人员的注意力。 A girl dressed up in a beautiful dress. 在实际场景中，跨模态图像文本检索面临两 r 大挑战：1)不同模态数据的异质性阻碍了模型学图1对齐不一致问题习到优异的跨模态表示；2)视觉和语言之间关联 Fig.1 Inconsistent alignment problem 丰富而复杂，准确挖掘两者的对应关系十分困本文旨在充分挖掘不同对齐方式的一致性信难。为了解决以上挑战，前人工作提出了特征嵌息，来增强跨模态图像和文本的匹配准确性。本入表示技术来联合学习图像和文本的特征。Wang 文提出了一种一致性协议匹配的方法(matching 等四使用双视图网络分别将图像和文本映射到共 with agreement,MAG),如图2所示，在使用注意力享嵌入空间中，然后采用一个保结构的双向目标机制得到对齐上下文特征后，构建了区域-单词函数来优化网络。Faghri等回提出使用难负例来关联信息表示和单词-区域关联信息表示，并在增强嵌入空间的学习，实现了性能的显著性提此基础上，提出关联信息一致性协议的匹配策升。然而特征嵌入表示方法将图像和文本信息映略，提升图像和文本的跨模态检索性能。射到统一的向量空间中，忽视了图像和文本信息的复杂性，以及两者之间信息关联的多样性和复不同意杂性。近年来，研究人员提出了许多方法来挖掘关联信息表示 0 Beautiful 图像和文本之间的细粒度的跨模态关联信息。 Dress Karpathy等将图像中的每个区域与文本中的每 Dress 个单词对齐，提出了一种基于片段的匹配方法。 ④ Dress →Dress Nam等使用注意力机制和记忆机制来动态探同意索图像和文本之间的微妙交互。Lee等o提出了一种堆叠交叉注意力模型，称为SCAN,取得了先图2一致性协议匹配进的图像文本检索性能。 Fig.2 Matching with agreement 所提出的一致性协议匹配(MAG)方法包含 1本文工作 4个层，即表示层、对齐层、协议层和匹配层。其 SCAN的成功很好地展示了细粒度跨模态关中，在表示层，本文使用卷积神经网络(convolu- 联关系挖掘的优势。然而，这种方式依靠注意力 tional neural network,.CNN)和循环神经网络(recur-- 来实现片段（即区域和单词）之间的匹配，只关注 rent neural network,RNN)分别提取了图像区域和两者的一阶关系，并不能反映两种不同匹配方式单词的特征：在对齐层，使用注意力机制得到区之间的一致性。具体来说，SCAN分别用注意力域-单词对齐和单词-区域对齐；接着在协议层构建了区域-单词和单词-区域的两种对齐方式，中，两种不同的对齐可以通过融合注意力机制里其中区域-单词是计算所有单词跟给定区域的相的上下文特征得到关联信息表示，并采用竞争性似性得分，并经过规范化操作得到相似性分布，投票的方案得到对齐一致性得分；最后在匹配层同样地，单词-区域是计算所有区域跟给定单词通过聚合不同的匹配线索，获得图像文本对之间的规范化后的相似性得分。由于规范化操作，单的相似性。词和区域的相似性度量在两种对齐方式中会得到本文在两个大型的跨模态图像文本检索的基不一样的得分，使得出现不同的情况。比如在图1 准数据集(Flickr30K和MS COCO)上进行了大量中，在区域-单词匹配方式中，和区域，最相关的的实验，实验结果表明，相比于一系列先进的跨词是dress,而和beautiful的相关性较弱，而在单模态图像文本检索基线模型，本文提出的一致性词-区域匹配方式中，区域2却是和beautiful最相协议匹配方法在两个数据集上都具有显著的性能关的区域。这种矛盾说明了两种方式不一致的优势，进一步的模型分析和实例分析很好地验证问题。了所提出方法的有效性和优越性

在探索图像和文本之间的对应关系，实现图像和文本的跨模态信息理解，以及文本检索图像或图像检索文本的智能服务。图像和文本的跨模态检索在实际社交媒体领域有广泛的技术应用价值，比如在人机交互、商业化广告文案推荐以及内容推荐等领域，因此吸引了众多研究人员的注意力。在实际场景中，跨模态图像文本检索面临两大挑战：1) 不同模态数据的异质性阻碍了模型学习到优异的跨模态表示；2) 视觉和语言之间关联丰富而复杂，准确挖掘两者的对应关系十分困难。为了解决以上挑战，前人工作提出了特征嵌入表示技术来联合学习图像和文本的特征。Wang 等 [1] 使用双视图网络分别将图像和文本映射到共享嵌入空间中，然后采用一个保结构的双向目标函数来优化网络。Faghri 等 [2] 提出使用难负例来增强嵌入空间的学习，实现了性能的显著性提升。然而特征嵌入表示方法将图像和文本信息映射到统一的向量空间中，忽视了图像和文本信息的复杂性，以及两者之间信息关联的多样性和复杂性。近年来，研究人员提出了许多方法来挖掘图像和文本之间的细粒度的跨模态关联信息。 Karpathy 等 [3] 将图像中的每个区域与文本中的每个单词对齐，提出了一种基于片段的匹配方法。 Nam 等 [4] 使用注意力机制[5] 和记忆机制来动态探索图像和文本之间的微妙交互。Lee 等 [6] 提出了一种堆叠交叉注意力模型，称为 SCAN，取得了先进的图像文本检索性能。 1 本文工作 SCAN 的成功很好地展示了细粒度跨模态关联关系挖掘的优势。然而，这种方式依靠注意力来实现片段 (即区域和单词) 之间的匹配，只关注两者的一阶关系，并不能反映两种不同匹配方式之间的一致性。具体来说，SCAN 分别用注意力构建了区域−单词和单词−区域的两种对齐方式，其中区域−单词是计算所有单词跟给定区域的相似性得分，并经过规范化操作得到相似性分布，同样地，单词−区域是计算所有区域跟给定单词的规范化后的相似性得分。由于规范化操作，单词和区域的相似性度量在两种对齐方式中会得到不一样的得分，使得出现不同的情况。比如在图 1 中，在区域−单词匹配方式中，和区域 r2 最相关的词是 dress，而和 beautiful 的相关性较弱，而在单词−区域匹配方式中，区域 r2 却是和 beautiful 最相关的区域。这种矛盾说明了两种方式不一致的问题。 A girl dressed up in a beautiful dress. 一致不一致 beautiful dress 区域- 单词单词- 区域 r1 r2 r3 r1 r2 r3 图 1 对齐不一致问题 Fig. 1 Inconsistent alignment problem 本文旨在充分挖掘不同对齐方式的一致性信息，来增强跨模态图像和文本的匹配准确性。本文提出了一种一致性协议匹配的方法 (matching with agreement，MAG)，如图 2 所示，在使用注意力机制得到对齐上下文特征后，构建了区域−单词关联信息表示和单词−区域关联信息表示，并在此基础上，提出关联信息一致性协议的匹配策略，提升图像和文本的跨模态检索性能。 2 4 1 3 1 2 3 4 1 2 3 4 不同意同意 Beautiful Beautiful Dress Dress Dress Dress Beautiful 关联信息表示 Beautiful 图 2 一致性协议匹配 Fig. 2 Matching with agreement 所提出的一致性协议匹配 (MAG) 方法包含 4 个层，即表示层、对齐层、协议层和匹配层。其中，在表示层，本文使用卷积神经网络 (convolutional neural network, CNN) 和循环神经网络 (recurrent neural network, RNN) 分别提取了图像区域和单词的特征；在对齐层，使用注意力机制得到区域−单词对齐和单词−区域对齐；接着在协议层中，两种不同的对齐可以通过融合注意力机制里的上下文特征得到关联信息表示，并采用竞争性投票的方案得到对齐一致性得分；最后在匹配层通过聚合不同的匹配线索，获得图像文本对之间的相似性。本文在两个大型的跨模态图像文本检索的基准数据集 (Flickr30K 和 MS COCO) 上进行了大量的实验，实验结果表明，相比于一系列先进的跨模态图像文本检索基线模型，本文提出的一致性协议匹配方法在两个数据集上都具有显著的性能优势，进一步的模型分析和实例分析很好地验证了所提出方法的有效性和优越性。 ·1144· 智能系统学报第 16 卷

第6期宫大汉，等：一致性协议匹配的跨模态图像文本检索方法 ·1145· 2 相关工作泛使用的目标函数。基于细粒度对齐的方法旨在探索图像和文本跨模态图像文本检索的相关工作通常使用深之间潜在的细粒度对应关系。Karpathy等)将图度神经网络来避免使用手工制作的特征。它们可像和文本的片段对齐到公共空间中，并通过聚合以大致分为两类：基于嵌入的方法和基于细粒度局部对齐来计算图像和文本的全局相似度。对齐的方法。 Niu等提出了一种分层模型，其中图像和文本基于嵌入的方法通常学习一个共享的嵌入空通过分层策略实现实例到特征的全局和局部联合间，并通过计算嵌入空间中图像和文本特征之间映射。Lee等6提出了一个堆叠交叉注意力模的距离来估计图像和文本之间的相似性。Frome 等忉尝试通过CNN和Skip-Gram模型9来学习型，旨在发现图像区域和文本词之间的完整潜在跨模态表示。类似地，Kiros等o采用CNN来提对齐，并在多个基准数据集上实现先进的性能。取视觉特征，并采用门循环单元(gated recurrent 3 一致性协议匹配 unit,GRU)u来提取文本特征。Faghri等提出了一种难负例挖掘的三元组损失函数，取得了显著本节讨论所提出的一致性协议匹配方法，如的性能提升，并成为跨模态图像文本检索领域广图3所示。表示层对齐层协议层匹配层区域单词对齐 1 Z1Z.…Z AG 语义一致损失 NN Z + Bi-GRUs .Cn AG A horse walkson 排序 the road. 单词区域对齐损失图3一致性协议匹配方法框架 Fig.3 Framework of the proposed MAG method 3.1表示层用V={li=1,2,…,my,∈R}来表示图像特征。在表示层，本文的目标是在潜在共享特征空给定有n个词的文本S={w1,w2,…,wl,本文间中对图像和文本的信息进行特征表达，以估计使用一个双向门控循环单元(bidirectional GRU, 它们之间的相似性。给定一个包含N个图像文 Bi-GRU充当文本编码器。首先，本文首先将每个本对的数据集D={(L,S)心，其中，1代表图像，S 离散的单词w,使用独热码进行表示，接着使用一代表文本。本文使用两个不同的编码器分别提取个可学习的嵌入矩阵将独热码转化为一个词向量图像的视觉信息和文本的文本信息。 e。然后使用一个Bi-GRU分别从左到右（前向）具体来说，给定图像1，本文使用一个预训练和从右到左（后向）两个方向对词向量进行处理：的对象检测模型Faster R-CNN)来充当图像编码器。Faster R-CNN会推断出图像中的显著性对象威e5 (2) 信息，并以包围框的方式定位到对象的区域，记式中方和方分别表示前向GRU和后向GRU的为，并将经过区域池化操作得到对象的特征记隐藏状态向量。最后，单词w的上下文表示可以为。接着，本文使用一个线性变换层将区域特通过公式获得：1=(，+五)2。为了使单词特征征映射到一个d隐层特征空间中：和图像区域特征，可以在特征空间中进行计 v:=W f+b (1) 算，这里设置Bi-GRU的隐藏状态向量维度和，式中：是区域”在隐层特征空间中的特征表示：一样，有teR。为了方便下文描述，本文用T={tj= W,和b,是线性变换的可学习参数。为了方便描 1,2,…,nt∈R4来表示文本S的特征。述，假定图像I,Faster R-CNN检测到m个对象区 3.2对齐层域，则最终可以得到m个特征来表示图像1，本文对齐层旨在探索视觉信息和文本信息之间的

2 相关工作跨模态图像文本检索的相关工作通常使用深度神经网络来避免使用手工制作的特征。它们可以大致分为两类：基于嵌入的方法和基于细粒度对齐的方法。基于嵌入的方法通常学习一个共享的嵌入空间，并通过计算嵌入空间中图像和文本特征之间的距离来估计图像和文本之间的相似性。Frome 等 [7] 尝试通过 CNN[8] 和 Skip-Gram 模型[9] 来学习跨模态表示。类似地，Kiros 等 [10] 采用 CNN 来提取视觉特征，并采用门循环单元 (gated recurrent unit, GRU)[11] 来提取文本特征。Faghri 等 [2] 提出了一种难负例挖掘的三元组损失函数，取得了显著的性能提升，并成为跨模态图像文本检索领域广泛使用的目标函数。基于细粒度对齐的方法旨在探索图像和文本之间潜在的细粒度对应关系。Karpathy 等 [3] 将图像和文本的片段对齐到公共空间中，并通过聚合局部对齐来计算图像和文本的全局相似度。 Niu 等 [12] 提出了一种分层模型，其中图像和文本通过分层策略实现实例到特征的全局和局部联合映射。Lee 等 [6] 提出了一个堆叠交叉注意力模型，旨在发现图像区域和文本词之间的完整潜在对齐，并在多个基准数据集上实现先进的性能。 3 一致性协议匹配本节讨论所提出的一致性协议匹配方法，如图 3 所示。 CNN v1 vi vm c1 v cm v ci v c1 t cn t cj t t1 tj tm v1 vi vn t1 tj tn I S … Bi-GRUs A horse walkson the road. … … … … … … … … … … … … … … … … … … 表示层对齐层协议层匹配层 + + + 排序损失语义一致损失区域-单词对齐单词-区域对齐 y1 yj yn x1 Z1, : Z, : 1 Z2, : Z, : 2 Z, : m AGi v AGj t Zn, : xi xm 图 3 一致性协议匹配方法框架 Fig. 3 Framework of the proposed MAG method 3.1 表示层 N D = { (Ik ,S k) N k=1 } I S 在表示层，本文的目标是在潜在共享特征空间中对图像和文本的信息进行特征表达，以估计它们之间的相似性。给定一个包含个图像文本对的数据集，其中，代表图像, 代表文本。本文使用两个不同的编码器分别提取图像的视觉信息和文本的文本信息。 I ri fi d 具体来说，给定图像，本文使用一个预训练的对象检测模型 Faster R-CNN[13] 来充当图像编码器。Faster R-CNN 会推断出图像中的显著性对象信息，并以包围框的方式定位到对象的区域，记为，并将经过区域池化操作得到对象的特征记为。接着，本文使用一个线性变换层将区域特征映射到一个隐层特征空间中： vi = Wv fi +bv (1) vi ri Wv bv I m m I 式中：是区域在隐层特征空间中的特征表示；和是线性变换的可学习参数。为了方便描述，假定图像，Faster R-CNN 检测到个对象区域，则最终可以得到个特征来表示图像，本文 V = { vi |i = 1,2,··· ,m; vi ∈ R d 用 } 来表示图像特征。 n S = {w1,w2,··· ,wn} wj ej 给定有个词的文本，本文使用一个双向门控循环单元 (bidirectional GRU, Bi-GRU) 充当文本编码器。首先，本文首先将每个离散的单词使用独热码进行表示，接着使用一个可学习的嵌入矩阵将独热码转化为一个词向量。然后使用一个 Bi-GRU 分别从左到右 (前向) 和从右到左 (后向) 两个方向对词向量进行处理： →hj = →GRU ( ej ,→hj−1 ) ;←hj = ←GRU ( ej ,←hj+1 ) (2) −→h ←−h wj tj = ( −→h j + ←−h j) / 2 tj vi vi tj ∈ R d T = {tj | j = 1,2,··· ,n;tj ∈ R d } S 式中和分别表示前向 GRU 和后向 GRU 的隐藏状态向量。最后，单词的上下文表示可以通过公式获得：。为了使单词特征和图像区域特征可以在特征空间中进行计算，这里设置 Bi-GRU 的隐藏状态向量维度和一样，有。为了方便下文描述，本文用来表示文本的特征。 3.2 对齐层对齐层旨在探索视觉信息和文本信息之间的第 6 期宫大汉，等：一致性协议匹配的跨模态图像文本检索方法 ·1145·

·1146· 智能系统学报第16卷细粒度关联关系。和前人工作一样，我们采用性矩阵A的不同维度来计算注意力权重，使得同双向注意力机制将图像中的区域和文本中的单词一个区域和单词计算得到的区域-单词对齐和单巧妙地对齐。具体来说，给定图像特征V和文本词-区域对齐可能被赋予不同的重要性，导致对特征T,首先计算图像中每个区域特征：和每个齐不一致（如图1所示）。本文旨在利用这种不一单词特征，之间的相关性：具体来说，给定图像致的特点来强化对图像和文本的相似性的建模。特征V和文本特征T,首先计算图像中每个区域为此，本文提出了一种基于协议的匹配策略，以特征，和每个单词特征t之间的相关性：利用这种对齐不一致的特点。本文首先将对齐层 viti 的对齐操作进行特征实例化，并使用竞争性投票 A=al- Vie[1,m],vje[1,n] (3) 的策略将不同对齐在特征空间中进行一致性度这里，本文用余弦距离来度量两个向量间的量，度量结果作为协议层的输出，表征图像和文相似性，向量上标表示向量转置。A∈Rmx为相本之间的一致性分数。似性矩阵。本文使用注意力机制计算每个区域的具体来说，首先定义对齐操作的特征表示为文本上下文特征和每个单词的图像上下文特征。每个区域或者单词和其对应上下文特征的加和：对于区域，在相似性矩阵A中的第i行表示该区 xi=vi+ci yi=ti+ci (9) 域和文本S的每个单词的相似性，为此，对应的式中：x表示区域-单词对齐(，c)的特征表示；文本上下文特征可以对文本特征T和相似性A: 表示单词-区域对齐(，c)）的特征表示。遍历进行加权和得到： i和方，可以得到一组区域-单词对齐特征实例X={xi= d=ou- exp(Aaii) 1,2,…,m,x∈R和单词-区域对齐特征Y=yj=1, exp(aa) (4) 2,…,n,yjeR。式中：A是一个温度因子；c是区域：对应的文本其次，使用余弦距离来衡量两种对齐特征的上下文特征；a是相似性矩阵A按列规范后的元相似性：素，即 y Z=k- ie[1,ml,Hi∈[1，n (10) (Au) (5) 式中：Z,衡量以区域：为核心的区域-单词对齐特征和以单词w;为核心的单词-区域对齐特征之同理，可以为每个单词计算它对应的图像上间的相似性。如果区域：和单词w,在对方的对下文特征：齐方式中同等重要，即对齐一致，那么Z会很大，反之， exp(Ab) (6) 则是对齐不一致的问题，则Z会较小。因此，Z 〉exp(db 刻画了两种对齐方式是否一致，我们称式(10)为式中：c是单词w对应的图像上下文特征；b是协议操作。相似性矩阵A按行规范后的元素，即为了鼓励一致性的局部对齐（即区域-单词对齐和单词-区域对齐)能够在后续计算图像和文 σ(A) b (7) 本的相似性过程中被赋予更高的重要性，本文对 (A)月 Z的每一行和每一列分别选取最大值，得到两种和Chen等工作一样，给定一个图像文本对协议得分： (I,S),可以通过聚合每个区域特征和其对应的文 AG;max Zij AG=max Zij (11) 本上下文特征的相似性以及聚合每个文本特征和按行取最值可以让每个单词-区域对齐互相其对应的图像上下文特征的相似性得到图像和文竞争，胜者跟区域-单词对齐(，c)最一致。同本的相似性：理，按列取最值可以竞争出跟单词-区域对齐 F0,s)=1e+15 (t,c)最一致的区域-单词对齐。 m之阿+之小阿 (8) 最后，本文将所有的协议得分进行平均，得到因为(y,c)和(G,c)是成对存在的，分别表示图像和文本的协议分数：区域-单词对齐和单词-区域对齐，因此这里定义 (12) F(L,S)为图像文本对(L,S)的对齐分数。 Fs=∑AG+2AG 3.3协议层对比对齐分数（见式(8）)，协议分数F(I,S) 从式(4)和式(6)可以看出，对齐层利用相似可以看成区域和单词的二阶对齐分数，因此作为

V T vi tj V T vi tj 细粒度关联关系。和前人工作[14] 一样，我们采用双向注意力机制将图像中的区域和文本中的单词巧妙地对齐。具体来说，给定图像特征和文本特征 ,首先计算图像中每个区域特征和每个单词特征之间的相关性：具体来说，给定图像特征和文本特征 ,首先计算图像中每个区域特征和每个单词特征之间的相关性： Ai j = vi T t j ∥vi∥ · ∥t j∥ , ∀i ∈ [1,m],∀ j ∈ [1,n] (3) A ∈ R m×n ri A i S T Ai 这里，本文用余弦距离来度量两个向量间的相似性，向量上标表示向量转置。为相似性矩阵。本文使用注意力机制计算每个区域的文本上下文特征和每个单词的图像上下文特征。对于区域 ,在相似性矩阵中的第行表示该区域和文本的每个单词的相似性，为此，对应的文本上下文特征可以对文本特征和相似性进行加权和得到： c t i = ∑n j=1 αi j t j , αi j = exp( λai j) ∑ k exp(λaik) (4) λ c t i ri ai j A 式中：是一个温度因子；是区域对应的文本上下文特征；是相似性矩阵按列规范后的元素，即 ai j = σ(Ai j) / √∑ k σ ( Ak j)2 (5) 同理，可以为每个单词计算它对应的图像上下文特征： c v j = ∑m i=1 βi jvi , βi j = exp( λbi j) ∑ k exp( λbk j) (6) c v j wj bi j A 式中：是单词对应的图像上下文特征；是相似性矩阵按行规范后的元素，即 bi j = σ ( Ai j) √∑ k σ(Aik) 2 (7) (I,S ) 和 Chen 等 [14] 工作一样，给定一个图像文本对，可以通过聚合每个区域特征和其对应的文本上下文特征的相似性以及聚合每个文本特征和其对应的图像上下文特征的相似性得到图像和文本的相似性： Faln (I,S ) = 1 m ∑m i vi T c t i ∥vi∥· c t i + 1 n ∑n j t j T c v j t j · c v j (8) (vi , c t i ) (tj , c v j ) Faln(I,S ) (I,S ) 因为和是成对存在的，分别表示区域−单词对齐和单词−区域对齐，因此这里定义为图像文本对的对齐分数。 3.3 协议层从式 (4) 和式 (6) 可以看出，对齐层利用相似性矩阵 A 的不同维度来计算注意力权重，使得同一个区域和单词计算得到的区域–单词对齐和单词–区域对齐可能被赋予不同的重要性，导致对齐不一致 (如图 1 所示)。本文旨在利用这种不一致的特点来强化对图像和文本的相似性的建模。为此，本文提出了一种基于协议的匹配策略，以利用这种对齐不一致的特点。本文首先将对齐层的对齐操作进行特征实例化，并使用竞争性投票的策略将不同对齐在特征空间中进行一致性度量，度量结果作为协议层的输出，表征图像和文本之间的一致性分数。具体来说，首先定义对齐操作的特征表示为每个区域或者单词和其对应上下文特征的加和： xi = vi + c t i , yj = t j + c v j (9) xi ( vi , c t i ) yj ( ti , c v j ) X = {xi |i = 1,2,··· ,m, xi ∈ R d } Y = {yj | j = 1, 2,··· ,n, yj ∈ R d } 式中：表示区域−单词对齐的特征表示；表示单词−区域对齐的特征表示。遍历 i和j，可以得到一组区域−单词对齐特征实例和单词−区域对齐特征。其次，使用余弦距离来衡量两种对齐特征的相似性： Zi j = x T i yj ∥xi∥· yj , ∀i ∈ [1,m],∀ j ∈ [1,n] (10) Zi j ri wj ri wj Zi j Zi j Zi j 式中：衡量以区域为核心的区域−单词对齐特征和以单词为核心的单词−区域对齐特征之间的相似性。如果区域和单词在对方的对齐方式中同等重要，即对齐一致，那么会很大，反之，则是对齐不一致的问题，则会较小。因此，刻画了两种对齐方式是否一致，我们称式 (10) 为协议操作。 Zi j 为了鼓励一致性的局部对齐 (即区域−单词对齐和单词−区域对齐) 能够在后续计算图像和文本的相似性过程中被赋予更高的重要性，本文对的每一行和每一列分别选取最大值，得到两种协议得分： AGv i = max j Zi j, AGt j = max i Zi j (11) (vi , c t i ) (ti , c v j ) 按行取最值可以让每个单词−区域对齐互相竞争，胜者跟区域−单词对齐最一致。同理，按列取最值可以竞争出跟单词−区域对齐最一致的区域–单词对齐。最后，本文将所有的协议得分进行平均，得到图像和文本的协议分数： Fagr (I,S ) = 1 m ∑m i AGv i + 1 n ∑n j AGt j (12) 对比对齐分数 (见式 (8))，协议分数 Fagr(I,S ) 可以看成区域和单词的二阶对齐分数，因此作为 ·1146· 智能系统学报第 16 卷

第6期宫大汉，等：一致性协议匹配的跨模态图像文本检索方法 ·1147· 对齐分数的补充，可以更好地衡量图像和文本之图片（用MS COCO1K)表示）的平均值。间的相似性。 2)评价指标。本文进行了图像检索文本和文 3.4匹配层本检索图像两类不同的检索任务，采用前K召回匹配层的目的是累积所有匹配线索以估计图率(R@)来评测两种跨模态检索性能，并且和前像和文本之间的相似性。本文将对齐层的对齐分人的工作进行对比。具体来说，本文展示R@1 数和协议层的协议分数结合起来计算给定图像- R@5和R@l0的结果，并且，跟Chen等的工作文本对(L,S)的相似度：一样，本文将所有的指标加起来来综合评价模型 F(I,S)=Fan(I,S)+Fagr(I.S) (13) 的性能，该指标用R@sum表示。训练时，本文采用Faghri等提出的基于难 3)实现细节。本文使用Pytorch1.0来实现负例的三元组排序损失函数来训练模型：所提出的方法。在构建模型时，本文将图像区域 Cak(L,S)=[☑-F(I,S)+F(I,S)】++ (14) 特征的维度设置为1024。Bi-GRU的隐藏向量的 [-F(I.S)+F(I',S)]. 维度也是1024，使得图像区域特征和单词特征的式中：（亿，S)表示一对正例样本；P和S'分别是文维度一致。训练过程中，三元组损失函数中的排本S和图像I的负例样本；[x:=max(0,x):4表示排序间隔，即希望查询样本和正例样本之间的相序间隔设置为0.2，即式(14)中的△默认为0.2，式(4)中的温度因子λ默认设置为9。在更新网似性比查询样本和最难负例样本之间的相似性大络参数时，本文采用Adam8优化器来优化，并且一个4。此外，考虑到在协议层中本文希望能够挖掘每批次数据容量为128张图像文本对。更多的一致性对齐来增强对图像和文本相似性的 4.2模型对比分析度量，为此本文采用Chen等的方法引入语义为了验证所提出的一致性协议匹配方法的先一致性损失函数：进性，本文引入了目前相关的先进的跨模态图像文本检索方法，并在Flickr30K和MS COCO两个 - c (15) 数据集上都进行了模型对比。本文对比的基线模型有DVSA、VSE+、DPC9、SCO2O、SCAN 在训练过程中，从数据集中采样一批次图像 PFAN2、PVSE2和SC。其中，SCAN、PFAN、文本对进行训练，即{(I,S)~D,最终的损失函 PVSE和SC跟本文一样，都是致力于挖掘图像和数是排序损失和一致性损失的加权和：文本之间的细粒度跨模态关联来提升跨模态检索 ∑Can(,S) (16) 性能。表1、2、3分别给出了本文的方法和基线模型在Flickr30K和MS COCO上的对比结果，其式中入n是一个可调节平衡超参数。中，表格中第1列中带*标记的方法表示该结果是采用模型集成的结果，“一”表示该结果未在原始 4有效性验证论文中给出。 4.1实验配置表1 Flickr30K上对比结果 1)数据集。本文采用了两个跨模态图像文本 Table 1 Comparison with state-of-the-art methods on Flickr30K 标准基线数据集来验证所提出的一致性协议匹配方法。①F1ickr30K。这个数据集由31000张图图像检索文本文本检索图像方法 R@sum 片组成，每张图片都至少标注了5个英文文本。 R@1R@5R@I0R@1R@5R@I0 本文采用29000张图片作为训练集，1000张图片 DVSA 22.248.261.4 15.237.750.5 235.2 作为验证集，剩下的1000张图片作为测试集，这 VSE++ 52.9 87.2 39.6 795 也是标准的数据划分。②MSCOCO1。COCO DPC 55.681.989.539.169.280.9 4162 数据集大概有123000张图片，每张图片标注了至 SCO 55.582.089.3 41.170.580.1 418.0 少5个英文句子。和前人工作0一样，本文将123287 SCAN* 67.490.395.848.677.785.2 465.0 张图片划分为113287、5000和5000，分别构成 PFAN* 70.091.095.0 50.478.786.1 472.0 了训练集、验证集和测试集。为了能够公平地评 SC* 69.791.796.4 54.079.787.2 478.7 价模型的结果以及跟别人的工作进行对比，本文同时展示在5000张测试图片上的整体性能（用 MAG(本文)72.192.896.7 52.880.287.1 481.8 MS COCO(5K)表示)以及5次实验（每次1000张 MAG*(本文)74.493.096.854.381.087.9 487.4

对齐分数的补充，可以更好地衡量图像和文本之间的相似性。 3.4 匹配层 (I,S ) 匹配层的目的是累积所有匹配线索以估计图像和文本之间的相似性。本文将对齐层的对齐分数和协议层的协议分数结合起来计算给定图像– 文本对的相似度： F (I,S ) = Faln (I,S )+ Fagr (I,S ) (13) 训练时，本文采用 Faghri 等 [2] 提出的基于难负例的三元组排序损失函数来训练模型： Lrank(I,S ) = [∆− F (I,S )+ F (I,S ′ )]++ [−F (I,S )+ F (I ′ ,S )]+ (14) (I,S ) I ′ S ′ S I [x]+ = max(0, x) ∆ ∆ 式中：表示一对正例样本；和分别是文本和图像的负例样本；；表示排序间隔，即希望查询样本和正例样本之间的相似性比查询样本和最难负例样本之间的相似性大一个。此外，考虑到在协议层中本文希望能够挖掘更多的一致性对齐来增强对图像和文本相似性的度量，为此本文采用 Chen 等 [14] 的方法引入语义一致性损失函数： Laln (I,S ) =   1 m ∑m i v T i c t i ∥vi∥· c t i − 1 n ∑n j t T j c v j tj · c v j   2 (15) {(Ik ,S k)} Nb ∼ D 在训练过程中，从数据集中采样一批次图像文本对进行训练，即，最终的损失函数是排序损失和一致性损失的加权和： L = ∑Nb k Lrank (Ik ,S k)+λaln∑Nb k,l Laln (Ik ,S l) (16) 式中 λaln 是一个可调节平衡超参数。 4 有效性验证 4.1 实验配置 1) 数据集。本文采用了两个跨模态图像文本标准基线数据集来验证所提出的一致性协议匹配方法。①Flickr30K[15]。这个数据集由 31 000 张图片组成，每张图片都至少标注了 5 个英文文本。本文采用 29 000 张图片作为训练集，1 000 张图片作为验证集，剩下的 1 000 张图片作为测试集，这也是标准的数据划分。②MSCOCO[16]。COCO 数据集大概有 123 000 张图片，每张图片标注了至少 5 个英文句子。和前人工作[1]一样，本文将 123 287 张图片划分为 113 287、5 000 和 5 000，分别构成了训练集、验证集和测试集。为了能够公平地评价模型的结果以及跟别人的工作进行对比，本文同时展示在 5 000 张测试图片上的整体性能 (用 MS COCO(5K) 表示) 以及 5 次实验 (每次 1 000 张图片 (用 MS COCO(1K) 表示) 的平均值。 2) 评价指标。本文进行了图像检索文本和文本检索图像两类不同的检索任务，采用前 K 召回率 (R@K) 来评测两种跨模态检索性能，并且和前人的工作进行对比。具体来说，本文展示 R@1、 R@5 和 R@10 的结果，并且，跟 Chen 等 [14] 的工作一样，本文将所有的指标加起来来综合评价模型的性能，该指标用 R@sum 表示。 ∆ λ 3) 实现细节。本文使用 Pytorch1.0[17] 来实现所提出的方法。在构建模型时，本文将图像区域特征的维度设置为 1 024。Bi-GRU 的隐藏向量的维度也是 1 024，使得图像区域特征和单词特征的维度一致。训练过程中，三元组损失函数中的排序间隔设置为 0.2，即式 (14) 中的默认为 0.2，式 (4) 中的温度因子默认设置为 9。在更新网络参数时，本文采用 Adam[18] 优化器来优化，并且每批次数据容量为 128 张图像文本对。 4.2 模型对比分析为了验证所提出的一致性协议匹配方法的先进性，本文引入了目前相关的先进的跨模态图像文本检索方法，并在 Flickr30K 和 MS COCO 两个数据集上都进行了模型对比。本文对比的基线模型有 DVSA[3] 、VSE++[2] 、DPC[19] 、SCO[20] 、SCAN[6] 、 PFAN[21] 、PVSE[22] 和 SC[14]。其中，SCAN、PFAN、 PVSE 和 SC 跟本文一样，都是致力于挖掘图像和文本之间的细粒度跨模态关联来提升跨模态检索性能。表 1、2、3 分别给出了本文的方法和基线模型在 Flickr30K 和 MS COCO 上的对比结果，其中，表格中第 1 列中带*标记的方法表示该结果是采用模型集成的结果，“—”表示该结果未在原始论文中给出。表 1 Flickr30K 上对比结果 Table 1 Comparison with state-of-the-art methods on Flickr30K 方法图像检索文本文本检索图像 R@sum R@1 R@5 R@10 R@1 R@5 R@10 DVSA 22.2 48.2 61.4 15.2 37.7 50.5 235.2 VSE++ 52.9 — 87.2 39.6 — 795 — DPC 55.6 81.9 89.5 39.1 69.2 80.9 416.2 SCO 55.5 82.0 89.3 41.1 70.5 80.1 418.0 SCAN* 67.4 90.3 95.8 48.6 77.7 85.2 465.0 PFAN* 70.0 91.0 95.0 50.4 78.7 86.1 472.0 SC* 69.7 91.7 96.4 54.0 79.7 87.2 478.7 MAG(本文) 72.1 92.8 96.7 52.8 80.2 87.1 481.8 MAG*(本文) 74.4 93.0 96.8 54.3 81.0 87.9 487.4 第 6 期宫大汉，等：一致性协议匹配的跨模态图像文本检索方法 ·1147·

点击进入文档下载页（PDF格式）

共8页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录