第16卷第6期 智能系统学报 Vol.16 No.6 2021年11月 CAAI Transactions on Intelligent Systems Nov.2021 D0:10.11992/tis.202108013 网络出版地址:https:/ns.cnki.net/kcms/detail/23.1538.TP.20210922.1142.004html 一致性协议匹配的跨模态图像文本检索方法 宫大汉2,陈辉,陈仕江,包勇军5,丁贵广2 (1.清华大学软件学院,北京100084;2.清华大学北京信息科学与技术国家研究中心,北京100084,3.清华大 学自动化系,北京100084:4.涿溪脑与智能研究所,浙江杭州311121:5.京东集团,北京100176) 摘要:跨模态图像文本检索的任务对于理解视觉和语言之间的对应关系很重要,大多数现有方法利用不同的 注意力模块挖掘区域到词和词到区域的对齐来探索细粒度的跨模态关联。然而,现有的方法没有考虑到基于 双重注意力会导致对齐不一致的问题。为此,本文提出了一种一致性协议匹配方法,旨在利用一致性对齐来增 强跨模态检索的性能。本文采用注意力实现跨模态关联对齐,并基于跨模态对齐结果设计了基于竞争性投票 的跨模态协议,该协议衡量了跨模态对齐的一致性,可以有效提升跨模态图像文本检索的性能。在Flickr30K 和MS COCO两个基准数据集上,本文通过大量的实验证明了所提出的方法的有效性。 关键词:人工智能:计算机视觉;视觉和语言;跨模态检索:一致性协议匹配:注意力;卷积神经网络;循环神经 网络:门控循环单元 中图分类号:TP18文献标志码:A文章编号:1673-4785(2021)06-1143-08 中文引用格式:宫大汉,陈辉,陈仕江,等.一致性协议匹配的跨模态图像文本检索方法J.智能系统学报,2021,16(6): 1143-1150. 英文引用格式:GONG Dahan,,CHEN Hui,.CHEN Shijiang,etal.Matching with agreement for cross-modal image-text retrievall,. CAAI transactions on intelligent systems,2021,16(6):1143-1150. Matching with agreement for cross-modal image-text retrieval GONG Dahan2,CHEN Hui23,CHEN Shijiang',BAO Yongjun,DING Guiguang'2 (1.School of Software,Tsinghua University,Beijing 100084,China;2.Beijing National Research Center for Information Science and Technology,Tsinghua University,Beijing 100084,China;3.Department of Automation,Tsinghua University,Beijing 100084, China:4.Zhuoxi Institute of Brain and Intelligence,Hangzhou 311121,China;5.Jd.Com,Inc,Beijing 100176,China) Abstract:The task of cross-modal image-text retrieval is important to understand the correspondence between vision and language.Most existing methods leverage different attention modules to explore region-to-word and word-to-region alignments and study fine-grained cross-modal correlations.However,the inconsistent alignment problem based on at- tention has rarely been considered.This study proposes a matching with agreement(MAG)method,which aims to take advantage of the alignment consistency,enhancing the cross-modal retrieval performance.The attention mechanism is adopted to achieve the cross-modal association alignment,which is then used to perform a cross-modal matching agree- ment with a novel competitive voting strategy.This agreement evaluates the cross-modal matching consistency and ef- fectively improves the performance.The extensive experiments on two benchmark datasets,namely,Flickr30K and MS COCO,show that our MAG method can achieve state-of-the-art performance,demonstrating its effectiveness well. Keywords:artificial intelligence;computer vision;vision and language;cross-modal retrieval;matching with agree- ment:attention:convolutional neural network:recurrent neural network:gated recurrent unit 随着社交媒体的空前发展,互联网上积累了大量的用户数据,比如图像、文本、语音等。利用 收稿日期:2021-08-13.网络出版日期:2021-09-23 这些跨模态数据挖掘用户需求,提升产品服务,成 基金项目:国家自然科学基金项目(61925107,U1936202):中国 为了工业界的迫切需求之一。跨模态图像文本检 博士后科学基金创新人才支持计划项目(BX2021161). 通信作者:丁贵广.E-mail:dinggg@tsinghua.edu.cn 索是实现跨模态数据挖掘的关键技术之一。它旨
DOI: 10.11992/tis.202108013 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210922.1142.004.html 一致性协议匹配的跨模态图像文本检索方法 宫大汉1,2,陈辉2,3,陈仕江4 ,包勇军5 ,丁贵广1,2 (1. 清华大学 软件学院,北京 100084; 2. 清华大学 北京信息科学与技术国家研究中心,北京 100084; 3. 清华大 学 自动化系,北京 100084; 4. 涿溪脑与智能研究所,浙江 杭州 311121; 5. 京东集团,北京 100176) 摘 要:跨模态图像文本检索的任务对于理解视觉和语言之间的对应关系很重要,大多数现有方法利用不同的 注意力模块挖掘区域到词和词到区域的对齐来探索细粒度的跨模态关联。然而,现有的方法没有考虑到基于 双重注意力会导致对齐不一致的问题。为此,本文提出了一种一致性协议匹配方法,旨在利用一致性对齐来增 强跨模态检索的性能。本文采用注意力实现跨模态关联对齐,并基于跨模态对齐结果设计了基于竞争性投票 的跨模态协议,该协议衡量了跨模态对齐的一致性,可以有效提升跨模态图像文本检索的性能。在 Flickr30K 和 MS COCO 两个基准数据集上,本文通过大量的实验证明了所提出的方法的有效性。 关键词:人工智能;计算机视觉;视觉和语言;跨模态检索;一致性协议匹配;注意力;卷积神经网络;循环神经 网络;门控循环单元 中图分类号:TP18 文献标志码:A 文章编号:1673−4785(2021)06−1143−08 中文引用格式:宫大汉, 陈辉, 陈仕江, 等. 一致性协议匹配的跨模态图像文本检索方法 [J]. 智能系统学报, 2021, 16(6): 1143–1150. 英文引用格式:GONG Dahan, CHEN Hui, CHEN Shijiang, et al. Matching with agreement for cross-modal image-text retrieval[J]. CAAI transactions on intelligent systems, 2021, 16(6): 1143–1150. Matching with agreement for cross-modal image-text retrieval GONG Dahan1,2 ,CHEN Hui2,3 ,CHEN Shijiang4 ,BAO Yongjun5 ,DING Guiguang1,2 (1. School of Software, Tsinghua University, Beijing 100084, China; 2. Beijing National Research Center for Information Science and Technology, Tsinghua University, Beijing 100084, China; 3. Department of Automation, Tsinghua University, Beijing 100084, China; 4. Zhuoxi Institute of Brain and Intelligence, Hangzhou 311121, China; 5. Jd.Com, Inc, Beijing 100176, China) Abstract: The task of cross-modal image-text retrieval is important to understand the correspondence between vision and language. Most existing methods leverage different attention modules to explore region-to-word and word-to-region alignments and study fine-grained cross-modal correlations. However, the inconsistent alignment problem based on attention has rarely been considered. This study proposes a matching with agreement (MAG) method, which aims to take advantage of the alignment consistency, enhancing the cross-modal retrieval performance. The attention mechanism is adopted to achieve the cross-modal association alignment, which is then used to perform a cross-modal matching agreement with a novel competitive voting strategy. This agreement evaluates the cross-modal matching consistency and effectively improves the performance. The extensive experiments on two benchmark datasets, namely, Flickr30K and MS COCO, show that our MAG method can achieve state-of-the-art performance, demonstrating its effectiveness well. Keywords: artificial intelligence; computer vision; vision and language; cross-modal retrieval; matching with agreement; attention; convolutional neural network; recurrent neural network; gated recurrent unit 随着社交媒体的空前发展,互联网上积累了 大量的用户数据,比如图像、文本、语音等。利用 这些跨模态数据挖掘用户需求,提升产品服务,成 为了工业界的迫切需求之一。跨模态图像文本检 索是实现跨模态数据挖掘的关键技术之一。它旨 收稿日期:2021−08−13. 网络出版日期:2021−09−23. 基金项目:国家自然科学基金项目 (61925107,U1936202);中国 博士后科学基金创新人才支持计划项目 (BX2021161). 通信作者:丁贵广. E-mail:dinggg@tsinghua.edu.cn. 第 16 卷第 6 期 智 能 系 统 学 报 Vol.16 No.6 2021 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2021
·1144· 智能系统学报 第16卷 在探索图像和文本之间的对应关系,实现图像和 文本的跨模态信息理解,以及文本检索图像或图 区域 像检索文本的智能服务。图像和文本的跨模态检 :s1- 单词 不一致 索在实际社交媒体领域有广泛的技术应用价值, beautiful 一致 比如在人机交互、商业化广告文案推荐以及内容推 单词 区域 荐等领域,因此吸引了众多研究人员的注意力。 A girl dressed up in a beautiful dress. 在实际场景中,跨模态图像文本检索面临两 r 大挑战:1)不同模态数据的异质性阻碍了模型学 图1对齐不一致问题 习到优异的跨模态表示;2)视觉和语言之间关联 Fig.1 Inconsistent alignment problem 丰富而复杂,准确挖掘两者的对应关系十分困 本文旨在充分挖掘不同对齐方式的一致性信 难。为了解决以上挑战,前人工作提出了特征嵌 息,来增强跨模态图像和文本的匹配准确性。本 入表示技术来联合学习图像和文本的特征。Wang 文提出了一种一致性协议匹配的方法(matching 等四使用双视图网络分别将图像和文本映射到共 with agreement,MAG),如图2所示,在使用注意力 享嵌入空间中,然后采用一个保结构的双向目标 机制得到对齐上下文特征后,构建了区域-单词 函数来优化网络。Faghri等回提出使用难负例来 关联信息表示和单词-区域关联信息表示,并在 增强嵌入空间的学习,实现了性能的显著性提 此基础上,提出关联信息一致性协议的匹配策 升。然而特征嵌入表示方法将图像和文本信息映 略,提升图像和文本的跨模态检索性能。 射到统一的向量空间中,忽视了图像和文本信息 的复杂性,以及两者之间信息关联的多样性和复 不同意 杂性。近年来,研究人员提出了许多方法来挖掘 关联信息表示 0 Beautiful 图像和文本之间的细粒度的跨模态关联信息。 Dress Karpathy等将图像中的每个区域与文本中的每 Dress 个单词对齐,提出了一种基于片段的匹配方法。 ④ Dress →Dress Nam等使用注意力机制和记忆机制来动态探 同意 索图像和文本之间的微妙交互。Lee等o提出了 一种堆叠交叉注意力模型,称为SCAN,取得了先 图2一致性协议匹配 进的图像文本检索性能。 Fig.2 Matching with agreement 所提出的一致性协议匹配(MAG)方法包含 1本文工作 4个层,即表示层、对齐层、协议层和匹配层。其 SCAN的成功很好地展示了细粒度跨模态关 中,在表示层,本文使用卷积神经网络(convolu- 联关系挖掘的优势。然而,这种方式依靠注意力 tional neural network,.CNN)和循环神经网络(recur-- 来实现片段(即区域和单词)之间的匹配,只关注 rent neural network,RNN)分别提取了图像区域和 两者的一阶关系,并不能反映两种不同匹配方式 单词的特征:在对齐层,使用注意力机制得到区 之间的一致性。具体来说,SCAN分别用注意力 域-单词对齐和单词-区域对齐;接着在协议层 构建了区域-单词和单词-区域的两种对齐方式, 中,两种不同的对齐可以通过融合注意力机制里 其中区域-单词是计算所有单词跟给定区域的相 的上下文特征得到关联信息表示,并采用竞争性 似性得分,并经过规范化操作得到相似性分布, 投票的方案得到对齐一致性得分;最后在匹配层 同样地,单词-区域是计算所有区域跟给定单词 通过聚合不同的匹配线索,获得图像文本对之间 的规范化后的相似性得分。由于规范化操作,单 的相似性。 词和区域的相似性度量在两种对齐方式中会得到 本文在两个大型的跨模态图像文本检索的基 不一样的得分,使得出现不同的情况。比如在图1 准数据集(Flickr30K和MS COCO)上进行了大量 中,在区域-单词匹配方式中,和区域,最相关的 的实验,实验结果表明,相比于一系列先进的跨 词是dress,而和beautiful的相关性较弱,而在单 模态图像文本检索基线模型,本文提出的一致性 词-区域匹配方式中,区域2却是和beautiful最相 协议匹配方法在两个数据集上都具有显著的性能 关的区域。这种矛盾说明了两种方式不一致的 优势,进一步的模型分析和实例分析很好地验证 问题。 了所提出方法的有效性和优越性
在探索图像和文本之间的对应关系,实现图像和 文本的跨模态信息理解,以及文本检索图像或图 像检索文本的智能服务。图像和文本的跨模态检 索在实际社交媒体领域有广泛的技术应用价值, 比如在人机交互、商业化广告文案推荐以及内容推 荐等领域,因此吸引了众多研究人员的注意力。 在实际场景中,跨模态图像文本检索面临两 大挑战:1) 不同模态数据的异质性阻碍了模型学 习到优异的跨模态表示;2) 视觉和语言之间关联 丰富而复杂,准确挖掘两者的对应关系十分困 难。为了解决以上挑战,前人工作提出了特征嵌 入表示技术来联合学习图像和文本的特征。Wang 等 [1] 使用双视图网络分别将图像和文本映射到共 享嵌入空间中,然后采用一个保结构的双向目标 函数来优化网络。Faghri 等 [2] 提出使用难负例来 增强嵌入空间的学习,实现了性能的显著性提 升。然而特征嵌入表示方法将图像和文本信息映 射到统一的向量空间中,忽视了图像和文本信息 的复杂性,以及两者之间信息关联的多样性和复 杂性。近年来,研究人员提出了许多方法来挖掘 图像和文本之间的细粒度的跨模态关联信息。 Karpathy 等 [3] 将图像中的每个区域与文本中的每 个单词对齐,提出了一种基于片段的匹配方法。 Nam 等 [4] 使用注意力机制[5] 和记忆机制来动态探 索图像和文本之间的微妙交互。Lee 等 [6] 提出了 一种堆叠交叉注意力模型,称为 SCAN,取得了先 进的图像文本检索性能。 1 本文工作 SCAN 的成功很好地展示了细粒度跨模态关 联关系挖掘的优势。然而,这种方式依靠注意力 来实现片段 (即区域和单词) 之间的匹配,只关注 两者的一阶关系,并不能反映两种不同匹配方式 之间的一致性。具体来说,SCAN 分别用注意力 构建了区域−单词和单词−区域的两种对齐方式, 其中区域−单词是计算所有单词跟给定区域的相 似性得分,并经过规范化操作得到相似性分布, 同样地,单词−区域是计算所有区域跟给定单词 的规范化后的相似性得分。由于规范化操作,单 词和区域的相似性度量在两种对齐方式中会得到 不一样的得分,使得出现不同的情况。比如在图 1 中,在区域−单词匹配方式中,和区域 r2 最相关的 词是 dress,而和 beautiful 的相关性较弱,而在单 词−区域匹配方式中,区域 r2 却是和 beautiful 最相 关的区域。这种矛盾说明了两种方式不一致的 问题。 A girl dressed up in a beautiful dress. 一致 不一致 beautiful dress 区域- 单词 单词- 区域 r1 r2 r3 r1 r2 r3 图 1 对齐不一致问题 Fig. 1 Inconsistent alignment problem 本文旨在充分挖掘不同对齐方式的一致性信 息,来增强跨模态图像和文本的匹配准确性。本 文提出了一种一致性协议匹配的方法 (matching with agreement,MAG),如图 2 所示,在使用注意力 机制得到对齐上下文特征后,构建了区域−单词 关联信息表示和单词−区域关联信息表示,并在 此基础上,提出关联信息一致性协议的匹配策 略,提升图像和文本的跨模态检索性能。 2 4 1 3 1 2 3 4 1 2 3 4 不同意 同意 Beautiful Beautiful Dress Dress Dress Dress Beautiful 关联信息表示 Beautiful 图 2 一致性协议匹配 Fig. 2 Matching with agreement 所提出的一致性协议匹配 (MAG) 方法包含 4 个层,即表示层、对齐层、协议层和匹配层。其 中,在表示层,本文使用卷积神经网络 (convolutional neural network, CNN) 和循环神经网络 (recurrent neural network, RNN) 分别提取了图像区域和 单词的特征;在对齐层,使用注意力机制得到区 域−单词对齐和单词−区域对齐;接着在协议层 中,两种不同的对齐可以通过融合注意力机制里 的上下文特征得到关联信息表示,并采用竞争性 投票的方案得到对齐一致性得分;最后在匹配层 通过聚合不同的匹配线索,获得图像文本对之间 的相似性。 本文在两个大型的跨模态图像文本检索的基 准数据集 (Flickr30K 和 MS COCO) 上进行了大量 的实验,实验结果表明,相比于一系列先进的跨 模态图像文本检索基线模型,本文提出的一致性 协议匹配方法在两个数据集上都具有显著的性能 优势,进一步的模型分析和实例分析很好地验证 了所提出方法的有效性和优越性。 ·1144· 智 能 系 统 学 报 第 16 卷
第6期 宫大汉,等:一致性协议匹配的跨模态图像文本检索方法 ·1145· 2 相关工作 泛使用的目标函数。 基于细粒度对齐的方法旨在探索图像和文本 跨模态图像文本检索的相关工作通常使用深 之间潜在的细粒度对应关系。Karpathy等)将图 度神经网络来避免使用手工制作的特征。它们可 像和文本的片段对齐到公共空间中,并通过聚合 以大致分为两类:基于嵌入的方法和基于细粒度 局部对齐来计算图像和文本的全局相似度。 对齐的方法。 Niu等提出了一种分层模型,其中图像和文本 基于嵌入的方法通常学习一个共享的嵌入空 通过分层策略实现实例到特征的全局和局部联合 间,并通过计算嵌入空间中图像和文本特征之间 映射。Lee等6提出了一个堆叠交叉注意力模 的距离来估计图像和文本之间的相似性。Frome 等忉尝试通过CNN和Skip-Gram模型9来学习 型,旨在发现图像区域和文本词之间的完整潜在 跨模态表示。类似地,Kiros等o采用CNN来提 对齐,并在多个基准数据集上实现先进的性能。 取视觉特征,并采用门循环单元(gated recurrent 3 一致性协议匹配 unit,GRU)u来提取文本特征。Faghri等提出了 一种难负例挖掘的三元组损失函数,取得了显著 本节讨论所提出的一致性协议匹配方法,如 的性能提升,并成为跨模态图像文本检索领域广 图3所示。 表示层 对齐层 协议层 匹配层 区域单词对齐 1 Z1Z.…Z AG 语义一 致损失 NN Z + Bi-GRUs .Cn AG A horse walkson 排序 the road. 单词区域对齐 损失 图3一致性协议匹配方法框架 Fig.3 Framework of the proposed MAG method 3.1表示层 用V={li=1,2,…,my,∈R}来表示图像特征。 在表示层,本文的目标是在潜在共享特征空 给定有n个词的文本S={w1,w2,…,wl,本文 间中对图像和文本的信息进行特征表达,以估计 使用一个双向门控循环单元(bidirectional GRU, 它们之间的相似性。给定一个包含N个图像文 Bi-GRU充当文本编码器。首先,本文首先将每个 本对的数据集D={(L,S)心,其中,1代表图像,S 离散的单词w,使用独热码进行表示,接着使用一 代表文本。本文使用两个不同的编码器分别提取 个可学习的嵌入矩阵将独热码转化为一个词向量 图像的视觉信息和文本的文本信息。 e。然后使用一个Bi-GRU分别从左到右(前向) 具体来说,给定图像1,本文使用一个预训练 和从右到左(后向)两个方向对词向量进行处理: 的对象检测模型Faster R-CNN)来充当图像编码 器。Faster R-CNN会推断出图像中的显著性对象 威e5 (2) 信息,并以包围框的方式定位到对象的区域,记 式中方和方分别表示前向GRU和后向GRU的 为,并将经过区域池化操作得到对象的特征记 隐藏状态向量。最后,单词w的上下文表示可以 为。接着,本文使用一个线性变换层将区域特 通过公式获得:1=(,+五)2。为了使单词特征 征映射到一个d隐层特征空间中: 和图像区域特征,可以在特征空间中进行计 v:=W f+b (1) 算,这里设置Bi-GRU的隐藏状态向量维度和, 式中:是区域”在隐层特征空间中的特征表示: 一样,有teR。为了方便下文描述,本文用T={tj= W,和b,是线性变换的可学习参数。为了方便描 1,2,…,nt∈R4来表示文本S的特征。 述,假定图像I,Faster R-CNN检测到m个对象区 3.2对齐层 域,则最终可以得到m个特征来表示图像1,本文 对齐层旨在探索视觉信息和文本信息之间的
2 相关工作 跨模态图像文本检索的相关工作通常使用深 度神经网络来避免使用手工制作的特征。它们可 以大致分为两类:基于嵌入的方法和基于细粒度 对齐的方法。 基于嵌入的方法通常学习一个共享的嵌入空 间,并通过计算嵌入空间中图像和文本特征之间 的距离来估计图像和文本之间的相似性。Frome 等 [7] 尝试通过 CNN[8] 和 Skip-Gram 模型[9] 来学习 跨模态表示。类似地,Kiros 等 [10] 采用 CNN 来提 取视觉特征,并采用门循环单元 (gated recurrent unit, GRU)[11] 来提取文本特征。Faghri 等 [2] 提出了 一种难负例挖掘的三元组损失函数,取得了显著 的性能提升,并成为跨模态图像文本检索领域广 泛使用的目标函数。 基于细粒度对齐的方法旨在探索图像和文本 之间潜在的细粒度对应关系。Karpathy 等 [3] 将图 像和文本的片段对齐到公共空间中,并通过聚合 局部对齐来计算图像和文本的全局相似度。 Niu 等 [12] 提出了一种分层模型,其中图像和文本 通过分层策略实现实例到特征的全局和局部联合 映射。Lee 等 [6] 提出了一个堆叠交叉注意力模 型,旨在发现图像区域和文本词之间的完整潜在 对齐,并在多个基准数据集上实现先进的性能。 3 一致性协议匹配 本节讨论所提出的一致性协议匹配方法,如 图 3 所示。 CNN v1 vi vm c1 v cm v ci v c1 t cn t cj t t1 tj tm v1 vi vn t1 tj tn I S … Bi-GRUs A horse walkson the road. … … … … … … … … … … … … … … … … … … 表示层 对齐层 协议层 匹配层 + + + 排序 损失 语义一 致损失 区域-单词对齐 单词-区域对齐 y1 yj yn x1 Z1, : Z, : 1 Z2, : Z, : 2 Z, : m AGi v AGj t Zn, : xi xm 图 3 一致性协议匹配方法框架 Fig. 3 Framework of the proposed MAG method 3.1 表示层 N D = { (Ik ,S k) N k=1 } I S 在表示层,本文的目标是在潜在共享特征空 间中对图像和文本的信息进行特征表达,以估计 它们之间的相似性。给定一个包含 个图像文 本对的数据集 ,其中, 代表图像, 代表文本。本文使用两个不同的编码器分别提取 图像的视觉信息和文本的文本信息。 I ri fi d 具体来说,给定图像 ,本文使用一个预训练 的对象检测模型 Faster R-CNN[13] 来充当图像编码 器。Faster R-CNN 会推断出图像中的显著性对象 信息,并以包围框的方式定位到对象的区域,记 为 ,并将经过区域池化操作得到对象的特征记 为 。接着,本文使用一个线性变换层将区域特 征映射到一个 隐层特征空间中: vi = Wv fi +bv (1) vi ri Wv bv I m m I 式中: 是区域 在隐层特征空间中的特征表示; 和 是线性变换的可学习参数。为了方便描 述,假定图像 ,Faster R-CNN 检测到 个对象区 域,则最终可以得到 个特征来表示图像 ,本文 V = { vi |i = 1,2,··· ,m; vi ∈ R d 用 } 来表示图像特征。 n S = {w1,w2,··· ,wn} wj ej 给定有 个词的文本 ,本文 使用一个双向门控循环单元 (bidirectional GRU, Bi-GRU) 充当文本编码器。首先,本文首先将每个 离散的单词 使用独热码进行表示,接着使用一 个可学习的嵌入矩阵将独热码转化为一个词向量 。然后使用一个 Bi-GRU 分别从左到右 (前向) 和从右到左 (后向) 两个方向对词向量进行处理: →hj = →GRU ( ej ,→hj−1 ) ;←hj = ←GRU ( ej ,←hj+1 ) (2) −→h ←−h wj tj = ( −→h j + ←−h j) / 2 tj vi vi tj ∈ R d T = {tj | j = 1,2,··· ,n;tj ∈ R d } S 式中 和 分别表示前向 GRU 和后向 GRU 的 隐藏状态向量。最后,单词 的上下文表示可以 通过公式获得: 。为了使单词特征 和图像区域特征 可以在特征空间中进行计 算,这里设置 Bi-GRU 的隐藏状态向量维度和 一样,有 。为了方便下文描述,本文用 来表示文本 的特征。 3.2 对齐层 对齐层旨在探索视觉信息和文本信息之间的 第 6 期 宫大汉,等:一致性协议匹配的跨模态图像文本检索方法 ·1145·
·1146· 智能系统学报 第16卷 细粒度关联关系。和前人工作一样,我们采用 性矩阵A的不同维度来计算注意力权重,使得同 双向注意力机制将图像中的区域和文本中的单词 一个区域和单词计算得到的区域-单词对齐和单 巧妙地对齐。具体来说,给定图像特征V和文本 词-区域对齐可能被赋予不同的重要性,导致对 特征T,首先计算图像中每个区域特征:和每个 齐不一致(如图1所示)。本文旨在利用这种不一 单词特征,之间的相关性:具体来说,给定图像 致的特点来强化对图像和文本的相似性的建模。 特征V和文本特征T,首先计算图像中每个区域 为此,本文提出了一种基于协议的匹配策略,以 特征,和每个单词特征t之间的相关性: 利用这种对齐不一致的特点。本文首先将对齐层 viti 的对齐操作进行特征实例化,并使用竞争性投票 A=al- Vie[1,m],vje[1,n] (3) 的策略将不同对齐在特征空间中进行一致性度 这里,本文用余弦距离来度量两个向量间的 量,度量结果作为协议层的输出,表征图像和文 相似性,向量上标表示向量转置。A∈Rmx为相 本之间的一致性分数。 似性矩阵。本文使用注意力机制计算每个区域的 具体来说,首先定义对齐操作的特征表示为 文本上下文特征和每个单词的图像上下文特征。 每个区域或者单词和其对应上下文特征的加和: 对于区域,在相似性矩阵A中的第i行表示该区 xi=vi+ci yi=ti+ci (9) 域和文本S的每个单词的相似性,为此,对应的 式中:x表示区域-单词对齐(,c)的特征表示; 文本上下文特征可以对文本特征T和相似性A: 表示单词-区域对齐(,c))的特征表示。遍历 进行加权和得到: i和方,可以得到一组区域-单词对齐特征实例X={xi= d=ou- exp(Aaii) 1,2,…,m,x∈R和单词-区域对齐特征Y=yj=1, exp(aa) (4) 2,…,n,yjeR。 式中:A是一个温度因子;c是区域:对应的文本 其次,使用余弦距离来衡量两种对齐特征的 上下文特征;a是相似性矩阵A按列规范后的元 相似性: 素,即 y Z=k- ie[1,ml,Hi∈[1,n (10) (Au) (5) 式中:Z,衡量以区域:为核心的区域-单词对齐 特征和以单词w;为核心的单词-区域对齐特征之 同理,可以为每个单词计算它对应的图像上 间的相似性。如果区域:和单词w,在对方的对 下文特征: 齐方式中同等重要,即对齐一致,那么Z会很大,反之, exp(Ab) (6) 则是对齐不一致的问题,则Z会较小。因此,Z 〉exp(db 刻画了两种对齐方式是否一致,我们称式(10)为 式中:c是单词w对应的图像上下文特征;b是 协议操作。 相似性矩阵A按行规范后的元素,即 为了鼓励一致性的局部对齐(即区域-单词对 齐和单词-区域对齐)能够在后续计算图像和文 σ(A) b (7) 本的相似性过程中被赋予更高的重要性,本文对 (A)月 Z的每一行和每一列分别选取最大值,得到两种 和Chen等工作一样,给定一个图像文本对 协议得分: (I,S),可以通过聚合每个区域特征和其对应的文 AG;max Zij AG=max Zij (11) 本上下文特征的相似性以及聚合每个文本特征和 按行取最值可以让每个单词-区域对齐互相 其对应的图像上下文特征的相似性得到图像和文 竞争,胜者跟区域-单词对齐(,c)最一致。同 本的相似性: 理,按列取最值可以竞争出跟单词-区域对齐 F0,s)=1e+15 (t,c)最一致的区域-单词对齐。 m之阿+之小阿 (8) 最后,本文将所有的协议得分进行平均,得到 因为(y,c)和(G,c)是成对存在的,分别表示 图像和文本的协议分数: 区域-单词对齐和单词-区域对齐,因此这里定义 (12) F(L,S)为图像文本对(L,S)的对齐分数。 Fs=∑AG+2AG 3.3协议层 对比对齐分数(见式(8)),协议分数F(I,S) 从式(4)和式(6)可以看出,对齐层利用相似 可以看成区域和单词的二阶对齐分数,因此作为
V T vi tj V T vi tj 细粒度关联关系。和前人工作[14] 一样,我们采用 双向注意力机制将图像中的区域和文本中的单词 巧妙地对齐。具体来说,给定图像特征 和文本 特征 ,首先计算图像中每个区域特征 和每个 单词特征 之间的相关性:具体来说,给定图像 特征 和文本特征 ,首先计算图像中每个区域 特征 和每个单词特征 之间的相关性: Ai j = vi T t j ∥vi∥ · ∥t j∥ , ∀i ∈ [1,m],∀ j ∈ [1,n] (3) A ∈ R m×n ri A i S T Ai 这里,本文用余弦距离来度量两个向量间的 相似性,向量上标表示向量转置。 为相 似性矩阵。本文使用注意力机制计算每个区域的 文本上下文特征和每个单词的图像上下文特征。 对于区域 ,在相似性矩阵 中的第 行表示该区 域和文本 的每个单词的相似性,为此,对应的 文本上下文特征可以对文本特征 和相似性 进行加权和得到: c t i = ∑n j=1 αi j t j , αi j = exp( λai j) ∑ k exp(λaik) (4) λ c t i ri ai j A 式中: 是一个温度因子; 是区域 对应的文本 上下文特征; 是相似性矩阵 按列规范后的元 素,即 ai j = σ(Ai j) / √∑ k σ ( Ak j)2 (5) 同理,可以为每个单词计算它对应的图像上 下文特征: c v j = ∑m i=1 βi jvi , βi j = exp( λbi j) ∑ k exp( λbk j) (6) c v j wj bi j A 式中: 是单词 对应的图像上下文特征; 是 相似性矩阵 按行规范后的元素,即 bi j = σ ( Ai j) √∑ k σ(Aik) 2 (7) (I,S ) 和 Chen 等 [14] 工作一样,给定一个图像文本对 ,可以通过聚合每个区域特征和其对应的文 本上下文特征的相似性以及聚合每个文本特征和 其对应的图像上下文特征的相似性得到图像和文 本的相似性: Faln (I,S ) = 1 m ∑m i vi T c t i ∥vi∥· c t i + 1 n ∑n j t j T c v j t j · c v j (8) (vi , c t i ) (tj , c v j ) Faln(I,S ) (I,S ) 因为 和 是成对存在的,分别表示 区域−单词对齐和单词−区域对齐,因此这里定义 为图像文本对 的对齐分数。 3.3 协议层 从式 (4) 和式 (6) 可以看出,对齐层利用相似 性矩阵 A 的不同维度来计算注意力权重,使得同 一个区域和单词计算得到的区域–单词对齐和单 词–区域对齐可能被赋予不同的重要性,导致对 齐不一致 (如图 1 所示)。本文旨在利用这种不一 致的特点来强化对图像和文本的相似性的建模。 为此,本文提出了一种基于协议的匹配策略,以 利用这种对齐不一致的特点。本文首先将对齐层 的对齐操作进行特征实例化,并使用竞争性投票 的策略将不同对齐在特征空间中进行一致性度 量,度量结果作为协议层的输出,表征图像和文 本之间的一致性分数。 具体来说,首先定义对齐操作的特征表示为 每个区域或者单词和其对应上下文特征的加和: xi = vi + c t i , yj = t j + c v j (9) xi ( vi , c t i ) yj ( ti , c v j ) X = {xi |i = 1,2,··· ,m, xi ∈ R d } Y = {yj | j = 1, 2,··· ,n, yj ∈ R d } 式中: 表示区域−单词对齐 的特征表示; 表示单词−区域对齐 的特征表示。遍历 i和j,可以得到一组区域−单词对齐特征实例 和单词−区域对齐特征 。 其次,使用余弦距离来衡量两种对齐特征的 相似性: Zi j = x T i yj ∥xi∥· yj , ∀i ∈ [1,m],∀ j ∈ [1,n] (10) Zi j ri wj ri wj Zi j Zi j Zi j 式中: 衡量以区域 为核心的区域−单词对齐 特征和以单词 为核心的单词−区域对齐特征之 间的相似性。如果区域 和单词 在对方的对 齐方式中同等重要,即对齐一致,那么 会很大,反之, 则是对齐不一致的问题,则 会较小。因此, 刻画了两种对齐方式是否一致,我们称式 (10) 为 协议操作。 Zi j 为了鼓励一致性的局部对齐 (即区域−单词对 齐和单词−区域对齐) 能够在后续计算图像和文 本的相似性过程中被赋予更高的重要性,本文对 的每一行和每一列分别选取最大值,得到两种 协议得分: AGv i = max j Zi j, AGt j = max i Zi j (11) (vi , c t i ) (ti , c v j ) 按行取最值可以让每个单词−区域对齐互相 竞争,胜者跟区域−单词对齐 最一致。同 理,按列取最值可以竞争出跟单词−区域对齐 最一致的区域–单词对齐。 最后,本文将所有的协议得分进行平均,得到 图像和文本的协议分数: Fagr (I,S ) = 1 m ∑m i AGv i + 1 n ∑n j AGt j (12) 对比对齐分数 (见式 (8)),协议分数 Fagr(I,S ) 可以看成区域和单词的二阶对齐分数,因此作为 ·1146· 智 能 系 统 学 报 第 16 卷
第6期 宫大汉,等:一致性协议匹配的跨模态图像文本检索方法 ·1147· 对齐分数的补充,可以更好地衡量图像和文本之 图片(用MS COCO1K)表示)的平均值。 间的相似性。 2)评价指标。本文进行了图像检索文本和文 3.4匹配层 本检索图像两类不同的检索任务,采用前K召回 匹配层的目的是累积所有匹配线索以估计图 率(R@)来评测两种跨模态检索性能,并且和前 像和文本之间的相似性。本文将对齐层的对齐分 人的工作进行对比。具体来说,本文展示R@1 数和协议层的协议分数结合起来计算给定图像- R@5和R@l0的结果,并且,跟Chen等的工作 文本对(L,S)的相似度: 一样,本文将所有的指标加起来来综合评价模型 F(I,S)=Fan(I,S)+Fagr(I.S) (13) 的性能,该指标用R@sum表示。 训练时,本文采用Faghri等提出的基于难 3)实现细节。本文使用Pytorch1.0来实现 负例的三元组排序损失函数来训练模型: 所提出的方法。在构建模型时,本文将图像区域 Cak(L,S)=[☑-F(I,S)+F(I,S)】++ (14) 特征的维度设置为1024。Bi-GRU的隐藏向量的 [-F(I.S)+F(I',S)]. 维度也是1024,使得图像区域特征和单词特征的 式中:(亿,S)表示一对正例样本;P和S'分别是文 维度一致。训练过程中,三元组损失函数中的排 本S和图像I的负例样本;[x:=max(0,x):4表示 排序间隔,即希望查询样本和正例样本之间的相 序间隔设置为0.2,即式(14)中的△默认为0.2, 式(4)中的温度因子λ默认设置为9。在更新网 似性比查询样本和最难负例样本之间的相似性大 络参数时,本文采用Adam8优化器来优化,并且 一个4。 此外,考虑到在协议层中本文希望能够挖掘 每批次数据容量为128张图像文本对。 更多的一致性对齐来增强对图像和文本相似性的 4.2模型对比分析 度量,为此本文采用Chen等的方法引入语义 为了验证所提出的一致性协议匹配方法的先 一致性损失函数: 进性,本文引入了目前相关的先进的跨模态图像 文本检索方法,并在Flickr30K和MS COCO两个 - c (15) 数据集上都进行了模型对比。本文对比的基线模 型有DVSA、VSE+、DPC9、SCO2O、SCAN 在训练过程中,从数据集中采样一批次图像 PFAN2、PVSE2和SC。其中,SCAN、PFAN、 文本对进行训练,即{(I,S)~D,最终的损失函 PVSE和SC跟本文一样,都是致力于挖掘图像和 数是排序损失和一致性损失的加权和: 文本之间的细粒度跨模态关联来提升跨模态检索 ∑Can(,S) (16) 性能。表1、2、3分别给出了本文的方法和基线 模型在Flickr30K和MS COCO上的对比结果,其 式中入n是一个可调节平衡超参数。 中,表格中第1列中带*标记的方法表示该结果是 采用模型集成的结果,“一”表示该结果未在原始 4有效性验证 论文中给出。 4.1实验配置 表1 Flickr30K上对比结果 1)数据集。本文采用了两个跨模态图像文本 Table 1 Comparison with state-of-the-art methods on Flickr30K 标准基线数据集来验证所提出的一致性协议匹配 方法。①F1ickr30K。这个数据集由31000张图 图像检索文本 文本检索图像 方法 R@sum 片组成,每张图片都至少标注了5个英文文本。 R@1R@5R@I0R@1R@5R@I0 本文采用29000张图片作为训练集,1000张图片 DVSA 22.248.261.4 15.237.750.5 235.2 作为验证集,剩下的1000张图片作为测试集,这 VSE++ 52.9 87.2 39.6 795 也是标准的数据划分。②MSCOCO1。COCO DPC 55.681.989.539.169.280.9 4162 数据集大概有123000张图片,每张图片标注了至 SCO 55.582.089.3 41.170.580.1 418.0 少5个英文句子。和前人工作0一样,本文将123287 SCAN* 67.490.395.848.677.785.2 465.0 张图片划分为113287、5000和5000,分别构成 PFAN* 70.091.095.0 50.478.786.1 472.0 了训练集、验证集和测试集。为了能够公平地评 SC* 69.791.796.4 54.079.787.2 478.7 价模型的结果以及跟别人的工作进行对比,本文 同时展示在5000张测试图片上的整体性能(用 MAG(本文)72.192.896.7 52.880.287.1 481.8 MS COCO(5K)表示)以及5次实验(每次1000张 MAG*(本文)74.493.096.854.381.087.9 487.4
对齐分数的补充,可以更好地衡量图像和文本之 间的相似性。 3.4 匹配层 (I,S ) 匹配层的目的是累积所有匹配线索以估计图 像和文本之间的相似性。本文将对齐层的对齐分 数和协议层的协议分数结合起来计算给定图像– 文本对 的相似度: F (I,S ) = Faln (I,S )+ Fagr (I,S ) (13) 训练时,本文采用 Faghri 等 [2] 提出的基于难 负例的三元组排序损失函数来训练模型: Lrank(I,S ) = [∆− F (I,S )+ F (I,S ′ )]++ [−F (I,S )+ F (I ′ ,S )]+ (14) (I,S ) I ′ S ′ S I [x]+ = max(0, x) ∆ ∆ 式中: 表示一对正例样本; 和 分别是文 本 和图像 的负例样本; ; 表示 排序间隔,即希望查询样本和正例样本之间的相 似性比查询样本和最难负例样本之间的相似性大 一个 。 此外,考虑到在协议层中本文希望能够挖掘 更多的一致性对齐来增强对图像和文本相似性的 度量,为此本文采用 Chen 等 [14] 的方法引入语义 一致性损失函数: Laln (I,S ) = 1 m ∑m i v T i c t i ∥vi∥· c t i − 1 n ∑n j t T j c v j tj · c v j 2 (15) {(Ik ,S k)} Nb ∼ D 在训练过程中,从数据集中采样一批次图像 文本对进行训练,即 ,最终的损失函 数是排序损失和一致性损失的加权和: L = ∑Nb k Lrank (Ik ,S k)+λaln∑Nb k,l Laln (Ik ,S l) (16) 式中 λaln 是一个可调节平衡超参数。 4 有效性验证 4.1 实验配置 1) 数据集。本文采用了两个跨模态图像文本 标准基线数据集来验证所提出的一致性协议匹配 方法。①Flickr30K[15]。这个数据集由 31 000 张图 片组成,每张图片都至少标注了 5 个英文文本。 本文采用 29 000 张图片作为训练集,1 000 张图片 作为验证集,剩下的 1 000 张图片作为测试集,这 也是标准的数据划分。②MSCOCO[16]。COCO 数据集大概有 123 000 张图片,每张图片标注了至 少 5 个英文句子。和前人工作[1]一样,本文将 123 287 张图片划分为 113 287、5 000 和 5 000,分别构成 了训练集、验证集和测试集。为了能够公平地评 价模型的结果以及跟别人的工作进行对比,本文 同时展示在 5 000 张测试图片上的整体性能 (用 MS COCO(5K) 表示) 以及 5 次实验 (每次 1 000 张 图片 (用 MS COCO(1K) 表示) 的平均值。 2) 评价指标。本文进行了图像检索文本和文 本检索图像两类不同的检索任务,采用前 K 召回 率 (R@K) 来评测两种跨模态检索性能,并且和前 人的工作进行对比。具体来说,本文展示 R@1、 R@5 和 R@10 的结果,并且,跟 Chen 等 [14] 的工作 一样,本文将所有的指标加起来来综合评价模型 的性能,该指标用 R@sum 表示。 ∆ λ 3) 实现细节。本文使用 Pytorch1.0[17] 来实现 所提出的方法。在构建模型时,本文将图像区域 特征的维度设置为 1 024。Bi-GRU 的隐藏向量的 维度也是 1 024,使得图像区域特征和单词特征的 维度一致。训练过程中,三元组损失函数中的排 序间隔设置为 0.2,即式 (14) 中的 默认为 0.2, 式 (4) 中的温度因子 默认设置为 9。在更新网 络参数时,本文采用 Adam[18] 优化器来优化,并且 每批次数据容量为 128 张图像文本对。 4.2 模型对比分析 为了验证所提出的一致性协议匹配方法的先 进性,本文引入了目前相关的先进的跨模态图像 文本检索方法,并在 Flickr30K 和 MS COCO 两个 数据集上都进行了模型对比。本文对比的基线模 型有 DVSA[3] 、VSE++[2] 、DPC[19] 、SCO[20] 、SCAN[6] 、 PFAN[21] 、PVSE[22] 和 SC[14]。其中,SCAN、PFAN、 PVSE 和 SC 跟本文一样,都是致力于挖掘图像和 文本之间的细粒度跨模态关联来提升跨模态检索 性能。表 1、2、3 分别给出了本文的方法和基线 模型在 Flickr30K 和 MS COCO 上的对比结果,其 中,表格中第 1 列中带*标记的方法表示该结果是 采用模型集成的结果,“—”表示该结果未在原始 论文中给出。 表 1 Flickr30K 上对比结果 Table 1 Comparison with state-of-the-art methods on Flickr30K 方法 图像检索文本 文本检索图像 R@sum R@1 R@5 R@10 R@1 R@5 R@10 DVSA 22.2 48.2 61.4 15.2 37.7 50.5 235.2 VSE++ 52.9 — 87.2 39.6 — 795 — DPC 55.6 81.9 89.5 39.1 69.2 80.9 416.2 SCO 55.5 82.0 89.3 41.1 70.5 80.1 418.0 SCAN* 67.4 90.3 95.8 48.6 77.7 85.2 465.0 PFAN* 70.0 91.0 95.0 50.4 78.7 86.1 472.0 SC* 69.7 91.7 96.4 54.0 79.7 87.2 478.7 MAG(本文) 72.1 92.8 96.7 52.8 80.2 87.1 481.8 MAG*(本文) 74.4 93.0 96.8 54.3 81.0 87.9 487.4 第 6 期 宫大汉,等:一致性协议匹配的跨模态图像文本检索方法 ·1147·