工程科学学报 Chinese Journal of Engineering 基于深度学习的行人重识别方法综述 李擎胡伟阳李江昀刘艳李梦璇 A survey of person re-identification based on deep learning LI Qing.HU Wei-yang.LI Jiang-yun,LIU Yan,LI Meng-xuan 引用本文: 李擎,胡伟阳,李江昀,刘艳,李梦璇.基于深度学习的行人重识别方法综述刀.工程科学学报,优先发表.do: 10.13374j.issn2095-9389.2020.12.22.004 LI Qing.HU Wei-yang.LI Jiang-yun,LIU Yan,LI Meng-xuan.A survey of person re-identification based on deep learning[J]. Chinese Journal of Engineering.In press.doi:10.13374/j.issn2095-9389.2020.12.22.004 在线阅读View online::https:ldoi.org/10.13374.issn2095-9389.2020.12.22.004 您可能感兴趣的其他文章 Articles you may be interested in
基于深度学习的行人重识别方法综述 李擎 胡伟阳 李江昀 刘艳 李梦璇 A survey of person re-identification based on deep learning LI Qing, HU Wei-yang, LI Jiang-yun, LIU Yan, LI Meng-xuan 引用本文: 李擎, 胡伟阳, 李江昀, 刘艳, 李梦璇. 基于深度学习的行人重识别方法综述[J]. 工程科学学报, 优先发表. doi: 10.13374/j.issn2095-9389.2020.12.22.004 LI Qing, HU Wei-yang, LI Jiang-yun, LIU Yan, LI Meng-xuan. A survey of person re-identification based on deep learning[J]. Chinese Journal of Engineering, In press. doi: 10.13374/j.issn2095-9389.2020.12.22.004 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.12.22.004 您可能感兴趣的其他文章 Articles you may be interested in
工程科学学报.第44卷,第X期:1-13.2021年X月 Chinese Journal of Engineering,Vol.44,No.X:1-13,X 2021 https://doi.org/10.13374/j.issn2095-9389.2020.12.22.004;http://cje.ustb.edu.cn 基于深度学习的行人重识别方法综述 李擎12,,胡伟阳l2),李江昀,2)四,刘艳,2),李梦璇2 1)北京科技大学自动化学院,北京1000832)工业过程知识自动化教育部重点实验室,北京1000833)北京科技大学顺德研究生院.佛 山528000 ☒通信作者,E-mail:leejy@ustb.edu.cn 摘要对深度学习在行人重识别领域的应用现状进行总结与评价.首先,对行人重识别进行介绍,包括行人重识别的应用 场景、数据集与评价指标,并对基于深度学习的行人重识别的基本方法进行总结.之后,针对行人重识别的研究现状,将近年 来国内外学者的研究工作归纳为基于局部特征、基于生成对抗网络、基于视频以及基于重排序4个方向,并对每个方向所使 用的方法分别进行梳理、性能对比以及总结.最后,对行人重识别领域现存的问题进行了分析与讨论,并探讨了行人重识别 未来的发展方向 关键词深度学习:行人重识别:局部特征;生成对抗网络;视频数据:重排序 分类号TG183 A survey of person re-identification based on deep learning LI Qing2,HU Wei-yang2,LI Jiang-yun LIU Yan 2,LI Meng-xuan2) 1)School of Automation&Electrical Engineering.University of Science and Technology Beijing.Beijing 100083,China 2)Key Laboratory of Knowledge Automation for Industrial Processes,Ministry of Education,Beijing 100083,China 3)Shunde Graduate School,University of Science and Technology Beijing.Foshan 528000,China Corresponding author,E-mail:leejy@ustb.edu.cn ABSTRACT Person re-identification is an important part of multi-target tracking across cameras;its aim is to identify the same person across different cameras.Given a query image,the purpose of person re-identification is to find the best match for the query image in an image set.Person re-identification is a key component in an intelligent security system;it is beneficial for building a smart bank or smart factory and plays a crucial role in the construction of a smart city.Nowadays,with the development of artificial intelligence and increasing demand for precise identification in practical scenarios,deep learning-based person re-identification technology has become a popular research topic;this technology has achieved state-of-the-art results in comparison with conventional approaches.Although there are many recently proposed networks with stronger representation ability and a high level of accuracy for person re-identification,there also exist some problems that should be considered and solved.These include the insufficient generalization ability of various poses,the inability to fully utilize the temporal information,and the ineffective identification of occluded objects.As a result,many scholars have researched this field and have pointed out some promising solutions to cope with the aforementioned problems.This paper aims to summarize the application of deep learning in the field of person re-identification along with its advantages and shortcomings.First,the background of person re-identification is introduced,including the application scenarios,datasets,and evaluation indicators. Additionally,some basic methods of person re-identification based on deep learning are summarized.According to the existing research on person re-identification,the main approaches proposed by scholars worldwide can be summarized into four aspects,which are based 收稿日期:2020-12-22 基金项目:中央高校基本科研业务费专项资金资助项目(FFDF19-0O2):北京科技大学顺德研究生院科技创新专项资金资助项目 (BK20BE014)
基于深度学习的行人重识别方法综述 李 擎1,2,3),胡伟阳1,2),李江昀1,2,3) 苣,刘 艳1,2),李梦璇1,2) 1) 北京科技大学自动化学院,北京 100083 2) 工业过程知识自动化教育部重点实验室,北京 100083 3) 北京科技大学顺德研究生院,佛 山 528000 苣通信作者, E-mail:leejy@ustb.edu.cn 摘 要 对深度学习在行人重识别领域的应用现状进行总结与评价. 首先,对行人重识别进行介绍,包括行人重识别的应用 场景、数据集与评价指标,并对基于深度学习的行人重识别的基本方法进行总结. 之后,针对行人重识别的研究现状,将近年 来国内外学者的研究工作归纳为基于局部特征、基于生成对抗网络、基于视频以及基于重排序 4 个方向,并对每个方向所使 用的方法分别进行梳理、性能对比以及总结. 最后,对行人重识别领域现存的问题进行了分析与讨论,并探讨了行人重识别 未来的发展方向. 关键词 深度学习;行人重识别;局部特征;生成对抗网络;视频数据;重排序 分类号 TG183 A survey of person re-identification based on deep learning LI Qing1,2,3) ,HU Wei-yang1,2) ,LI Jiang-yun1,2,3) 苣 ,LIU Yan1,2) ,LI Meng-xuan1,2) 1) School of Automation & Electrical Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Key Laboratory of Knowledge Automation for Industrial Processes, Ministry of Education, Beijing 100083, China 3) Shunde Graduate School, University of Science and Technology Beijing, Foshan 528000, China 苣 Corresponding author, E-mail: leejy@ustb.edu.cn ABSTRACT Person re-identification is an important part of multi-target tracking across cameras; its aim is to identify the same person across different cameras. Given a query image, the purpose of person re-identification is to find the best match for the query image in an image set. Person re-identification is a key component in an intelligent security system; it is beneficial for building a smart bank or smart factory and plays a crucial role in the construction of a smart city. Nowadays, with the development of artificial intelligence and increasing demand for precise identification in practical scenarios, deep learning-based person re-identification technology has become a popular research topic; this technology has achieved state-of-the-art results in comparison with conventional approaches. Although there are many recently proposed networks with stronger representation ability and a high level of accuracy for person re-identification, there also exist some problems that should be considered and solved. These include the insufficient generalization ability of various poses, the inability to fully utilize the temporal information, and the ineffective identification of occluded objects. As a result, many scholars have researched this field and have pointed out some promising solutions to cope with the aforementioned problems. This paper aims to summarize the application of deep learning in the field of person re-identification along with its advantages and shortcomings. First, the background of person re-identification is introduced, including the application scenarios, datasets, and evaluation indicators. Additionally, some basic methods of person re-identification based on deep learning are summarized. According to the existing research on person re-identification, the main approaches proposed by scholars worldwide can be summarized into four aspects, which are based 收稿日期: 2020−12−22 基金项目: 中央高校基本科研业务费专项资金资助项目(FRF-DF-19-002);北京科技大学顺德研究生院科技创新专项资金资助项目 (BK20BE014) 工程科学学报,第 44 卷,第 X 期:1−13,2021 年 X 月 Chinese Journal of Engineering, Vol. 44, No. X: 1−13, X 2021 https://doi.org/10.13374/j.issn2095-9389.2020.12.22.004; http://cje.ustb.edu.cn
2 工程科学学报,第44卷,第X期 on local features,generative adversarial networks,video data,and re-ranking.A detailed comparative study of these four methods is then conducted.Finally,the existing problems and future studies that can be done in the field of person re-identification are analyzed and discussed KEY WORDS deep learning;person re-identification;local feature;generating adversarial networks;video data;reranking 行人重识别(Personre-identification,Person RelD), Result 是利用计算机视觉技术对跨摄像头的人员图像进 行特征提取,从而进行人员匹配的技术,广泛应用 Cam I Cam 2 于智慧安防、智慧零售等领域,是人工智能技术与 产业结合的重要支点.在早期的行人重识别研究 中,大量的工作是基于传统计算机视觉方法,利用 手工提取的图像特征,进行行人重识别的研究.近 年来,随着深度学习在许多领域的成功应用,研究 Query Gallery Rank-1 人员们开始尝试将深度学习应用到行人重识别 图1行人重识别的应用场景示例 上,并已取得一定的成果.其主要研究思路为采用 Fig.1 An example of person re-identification application scenarios 深度学习方法进行特征向量提取,再利用度量学 法进行了梳理 习对特征向量进行判别,将图像之间的差异量化, 1.1行人重识别数据集介绍 并使用大量标注数据对模型进行训练迭代.本文 行人重识别的研究方法从基于传统的人工特 首先对行人重识别的概念、数据集以及两个基本 征发展为基于深度学习方法,离不开大规模数据 方法进行介绍,之后,根据研究思路的不同,将当 集的发展四目前常用的行人重识别数据集主要有 前的方法分为基于局部特征、基于生成对抗网 以下几种:CUHK03数据集),Marketl501数据集 络、基于视频以及基于重排序4个方向并分别对 以及DukeMTMC-reID!s,其中CUHKO3数据集的ID 其进行分析和讨论.最后,对行人重识别现存问题 划分分为新旧两种协议,即1367/100与767/7006, 进行归纳整理,并对未来的研究方向进行展望 具体信息如表1所示.在基于视频的行人重识别 1行人重识别 领域广泛应用的数据集主要有PRID20I1☑以及 LIDS-VID1,分别收录了984与300个行人的视频 行人重识别是长时、跨域多目标跟踪的核心 信息,其他视频数据集信息如表2所示 技术川,其主要目标是对同一个行人进行跨摄像头 除了以上几个已经开源的常用数据集以外, 的再识别.在研究中,通常给定一个目标行人图像 近几年内还有一些优秀的数据集被提出,其中比 或者视频片段,在待匹配的图像序列或者视频片 较典型的有:北京大学采集的MSMT179数据集, 段中,识别出目标行人,并给出目标图像与匹配图 包含室内室外15个相机的12万多张行人图像, 像的相似度.如图1所示,两个视野不重合的监控 有4千多个行人ID,是目前最大的单帧RelD数据 摄像头,在不同的时段分别采集了一些行人图像, 集;北京大学和微软研究院联合采集的LvrelD数 从摄像头1采集的图像中选择一张作为目标图像 据集,包含室内室外15个相机的3千多个行人ID 行人重识别的目标就是在摄像头2所采集的图像 的序列图像,总共14943个序列的3百多万张图 中,通过寻找和目标图像匹配度最高的图像,再次 像;北京航空航天大学等采集的LPWo数据集, 将该人物识别出来,实现对行人的跨摄像头跟踪. 包含2731个行人的7694个轨迹序列,总共有56万 行人重识别是一项具有挑战性的任务,它的 多张图像,该数据集的特点是有多个独立的场景, 数据一般来自于安防系统.在系统中,不同摄像设 每个场景都可以作为一个独立的数据集,训练集 备之间的背景、风格具有较大差异,同时行人外观 和侧试集按照场景分开,因此更加接近真实使用 易受遮挡、穿着、视角和姿态等多种因素的影响, 情况:Yu等]提出一种衣着变换的数据集COCAS, 这就使得行人重识别成为一个具有一定挑战性的 含有5266个行人D,共62382个行人检测框,由手 研究课题,同时具有较高的研究价值.图2对当前 工标注得到.2020年以来,一些优秀的行人重识别数 基于深度学习的行人重识别存在的问题与解决方 据集也被相继提出;由中山大学提出的SYSU-302
on local features, generative adversarial networks, video data, and re-ranking. A detailed comparative study of these four methods is then conducted. Finally, the existing problems and future studies that can be done in the field of person re-identification are analyzed and discussed. KEY WORDS deep learning;person re-identification;local feature;generating adversarial networks;video data;reranking 行人重识别(Person re-identification,Person ReID), 是利用计算机视觉技术对跨摄像头的人员图像进 行特征提取,从而进行人员匹配的技术,广泛应用 于智慧安防、智慧零售等领域,是人工智能技术与 产业结合的重要支点. 在早期的行人重识别研究 中,大量的工作是基于传统计算机视觉方法,利用 手工提取的图像特征,进行行人重识别的研究. 近 年来,随着深度学习在许多领域的成功应用,研究 人员们开始尝试将深度学习应用到行人重识别 上,并已取得一定的成果. 其主要研究思路为采用 深度学习方法进行特征向量提取,再利用度量学 习对特征向量进行判别,将图像之间的差异量化, 并使用大量标注数据对模型进行训练迭代. 本文 首先对行人重识别的概念、数据集以及两个基本 方法进行介绍. 之后,根据研究思路的不同,将当 前的方法分为基于局部特征、基于生成对抗网 络、基于视频以及基于重排序 4 个方向并分别对 其进行分析和讨论. 最后,对行人重识别现存问题 进行归纳整理,并对未来的研究方向进行展望. 1 行人重识别 行人重识别是长时、跨域多目标跟踪的核心 技术[1] ,其主要目标是对同一个行人进行跨摄像头 的再识别. 在研究中,通常给定一个目标行人图像 或者视频片段,在待匹配的图像序列或者视频片 段中,识别出目标行人,并给出目标图像与匹配图 像的相似度. 如图 1 所示,两个视野不重合的监控 摄像头,在不同的时段分别采集了一些行人图像, 从摄像头 1 采集的图像中选择一张作为目标图像. 行人重识别的目标就是在摄像头 2 所采集的图像 中,通过寻找和目标图像匹配度最高的图像,再次 将该人物识别出来,实现对行人的跨摄像头跟踪. 行人重识别是一项具有挑战性的任务,它的 数据一般来自于安防系统. 在系统中,不同摄像设 备之间的背景、风格具有较大差异,同时行人外观 易受遮挡、穿着、视角和姿态等多种因素的影响, 这就使得行人重识别成为一个具有一定挑战性的 研究课题,同时具有较高的研究价值. 图 2 对当前 基于深度学习的行人重识别存在的问题与解决方 法进行了梳理. 1.1 行人重识别数据集介绍 行人重识别的研究方法从基于传统的人工特 征发展为基于深度学习方法,离不开大规模数据 集的发展[2] . 目前常用的行人重识别数据集主要有 以下几种:CUHK03 数据集[3] ,Market1501[4] 数据集 以及 DukeMTMC-reID[5] ,其中 CUHK03 数据集的 ID 划分分为新旧两种协议,即 1367/100 与 767/700[6] , 具体信息如表 1 所示. 在基于视频的行人重识别 领域广泛应用的数据集主要有 PRID2011[7] 以及 iLIDS-VID[8] ,分别收录了 984 与 300 个行人的视频 信息,其他视频数据集信息如表 2 所示. 除了以上几个已经开源的常用数据集以外, 近几年内还有一些优秀的数据集被提出,其中比 较典型的有:北京大学采集的 MSMT17[9] 数据集, 包含室内室外 15 个相机的 12 万多张行人图像, 有 4 千多个行人 ID,是目前最大的单帧 ReID 数据 集;北京大学和微软研究院联合采集的 LvreID 数 据集,包含室内室外 15 个相机的 3 千多个行人 ID 的序列图像,总共 14943 个序列的 3 百多万张图 像;北京航空航天大学等采集的 LPW[10] 数据集, 包含 2731 个行人的 7694 个轨迹序列,总共有 56 万 多张图像,该数据集的特点是有多个独立的场景, 每个场景都可以作为一个独立的数据集,训练集 和测试集按照场景分开,因此更加接近真实使用 情况;Yu 等[11] 提出一种衣着变换的数据集 COCAS, 含有 5266 个行人 ID,共 62382 个行人检测框,由手 工标注得到. 2020 年以来,一些优秀的行人重识别数 据集也被相继提出;由中山大学提出的 SYSU-30[12] Result Cam 1 Cam 2 Query Gallery Rank-1 图 1 行人重识别的应用场景示例 Fig.1 An example of person re-identification application scenarios · 2 · 工程科学学报,第 44 卷,第 X 期
李擎等:基于深度学习的行人重识别方法综述 3 Occlusion Misalignment Pose variation Existing problem Tnformation redundancy Low utilization of temporal information Lack of generalizability PCB+RPP Person re-identification based on deep learning Local feature SPRelD SMC-RelD DCGAN CycleGAN GAN PTGAN PNGAN DeepRCN Methods RFA-Net Video SCAN ResNet3D+Non-Local CSTNet k-reciprocal encoding Re-ranking/HVIL Distance based re-ranking 图2基于深度学习的行人重识别研究问题与方法归纳 Fig.2 Research problems and methods of person re-identification based on deep leaming 表1部分行人重识别公开数据集 利用一种随机自动生成大量三维人物模型的方 Table 1 Part of person re-identification public datasets 法,并在游戏环境中进行渲染而得到,包含8000 Dataset Camera D Image Body 个行人ID,38段视频以及1801816张行人切片图像 numbers numbers numbers images 为了研究黑衣人问题而建立的首个黑衣人数据集 Market-1501441 6 1501 32668 DPM DukeMTMC. Black-relD,该数据集图像来自于Market--l50l、 relD间 P 1812 36411 Hand DukeMTMC-relD、Partial等几个数据集,建立者从中 MSMT17I例 5 4101 126441 Faster RCNN 选取对应的图像建立黑衣人数据集,该数据集训 CUHK0301 1467 14096 Hand 练集包含688个行人ID,测试集包含1644个行人ID LPWtio 11 2731 562438 DPM+Hand 1.2行人重识别评价指标 COCAS 30 5266 62382 Hand 行人重识别的评测指标主要有以下儿种 (1I)Rank-n Accuracyl9:这是一种在图像分类、 表2部分行人重识别视颜数据集 检索领域广泛使用的评价指标.给定一张目标图 Table 2 Part of person re-identification video datasets 像,训练好的行人重识别模型会给出一个按照置 ID Dataset Camera Sequence numbers Body images numbers length 信度排序的识别结果序列.最常用的Rank-l PRID2011 2 200 400 Hand Accuracy与Rank-5 Accuracy2种评价指标,分别代 DukeMTMC VideoRelD!sI 6 702 4832 一 表在测试中,第1位即为正确匹配的比例,以及前 iLIDS.VID周 2 300 600 Hand 5位存在正确匹配的比例. MARSI6I 1261 20715 DPM+GMMCP (2)CMC (Cumulative match characteristic): EgoRelDl7 900 10200 YOLO9000+FS 累积匹配曲线,通过绘制Rank-n accuracy随着参 3 DSC LS-VID 数n变化的曲线,直观地了解top-n击中概率的变 15 3772 14943 Faster R-CNN 化,主要用来评估闭集中排序结果的正确率 数据集包含了30000个行人D,同时数据集涵盖 (3)ROC(Receiver operating characteristic 了剧烈的光照变化、遮挡、低像素、俯视拍摄以及 curve):ROC曲线是检测、分类、识别任务中常用 真实场景下的复杂背景等多种复杂情况;由起源 的一项评价指标,表示随着分类阈值的变化,行人 人工智能研究院提出的RandPerson!]行人数据集, 重识别模型对正样本与负样本的区分情况
数据集包含了 30000 个行人 ID,同时数据集涵盖 了剧烈的光照变化、遮挡、低像素、俯视拍摄以及 真实场景下的复杂背景等多种复杂情况;由起源 人工智能研究院提出的 RandPerson[13] 行人数据集, 利用一种随机自动生成大量三维人物模型的方 法,并在游戏环境中进行渲染而得到,包含 8000 个行人 ID,38 段视频以及 1801816 张行人切片图像. 为了研究黑衣人问题而建立的首个黑衣人数据集 Black-reID[14] ,该数据集图像来自于 Market-1501、 DukeMTMC-reID、Partial 等几个数据集,建立者从中 选取对应的图像建立黑衣人数据集,该数据集训 练集包含 688 个行人 ID,测试集包含 1644 个行人 ID. 1.2 行人重识别评价指标 行人重识别的评测指标主要有以下几种. (1)Rank-n Accuracy[19] :这是一种在图像分类、 检索领域广泛使用的评价指标. 给定一张目标图 像,训练好的行人重识别模型会给出一个按照置 信度排序的识别结果序列 . 最常用 的 Rank-1 Accuracy 与 Rank-5 Accuracy 2 种评价指标,分别代 表在测试中,第 1 位即为正确匹配的比例,以及前 5 位存在正确匹配的比例. (2)CMC 曲线[19] (Cumulative match characteristic): 累积匹配曲线,通过绘制 Rank-n accuracy 随着参 数 n 变化的曲线,直观地了解 top-n 击中概率的变 化,主要用来评估闭集中排序结果的正确率. ( 3)ROC 曲线(Receiver operating characteristic curve):ROC 曲线是检测、分类、识别任务中常用 的一项评价指标,表示随着分类阈值的变化,行人 重识别模型对正样本与负样本的区分情况. 表 1 部分行人重识别公开数据集 Table 1 Part of person re-identification public datasets Dataset Camera numbers ID numbers Image numbers Body images Market-1501[4] 6 1501 32668 DPM DukeMTMCreID [5] 8 1812 36411 Hand MSMT17[9] 15 4101 126441 Faster RCNN CUHK03[3] 2 1467 14096 Hand LPW[10] 11 2731 562438 DPM+Hand COCAS[11] 30 5266 62382 Hand 表 2 部分行人重识别视频数据集 Table 2 Part of person re-identification video datasets Dataset Camera numbers ID numbers Sequence length Body images PRID2011[7] 2 200 400 Hand DukeMTMC VideoReID[15] 6 702 4832 — iLIDS-VID [8] 2 300 600 Hand MARS[16] 6 1261 20715 DPM+GMMCP EgoReID[17] 3 900 10200 YOLO9000+FS DSC LS-VID[18] 15 3772 14943 Faster R-CNN Occlusion Local feature GAN Video Re-ranking Misalignment Pose variation Tnformation redundancy Low utilization of temporal information Lack of generalizability Existing problems Methods PCB+RPP SPReID SMC-ReID DCGAN CycleGAN PTGAN PNGAN DeepRCN RFA-Net CSTNet ResNet3D+Non-Local HVIL k-reciprocal encoding Distance based re-ranking SCAN Person re-identification based on deep learning 图 2 基于深度学习的行人重识别研究问题与方法归纳 Fig.2 Research problems and methods of person re-identification based on deep learning 李 擎等: 基于深度学习的行人重识别方法综述 · 3 ·
工程科学学报,第44卷,第X期 (4)mAPl(mean Average Precision):平均精度 2.1表征学习 均值,是多目标检测与多标签分类的常用评价指 表征学习,即特征表示学习,它的目的是提取 标,绘制精确率与召回率的关系曲线(P-R曲线), 图像特征,即将图像数据抽象为高维特征向量,便 该曲线与坐标轴的面积即为平均精确率(Average 于图像之间差异的量化.随着深度学习的发展,广 precision),对所有类别测试得到各自的平均精确 泛使用卷积神经网络作为特征提取器,提取图像 率,取均值得到平均精度均值mAP.平均精度指标 或者视频的特征向量 不仅体现了模型的精确率,还能对模型给出的排 在图像分类领域,已有一些较为有效的特征 名顺序做出评价 提取方法2s7,因此在行人重识别研究的初期,一 行人重识别模型最为常用的评价指标为Rank-n 些学者将行人重识别转换为分类问题进行研究 Accuracy与mAP,表3整理了目前各个数据集上表 将行人的D作为标签对数据进行标注,使用图像 现最优的模型(State of the art,.SOTA)以及其他一些 分类方法进行行人的分类.在之后的研究中,一些 优秀模型的精度数据,其中OSNet与DG-Net的精度 学者受到图像检索方法的启发,提出了CIR(Cross- 数据测试于按照新版协议划分的CUHK03数据集 image representation)方法,使用图像对作为输入, 表3各数据集的性能最优模型以及精度数据 最终输出两者的相似度.该方法基于孪生卷积神 Table 3 State-of-the-art models and their precision for each dataset 经网络(Siamese CNN)p,将2张图像分别输入到 Dataset SOTA Rank-1 accuracy mAP 2个独立的子网络中,得到图像的特征图,再通过 St-RelD(RE.RK)D 97.20 86.70 度量学习的方法判断图像对是否属于同一个行 Market- Viewpoint-Aware Loss21 96.79 95.43 人.Yi等2首次将孪生卷积神经网络应用到行人 15019 DG-Netl2 94.80 84.00 重识别领域,考虑到行人重识别图像数据的背景、 St-ReID(RE,RK,Cam)20 94.50 92.70 光照等特征的不同,舍弃了原网络共享权值的做 DukeMTMC- ABD-Net(ResNet-50)2 89.00 78.95 法,使2个子网络相互独立.Ahmed等0基于孪生 reIDls1 Viewpoint-Aware LossP 93.90 91.80 卷积神经网络,针对行人重识别提出了一种深度 FD-GANI 92.60 91.30 网络,将图像对作为网络输入,计算图像特征图差 CUHK036 OSNetE4 67.80 异,最终判断图像对是否属于同一类别.在此基础 DG-Netz 61.10 一 上,Wu等B提出了PersonNet,.在原有的结构上, ABD-Net(ResNet-50)2 82.30 60.80 使用多个3×3卷积层加深网络,使得效果得到显 OSNet4 78.70 52.90 著提升.CIR方法强调输入的两张图像的相互关 MSMT17 DG-Net22 77.20 52.30 系,在网络结构中可以很好地体现出来.Wang等四 提出一种名为Wconv的卷积结构,让每张输入图 2 行人重识别方法研究框架 像都经过两个独立的卷积层,生成两张特征图并 进行融合,从而得到两张图像各自的特征图 行人重识别框架与大多数基于深度学习的图 Wang等B]提出了一种结合单张图像特征的方法, 像处理问题相似,首先使用卷积神经网络(CNN), 对输入的图像对,分别使用独立的卷积神经网络 利用表征学习对数据进行特征提取得到特征向量, 提取各自的特征,并抽取特征提取过程中的特征 之后再利用度量学习的方法进行类别判断.行人 图进行融合,这种方法结合了提取单张图像特征 重识别的研究框架如图3所示,本章对表征学习 的高效率以及CIR方法对图像间信息提取的优 与度量学习的定义以及基本方法进行简要介绍. 势.熊炜等两提出了一种深层特征融合行人重识 Result Representation learing 别模型,利用卷积层与池化层多次提取网络深层 特征,使用融合后的深层特征作为行人的特征属 性,提升了网络提取全局特征的能力.同样的思 想,该作者在文献[35]中提出,将特征提取网络最 Gallery ank-I 后三个卷积层提取的特征图进行拼接,再使用卷 积神经网络提取深层特征,提升了网络的深层特 因3行人重识别研究方法框架 征提取能力.Wang等提出的St-RelD方法,利 Fig.3 Research method framework of person re-identification methods 用跨模态融合方法,将图像的视觉特征以及时空
(4)mAP[11] (mean Average Precision):平均精度 均值,是多目标检测与多标签分类的常用评价指 标,绘制精确率与召回率的关系曲线(P‒R 曲线), 该曲线与坐标轴的面积即为平均精确率(Average precision),对所有类别测试得到各自的平均精确 率,取均值得到平均精度均值 mAP. 平均精度指标 不仅体现了模型的精确率,还能对模型给出的排 名顺序做出评价. 行人重识别模型最为常用的评价指标为 Rank-n Accuracy 与 mAP,表 3 整理了目前各个数据集上表 现最优的模型(State of the art, SOTA)以及其他一些 优秀模型的精度数据,其中 OSNet 与 DG-Net 的精度 数据测试于按照新版协议划分的 CUHK03 数据集. 表 3 各数据集的性能最优模型以及精度数据 Table 3 State-of-the-art models and their precision for each dataset Dataset SOTA Rank-1 accuracy mAP Market- 1501[4] St-ReID(RE, RK)[20] 97.20 86.70 Viewpoint-Aware Loss[21] 96.79 95.43 DG-Net[22] 94.80 84.00 DukeMTMCreID[5] St-ReID(RE, RK, Cam)[20] 94.50 92.70 ABD-Net(ResNet-50)[23] 89.00 78.95 Viewpoint-Aware Loss[21] 93.90 91.80 CUHK03[3][6] FD-GAN[19] 92.60 91.30 OSNet[24] 67.80 — DG-Net[22] 61.10 — ABD-Net(ResNet-50)[23] 82.30 60.80 MSMT17[9] OSNet[24] 78.70 52.90 DG-Net[22] 77.20 52.30 2 行人重识别方法研究框架 行人重识别框架与大多数基于深度学习的图 像处理问题相似,首先使用卷积神经网络(CNN), 利用表征学习对数据进行特征提取得到特征向量, 之后再利用度量学习的方法进行类别判断. 行人 重识别的研究框架如图 3 所示,本章对表征学习 与度量学习的定义以及基本方法进行简要介绍. Quary Result Representation learing Feature map Metric learning Gallery Rank-1 图 3 行人重识别研究方法框架 Fig.3 Research method framework of person re-identification methods 2.1 表征学习 表征学习,即特征表示学习,它的目的是提取 图像特征,即将图像数据抽象为高维特征向量,便 于图像之间差异的量化. 随着深度学习的发展,广 泛使用卷积神经网络作为特征提取器,提取图像 或者视频的特征向量. 在图像分类领域,已有一些较为有效的特征 提取方法[25−27] ,因此在行人重识别研究的初期,一 些学者将行人重识别转换为分类问题进行研究. 将行人的 ID 作为标签对数据进行标注,使用图像 分类方法进行行人的分类. 在之后的研究中,一些 学者受到图像检索方法的启发,提出了 CIR(Crossimage representation)方法,使用图像对作为输入, 最终输出两者的相似度. 该方法基于孪生卷积神 经网络(Siamese CNN) [28] ,将 2 张图像分别输入到 2 个独立的子网络中,得到图像的特征图,再通过 度量学习的方法判断图像对是否属于同一个行 人. Yi 等[29] 首次将孪生卷积神经网络应用到行人 重识别领域,考虑到行人重识别图像数据的背景、 光照等特征的不同,舍弃了原网络共享权值的做 法,使 2 个子网络相互独立. Ahmed 等[30] 基于孪生 卷积神经网络,针对行人重识别提出了一种深度 网络,将图像对作为网络输入,计算图像特征图差 异,最终判断图像对是否属于同一类别. 在此基础 上 ,Wu 等[31] 提出了 PersonNet,在原有的结构上, 使用多个 3×3 卷积层加深网络,使得效果得到显 著提升. CIR 方法强调输入的两张图像的相互关 系,在网络结构中可以很好地体现出来. Wang 等[32] 提出一种名为 Wconv 的卷积结构,让每张输入图 像都经过两个独立的卷积层,生成两张特征图并 进行融合 ,从而得到两张图像各自的特征图 . Wang 等[33] 提出了一种结合单张图像特征的方法, 对输入的图像对,分别使用独立的卷积神经网络 提取各自的特征,并抽取特征提取过程中的特征 图进行融合,这种方法结合了提取单张图像特征 的高效率以及 CIR 方法对图像间信息提取的优 势. 熊炜等[34] 提出了一种深层特征融合行人重识 别模型,利用卷积层与池化层多次提取网络深层 特征,使用融合后的深层特征作为行人的特征属 性,提升了网络提取全局特征的能力. 同样的思 想,该作者在文献 [35] 中提出,将特征提取网络最 后三个卷积层提取的特征图进行拼接,再使用卷 积神经网络提取深层特征,提升了网络的深层特 征提取能力. Wang 等[20] 提出的 St-ReID 方法,利 用跨模态融合方法,将图像的视觉特征以及时空 · 4 · 工程科学学报,第 44 卷,第 X 期