第12卷第6期 智能系统学报 Vol.12 No.6 2017年12月 CAAI Transactions on Intelligent Systems Dec.2017 D0:10.11992/tis.201706084 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20171109.1534.032.html 行人重识别研究综述 宋婉茹,赵晴晴,陈昌红,干宗良,刘峰 (南京邮电大学通信与信息工程学院,江苏南京210003) 摘要:行人重识别是智能视频分析领域的研究热点,得到了学术界的广泛重视。行人重识别旨在非重叠视角域多 摄像头网络下进行的行人匹配,即确认不同位置的摄像头在不同的时刻拍摄到的行人目标是否为同一人。本文根据 研究对象的不同.将目前的研究分为基于图像的行人重识别和基于视频的行人重识别两类,对这两类分别从特征描 述、度量学习和数据库集3个方面将现有文献分类进行了详细地总结和分析。此外,随着近年来深度学习算法的广 泛应用,也带来了行人重识别在特征描述和度量学习方面算法的变革,总结了深度学习在行人重识别中的应用,并对 未来发展趋势进行了展望。 关键词:行人重识别;特征表达;度量学习;深度学习;卷积神经网络;数据集;视频监控 中图分类号:TP181文献标志码:A文章编号:1673-4785(2017)06-0770-11 中文引用格式:宋婉茹,赵晴晴,陈昌红,等.行人重识别研究综述J机.智能系统学报,2017,12(6):770-780 英文引用格式:SONG Wanru,ZHAO Qingqing,CHEN Changhong,et al.Survey on pedestrian re-identification researchJ.CAAI transactions on intelligent systems,2017,12(6):770-780. Survey on pedestrian re-identification research SONG Wanru,ZHAO Qingqing,CHEN Changhong,GAN Zongliang,LIU Feng (College of Communication and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003, China) Abstract:The intelligent video analysis method based on pedestrian re-identification has become a research focus in the field of computer vision,and it has received extensive attention from the academic community.Pedestrian re-identifica- tion aims to verify pedestrian identity in image sequences captured by cameras that are orientated in different directions at different times.This current study is classified into two categories:image-based and video-based algorithms.For these two categories,using feature description,metric learning,and various benchmark datasets,detailed analysis is per- formed,and a summary is presented.In addition,the wide application of deep-learning algorithms in recent years has changed pedestrian re-identification in terms of feature description and metric learning.The paper summarizes the ap- plication of deep learning in pedestrian re-identification and looks at future development trends. Keywords:pedestrian re-identification;feature representation;metric learning;deep learning;convolutional neural net- works;datasets;video surveillance 在人的感知系统所获得的信息中,视觉信息大tification)是近几年智能视频分析领域兴起的一项 约占到80%~85%。图像与视频等相关的应用在国 新技术,属于在复杂视频环境下的图像处理和分析 民日常生活的地位日益突出。图像处理学科既是科 范畴,是许多监控和安防应用中的主要任务),并 学领域中具有挑战性的理论研究方向,也是工程领 且在计算机视觉领域获得了越来越多的关注“。 域中的重要应用技术。行人重识别(person re-iden- 1行人重识别概述 收稿日期:2017-06-27.网络出版日期:2017-11-09. 基金项目:国家自然科学基金项目(61471201). 1.1背景与研究意义 通信作者:宋婉茹.E-mail:songwanruu@163.com 行人重识别是指在已有的可能来源与非重叠摄
DOI: 10.11992/tis.201706084 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20171109.1534.032.html 行人重识别研究综述 宋婉茹,赵晴晴,陈昌红,干宗良,刘峰 (南京邮电大学 通信与信息工程学院,江苏 南京 210003) 摘 要:行人重识别是智能视频分析领域的研究热点,得到了学术界的广泛重视。行人重识别旨在非重叠视角域多 摄像头网络下进行的行人匹配,即确认不同位置的摄像头在不同的时刻拍摄到的行人目标是否为同一人。本文根据 研究对象的不同,将目前的研究分为基于图像的行人重识别和基于视频的行人重识别两类,对这两类分别从特征描 述、度量学习和数据库集 3 个方面将现有文献分类进行了详细地总结和分析。此外,随着近年来深度学习算法的广 泛应用,也带来了行人重识别在特征描述和度量学习方面算法的变革,总结了深度学习在行人重识别中的应用,并对 未来发展趋势进行了展望。 关键词:行人重识别;特征表达;度量学习;深度学习;卷积神经网络;数据集;视频监控 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2017)06−0770−11 中文引用格式:宋婉茹, 赵晴晴, 陈昌红, 等. 行人重识别研究综述[J]. 智能系统学报, 2017, 12(6): 770–780. 英文引用格式:SONG Wanru, ZHAO Qingqing, CHEN Changhong, et al. Survey on pedestrian re-identification research[J]. CAAI transactions on intelligent systems, 2017, 12(6): 770–780. Survey on pedestrian re-identification research SONG Wanru,ZHAO Qingqing,CHEN Changhong,GAN Zongliang,LIU Feng (College of Communication and Information Engineering, Nanjing University of Posts and Telecommunications, Nanjing 210003, China) Abstract: The intelligent video analysis method based on pedestrian re-identification has become a research focus in the field of computer vision, and it has received extensive attention from the academic community. Pedestrian re-identification aims to verify pedestrian identity in image sequences captured by cameras that are orientated in different directions at different times. This current study is classified into two categories: image-based and video-based algorithms. For these two categories, using feature description, metric learning, and various benchmark datasets, detailed analysis is performed, and a summary is presented. In addition, the wide application of deep-learning algorithms in recent years has changed pedestrian re-identification in terms of feature description and metric learning. The paper summarizes the application of deep learning in pedestrian re-identification and looks at future development trends. Keywords: pedestrian re-identification; feature representation; metric learning; deep learning; convolutional neural networks; datasets; video surveillance 在人的感知系统所获得的信息中,视觉信息大 约占到 80%~85%。图像与视频等相关的应用在国 民日常生活的地位日益突出。图像处理学科既是科 学领域中具有挑战性的理论研究方向,也是工程领 域中的重要应用技术。行人重识别(person re-identification)是近几年智能视频分析领域兴起的一项 新技术,属于在复杂视频环境下的图像处理和分析 范畴,是许多监控和安防应用中的主要任务[1-3] ,并 且在计算机视觉领域获得了越来越多的关注[4-8]。 1 行人重识别概述 1.1 背景与研究意义 行人重识别是指在已有的可能来源与非重叠摄 收稿日期:2017−06−27. 网络出版日期:2017−11−09. 基金项目:国家自然科学基金项目 (61471201). 通信作者:宋婉茹. E-mail:songwanruu@163.com. 第 12 卷第 6 期 智 能 系 统 学 报 Vol.12 No.6 2017 年 12 月 CAAI Transactions on Intelligent Systems Dec. 2017
第6期 宋婉茹,等:行人重识别研究综述 ·771· 像机视域的视频序列中识别出目标行人。以图1为 1.2研究现状 例,因为这些镜头是无重叠的,所以视域完全不同, 相对于行人检测来说,行人重识别的研究还不 假设我们要对在摄像头2中拍摄到的目标个体1在 算成熟,但早在1996年,就有学者关注行人重识别 其他镜头中进行重识别,需要在其他的摄像头中定 问题,在2006年,行人重识别的概念第一次在 位到这个目标,除了目标本身在不同镜头下外观上 CVPR上提出后o,相关的研究不断涌现。2007年 的不同,还会受到其他个体的影响,比如在摄像头 Gray提出一个对于行人重识别的研究具有重大意 2中目标个体1需要与摄像头1中的4个目标个体 义的数据库VIPeR四。此后越来越多的学者开始关 都进行比较。因此研究该问题对公共安全和刑侦有 注行人重识别的研究。近些年,每年在国际顶级的 着非常重要的现实意义。 会议以及顶级期刊上关于行人重识别的工作不在少 数,如图3.2012年,第一个行人重识别研讨会在 聂像头2 ECCV会议上召开;2013年,Gong等出版第一本 摄像头 行人重识别的专著;2014年后,深度学习被应用到 像头 行人重识别领域;2016年,行人重识别迎来井喷式 ● 摄像头4 的增长,在各大计算机视觉的会议中出现了几十篇 相关论文,尤其是基于深度神经网络的方法引起了 广泛的关注;同时,相关数据集在不断地扩充, 图1多镜头监控中的行人重识别 在各个数据集上的结果也获得很大的提升,到目 Fig.1 Person Re-identification under different cameras 前,行人重识别问题已成为计算机视觉的一个热点 行人重识别的研究面临着诸如图像分辨率低 问题。 视角变化、姿态变化、光线变化以及遮挡等带来的 30 ◆-CVPR■-ICCV/ECCV 诸多挑战。比如,1)监控视频的画面一般比较模 糊,分辨率也比较低,如图2(a)所示,所以利用人脸 识别等方式无法进行重识别的工作,只能利用头部 0路路鲁-经 之外的人体外观信息进行识别,而不同行人的体型 2008 20 和衣着服饰有可能相同,这为行人重识别的准确度 年份 带来了极大的挑战:2)行人重识别的图像往往采自 图3顶级会议收录行人的论文篇数 于不同的摄像机,由于拍摄场景、摄像参数不同,行 Fig.3 Percentage of person re-ID papers on top confer- 人重识别工作一般存在光照变化及视角变化等问 ences over the years 题,如图2b)、(c)所示,这导致同一个行人在不同摄 传统的行人重识别从特征提取和距离度量学习 像机下存在较大的差异,不同行人的外貌特征可能 两个方面进行研究。2014年后,越来越多的研究 比同一个人的外貌特征更相似;3)进行重识别的行 者尝试将行人重识别的研究与深度学习结合在一 人图像可能拍摄于不同的时间,行人姿态、衣着会 起,深度学习不仅应用于提取高层特征,也为度 有不同程度的改变。此外在不同的光照条件下,行 量学习的研究带来了革新。即使深度学习在规模较 人的外观特征也会有很大的差异,如图2(©)。此外 小的数据集上的结果没有很明显的提升,但随着研 实际视频监控下的场景非常复杂,很多监控场景人 流量大,场景复杂,画面很容易出现遮挡等情况,如 究方法的成熟以及较大规模的数据集的出现,深度 图2(d),这种时候靠步态等特征就很难进行重识 学习在行人重识别领域越来越受研究者们青睐。行 别。以上情况都给行人重识别的研究带来了巨大的 人重识别最开始是在基于图片的情况下,11,即 挑战,因此目前的研究距离实际应用层面还有很大 在每个数据集中每个摄像机视角下只有一幅或者几 的距离。 幅行人图像。但是视频相较于图像而言拥有更多信 息,并且基于视频的研究更符合视频监控环境下的 现实情况,因此我们很自然地考虑处理基于视频的 行人重识别问题。从2010年后,很多学者开始对基 于视频的行人重识别进行研究2。我们将按照基 (a)低分辨图像(b)视角变化(c)光线变化 (d遮挡 于图像和基于视频的行人重识别研究进行介绍。 图2行人重识别的困难与挑战 13评价标准 Fig.2 Difficulty and challenge to person reidentification 在研究中为了评价所提出的行人重识别方法的
像机视域的视频序列中识别出目标行人。以图 1 为 例,因为这些镜头是无重叠的,所以视域完全不同, 假设我们要对在摄像头 2 中拍摄到的目标个体 1 在 其他镜头中进行重识别,需要在其他的摄像头中定 位到这个目标,除了目标本身在不同镜头下外观上 的不同,还会受到其他个体的影响,比如在摄像头 2 中目标个体 1 需要与摄像头 1 中的 4 个目标个体 都进行比较。因此研究该问题对公共安全和刑侦有 着非常重要的现实意义。 行人重识别的研究面临着诸如图像分辨率低、 视角变化、姿态变化、光线变化以及遮挡等带来的 诸多挑战。比如,1)监控视频的画面一般比较模 糊,分辨率也比较低,如图 2(a) 所示,所以利用人脸 识别等方式无法进行重识别的工作,只能利用头部 之外的人体外观信息进行识别,而不同行人的体型 和衣着服饰有可能相同,这为行人重识别的准确度 带来了极大的挑战;2)行人重识别的图像往往采自 于不同的摄像机,由于拍摄场景、摄像参数不同,行 人重识别工作一般存在光照变化及视角变化等问 题,如图 2(b)、(c) 所示,这导致同一个行人在不同摄 像机下存在较大的差异,不同行人的外貌特征可能 比同一个人的外貌特征更相似;3)进行重识别的行 人图像可能拍摄于不同的时间,行人姿态、衣着会 有不同程度的改变。此外在不同的光照条件下,行 人的外观特征也会有很大的差异,如图 2(c)。此外 实际视频监控下的场景非常复杂,很多监控场景人 流量大,场景复杂,画面很容易出现遮挡等情况,如 图 2(d), 这种时候靠步态等特征就很难进行重识 别。以上情况都给行人重识别的研究带来了巨大的 挑战,因此目前的研究距离实际应用层面还有很大 的距离。 1.2 研究现状 相对于行人检测来说,行人重识别的研究还不 算成熟,但早在 1996 年,就有学者关注行人重识别 问题[ 9 ] ,在 2006 年,行人重识别的概念第一次在 CVPR 上提出后[10] ,相关的研究不断涌现。2007 年 Gray 提出一个对于行人重识别的研究具有重大意 义的数据库 VIPeR[11]。此后越来越多的学者开始关 注行人重识别的研究。近些年,每年在国际顶级的 会议以及顶级期刊上关于行人重识别的工作不在少 数,如图 3。2012 年,第一个行人重识别研讨会在 ECCV 会议上召开;2013 年,Gong 等 [12]出版第一本 行人重识别的专著;2014 年后,深度学习被应用到 行人重识别领域;2016 年,行人重识别迎来井喷式 的增长,在各大计算机视觉的会议中出现了几十篇 相关论文,尤其是基于深度神经网络的方法引起了 广泛的关注;同时,相关数据集在不断地扩充, 在各个数据集上的结果也获得很大的提升,到目 前,行人重识别问题已成为计算机视觉的一个热点 问题。 传统的行人重识别从特征提取和距离度量学习 两个方面进行研究。2014 年后,越来越多的研究 者尝试将行人重识别的研究与深度学习结合在一 起 [13-15] ,深度学习不仅应用于提取高层特征,也为度 量学习的研究带来了革新。即使深度学习在规模较 小的数据集上的结果没有很明显的提升,但随着研 究方法的成熟以及较大规模的数据集的出现,深度 学习在行人重识别领域越来越受研究者们青睐。行 人重识别最开始是在基于图片的情况下[13, 16-19] ,即 在每个数据集中每个摄像机视角下只有一幅或者几 幅行人图像。但是视频相较于图像而言拥有更多信 息,并且基于视频的研究更符合视频监控环境下的 现实情况,因此我们很自然地考虑处理基于视频的 行人重识别问题。从 2010 年后,很多学者开始对基 于视频的行人重识别进行研究[20-24]。我们将按照基 于图像和基于视频的行人重识别研究进行介绍。 1.3 评价标准 在研究中为了评价所提出的行人重识别方法的 1 1 ᥰ 2 ᥰ 3 ᥰ 1 ᥰ 4 2 6 5 4 7 6 5 4 3 ᥰ ᥰ 图 1 多镜头监控中的行人重识别 Fig. 1 Person Re-identification under different cameras (a) Ѻܲ䓔ప) b) 㻲㻾ऄࡂ) c) اٴ㏫ऄࡂ) d) 䖚ᡍ 图 2 行人重识别的困难与挑战 Fig. 2 Difficulty and challenge to person reidentification 0 10 20 30 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 ン ᎠЩ CVPR ICCV/ECCV 图 3 顶级会议收录行人的论文篇数 Fig. 3 Percentage of person re-ID papers on top conferences over the years 第 6 期 宋婉茹,等:行人重识别研究综述 ·771·
·772· 智能系统学报 第12卷 性能,通常将数据库中的行人分为训练集和测试集 precision)作为评价标准能更好地比较方法的优劣, 两个部分,在测试时,第1个摄像机所拍摄的数据 目前已有文献2将CMC曲线和mAP结合作为评 作为查找集,而第2个摄像机中的行人数据为候选 价标准。 集。目前常用的评价标准主要是CMC曲线(cumu- lated matching characteristic),当查找的对象在候选 2基于图像的行人重识别研究 集中进行距离比较之后,将候选集中的行人按照距 行人重识别算法大致可分为基于特征描述的方 离的远近由小到大进行排序,要查找的行人排序越 法和基于距离度量学习的方法两类。基于特征描述 靠前,则算法的效果越好。假设总共有N个行人, 的方法关注的是找到较好的描述行人外貌特征的 即共进行N次查询和排序,每次查询中目标行人的 表观模型,基于度量学习的方法关注的是找到有效 排序结果用r=(,2,,rw)表示,那么CMC曲线可 的行人特征相似度的度量准则。下面将分别介绍这 以表示为 两类。 CMC(R) ≤R 2.1特征表达方法 (1) n>R 基于特征表示的方法重点在于设计鲁棒可靠的 在近几年,Zheng等在论文中提出用平均正 行人图像特征表示模型,即能够区分不同行人,同 确率均值(mean average precision,.mAP)来进行算 时能够不受光照和视角变化的影响,将其主要分为 法的评价标准,指出同时使用mAP(mean average 以下几类进行介绍,典型特征总结见表1。 表1典型特征的总结 Table 1 A summary of typical features 作者 年份 图像特征 时间信息 表征 D.Gray等 2008 颜色、纹理 无 ELF (RGB,YCbCr,HSV.Gabor filters) A.Krizhevsky等B 2012 CNN颜色、形状 无 CNN Zhao R等7 2013 颜色 无 dColorSIFT (Dense Color.Dense SIFT) B.Ma等7 2014 外观、纹理生物激励特征 无 gBiCov(BlF,Gabor,.Covariance?描述符) Xiang Li等4s 2015 颜色、形状、纹理 无 Color,LBP,HOG GouM等B4 2016 颜色、局部、纹理、轨迹 有 Color&LBP,HOG3D,DynFV T.Matsukawa等9 2016 局部、形状、颜色、梯度 无 GOG(区域Gaussian分布、LAB,HSV,nRGB McLaughlin等9 2016 颜色、轨迹、CNN 有 卷积神经网(CNN)循环神经网络(RNN) 1)底层视觉特征:这种方法基本上都是将图像 式(LBP)2刃、Gabor滤波器2M、共生矩阵(Co-occur- 划分成多个区域,对每个区域提取多种不同的底层 rence Matrics)。 视觉特征,组合后得到鲁棒性更好的特征表示形 2)中层语义属性:可以通过语义信息来判断两 式。最常用的就是颜色直方图,多数情况下行人的 张图像中是否属于同一行人,比如颜色、衣服以及 衣服颜色结构简单,因此颜色表示是有效的特征, 携带的包等信息。相同的行人在不同视频拍摄下, 通常用RGB、HSV直方图表示。把RGB空间的图 语义属性很少变化。Layne等o1采用15种语义来 像转化成HSL和YCbCr颜色空间,观察对数颜色 描述行人,包括鞋子、头发颜色长短、是否携带物品 空间中目标像素值的分布,颜色特征在不同光照或 等,分类器用SVM定义每幅行人图像的以上语义 角度等行人识别的不适环境中具有一定的不变性。 属性。结合语义属性重要性加权以及与底层特征融 形状特征如方向梯度直方图1(histogram of ori- 合,最终描述行人图像。Shi等B对图像超像素划 ented gradients,.HOG)以及局部特征,如局部不变特 分,最近分割算法对图像块定义多种特征属性,颜 征-尺度不变特征变换(scale-invariant feature trans-. 色、位置和SFT特征,效果有提高。 form,SIFT),SURF2和Covariance描述子ELF 3)高级视觉特征:特征的选择技术对行人再识 (ensemble of localized features)方法中,结合RGB、 别的识别率的性能进行提升,如Fisher向量s编码; YCbCr、HS颜色空间的颜色直方图,具有旋转不变 提取颜色或纹理直方图,预先定义块或条纹形状的 性的Schmid和Gabor滤波器计算纹理直方图。还 图像区域:或者编码区域特征描述符来建立高级视 有纹理特征、Haar--like Represention!2、局部二值模 觉特征B。Gou等B用某种描述符对密集轨迹、纹
r = (r1,r2,··· ,rN) 性能,通常将数据库中的行人分为训练集和测试集 两个部分,在测试时,第 1 个摄像机所拍摄的数据 作为查找集,而第 2 个摄像机中的行人数据为候选 集。目前常用的评价标准主要是 CMC 曲线 (cumulated matching characteristic),当查找的对象在候选 集中进行距离比较之后,将候选集中的行人按照距 离的远近由小到大进行排序,要查找的行人排序越 靠前,则算法的效果越好。假设总共有 N 个行人, 即共进行 N 次查询和排序,每次查询中目标行人的 排序结果用 表示,那么 CMC 曲线可 以表示为 CMC(R) = 1 N ∑N i=1 { 1, ri ⩽ R 0, ri > R (1) 在近几年,Zheng 等 [18]在论文中提出用平均正 确率均值 (mean average precision, mAP) 来进行算 法的评价标准,指出同时使用 mAP (mean average precision) 作为评价标准能更好地比较方法的优劣, 目前已有文献[20]将 CMC 曲线和 mAP 结合作为评 价标准。 2 基于图像的行人重识别研究 行人重识别算法大致可分为基于特征描述的方 法和基于距离度量学习的方法两类。基于特征描述 的方法关注的是找到较好的描述行人外貌特征的 表观模型,基于度量学习的方法关注的是找到有效 的行人特征相似度的度量准则。下面将分别介绍这 两类。 2.1 特征表达方法 基于特征表示的方法重点在于设计鲁棒可靠的 行人图像特征表示模型,即能够区分不同行人,同 时能够不受光照和视角变化的影响,将其主要分为 以下几类进行介绍, 典型特征总结见表 1。 1) 底层视觉特征:这种方法基本上都是将图像 划分成多个区域,对每个区域提取多种不同的底层 视觉特征,组合后得到鲁棒性更好的特征表示形 式。最常用的就是颜色直方图,多数情况下行人的 衣服颜色结构简单,因此颜色表示是有效的特征, 通常用 RGB、HSV 直方图表示。把 RGB 空间的图 像转化成 HSL 和 YCbCr 颜色空间,观察对数颜色 空间中目标像素值的分布,颜色特征在不同光照或 角度等行人识别的不适环境中具有一定的不变性。 形状特征如方向梯度直方图[14] (histogram of oriented gradients,HOG)以及局部特征,如局部不变特 征–尺度不变特征变换(scale-invariant feature transform,SIFT) [15] ,SURF[25]和 Covariance 描述子 ELF (ensemble of localized features)方法中,结合 RGB、 YCbCr、HS 颜色空间的颜色直方图,具有旋转不变 性的 Schmid 和 Gabor 滤波器计算纹理直方图。还 有纹理特征、Haar-like Represention[26] 、局部二值模 式(LBP) [27] 、Gabor 滤波器[28] 、共生矩阵(Co-occurrence Matrics) [29]。 2) 中层语义属性:可以通过语义信息来判断两 张图像中是否属于同一行人,比如颜色、衣服以及 携带的包等信息。相同的行人在不同视频拍摄下, 语义属性很少变化。Layne 等 [30]采用 15 种语义来 描述行人,包括鞋子、头发颜色长短、是否携带物品 等,分类器用 SVM 定义每幅行人图像的以上语义 属性。结合语义属性重要性加权以及与底层特征融 合,最终描述行人图像。Shi 等 [31]对图像超像素划 分,最近分割算法对图像块定义多种特征属性,颜 色、位置和 SIFT 特征,效果有提高。 3) 高级视觉特征:特征的选择技术对行人再识 别的识别率的性能进行提升,如 Fisher 向量[32]编码; 提取颜色或纹理直方图,预先定义块或条纹形状的 图像区域;或者编码区域特征描述符来建立高级视 觉特征[33]。Gou 等 [34]用某种描述符对密集轨迹、纹 表 1 典型特征的总结 Table 1 A summary of typical features 作者 年份 图像特征 时间信息 表征 D. Gray等 [4] 2008 颜色、纹理 无 ELF (RGB, YCbCr, HSV, Gabor filters) A.Krizhevsky等 [38] 2012 CNN颜色、形状 无 CNN Zhao R等 [7] 2013 颜色 无 dColorSIFT (Dense Color, Dense SIFT) B. Ma等 [47] 2014 外观、纹理 生物激励特征 无 gBiCov(BIF, Gabor, Covariance描述符) Xiang Li等 [48] 2015 颜色、形状、纹理 无 Color, LBP, HOG Gou M等 [34] 2016 颜色、局部、纹理、轨迹 有 Color&LBP, HOG3D, DynFV T. Matsukawa等 [49] 2016 局部、形状、颜色、梯度 无 GOG(区域Gaussian分布、LAB, HSV, nRGB) McLaughlin等 [39] 2016 颜色、轨迹、CNN 有 卷积神经网(CNN) 循环神经网络(RNN) ·772· 智 能 系 统 学 报 第 12 卷
第6期 宋婉茹,等:行人重识别研究综述 ·773· 理、直方图进行编码,突出重要信息。受到多视角 神经元学习各个领域共享的表征,而其他的神经元 行为识别研究和Fisher向量编码的影响,一种捕获 对特定的某个区域有效,得到鲁棒的CNN特征表示。 软矩阵的方法,即DynFV(dynamic fisher vector)特 2.2度量学习方法 征和捕获步态和移动轨迹的Fisher向量编码的密集 由于摄像机的视角、尺度、光照、服饰与姿态变 短轨迹时间金字塔特征被提出。Fisher向量编码方 化、分辨率不同以及存在遮挡,不同摄像头间可能 法是首先用来解决大尺度图像分类的方法,也能改 会失去连续的位置和运动信息,使用欧氏距离、巴 善行为识别的性能。Karanam等B对行人的n幅图 氏距离等标准的距离度量来度量行人表观特征的相 像的每个图像分成6个水平条带,在每个条带上计 似度不能获得很好的重识别效果,因此,研究者们 算纹理和颜色直方图。在YCbCr、HSV、白化的RGB 提出通过度量学习的方法。该方法获得一个新的距 颜色空间计算直方图建立颜色描述符,并用local 离度量空间,使得同一行人不同图像的特征距离小 fisher disrciminant analysis(LFDA)降维。Sugiya- 于与不同人的距离。距离度量学习方法一般是基于 ma等B6l学习出的矩阵把特征转换到新的空间,LF- 马氏距离(Mahalanobis distance)而进行。2002年, DA能在嵌入过程中使特征的局部结构适用于图像 Xing等提出以马氏距离为基础的度量学习算法, 遮挡,背景变化和光照变化的情况,最后把计算变 根据样本的类别标签,将具有相同标签的样本组成 换空间中的特征向量的均值作为这个行人最终的特 正样本对,反之组成负样本对,并以此作为约束训 征向量表示。T.Matsukawa等3m提出GOG(Gau- 练得到一个马氏矩阵,通过这样学习到的距离尺度 ssian Of Gaussian),把一幅图像分成水平条带和局 变换,使得相同的人的特征距离减小,而不同的人 部块,每个条带用一个高斯分布建模。每个条带看 特征距离增大,以此开创了行人重识别中距离度量 作一系列这样的高斯分布,然后用一个单一的高斯 学习的先河。 分布总体表示。GOG特征提取的方法好表现在用 目前在行人重识别研究中有一些普遍用于比较 像素级特征的一个局部高斯分布来描述全局颜色和 的度量学习算法,见表2。Weinberger等a提出 纹理分布,并且GOG是局部颜色和纹理结构的分 LMNN算法,通过学习一种距离度量,使在一个新 层模型,可以从一个人的衣服的某些部分得到。 的转换空间中,对于一个输入x,的k个近邻属于相 此外,深度学习也被应用于行人重识别的特征 同的类别,而不同类别的样本与x,保持一定大的距 提取中,在AlexNet-.Finetune中,开始在ImageNet 离。Dikmen等4对LMNN进行改进提出LMNN- 数据集上预训练的基于AlexNet结构的CNN,并用 R方法,用所有样本点的平均近邻边界来代替LMNN 这个数据集对数据进行微调3。在微调过程中,不 中不同样本点所采用的各自近邻边界,相较于LMNN 修改卷积层的权重,训练后两个全连接层。McLaug- 方法具有更强的约束效果。同一年,Guillaumin等 hlin等B采用了类似的方法,对图像提取颜色和光 基于概率论提出了LDML算法。LDML算法基于逻 流特征,采用卷积神经网络(CNN)处理得到高层表 辑回归的思想,使用$型函数来表示样本对是否属 征,然后用循环神经网络(RNN)捕捉时间信息,然 于等值约束的概率。Prosser等2将重识别问题抽 后池化得到序列特征。T.Xiao等l对来自各个领 象为相对排序问题,提出RankSVM学习到一个子 域的数据训练出同一个卷积神经网络(CNN),有些 空间,在这个子空间中相匹配的图像有更高的排序。 表2行人重识别研究中常用的度量学习的方法 Table 2 A summary of metric learning 年份 作者 方法 2009 Weinberger等 大间隔最近邻居((large margin nearest neighbor,.LMNN) 2009 Guillaumin等 逻辑判别距离度量学习logistic discriminant metric learning,LDML) 2010 Prosser等P RankSVM,对每种特征学习一个独立的权重 2011 Zheng等 概率相对距离比较(probabilistic relative distance comparison,PRDC)算法 Kostinger等2可 保持简单有效原则下的距离测度学习算法(Keep It Simple and 2012 Straightforward metric learning,KISSME 2013 Zheng等s 相对距离比较算法(relative distance comparison,RDC) 2013 Pedagadi等m 局部Fisher判别分析(local fisher discriminant analysis.,LFDA) 2015 Liao等7 XODA(cross-view quadratic discriminative analysis)
理、直方图进行编码,突出重要信息。受到多视角 行为识别研究和 Fisher 向量编码的影响,一种捕获 软矩阵的方法,即 DynFV(dynamic fisher vector)特 征和捕获步态和移动轨迹的 Fisher 向量编码的密集 短轨迹时间金字塔特征被提出。Fisher 向量编码方 法是首先用来解决大尺度图像分类的方法,也能改 善行为识别的性能。Karanam 等 [35]对行人的 n 幅图 像的每个图像分成 6 个水平条带,在每个条带上计 算纹理和颜色直方图。在 YCbCr、HSV、白化的 RGB 颜色空间计算直方图建立颜色描述符,并用 local fisher disrciminant analysis(LFDA)降维。Sugiyama 等 [36]学习出的矩阵把特征转换到新的空间,LFDA 能在嵌入过程中使特征的局部结构适用于图像 遮挡,背景变化和光照变化的情况,最后把计算变 换空间中的特征向量的均值作为这个行人最终的特 征向量表示。T. Matsukawa 等 [37]提出 GOG(Gaussian Of Gaussian),把一幅图像分成水平条带和局 部块,每个条带用一个高斯分布建模。每个条带看 作一系列这样的高斯分布,然后用一个单一的高斯 分布总体表示。GOG 特征提取的方法好表现在用 像素级特征的一个局部高斯分布来描述全局颜色和 纹理分布,并且 GOG 是局部颜色和纹理结构的分 层模型,可以从一个人的衣服的某些部分得到。 此外,深度学习也被应用于行人重识别的特征 提取中,在 AlexNet-Finetune 中,开始在 ImageNet 数据集上预训练的基于 AlexNet 结构的 CNN,并用 这个数据集对数据进行微调[38]。在微调过程中,不 修改卷积层的权重,训练后两个全连接层。McLaughlin 等 [39]采用了类似的方法,对图像提取颜色和光 流特征,采用卷积神经网络(CNN)处理得到高层表 征,然后用循环神经网络(RNN)捕捉时间信息,然 后池化得到序列特征。T. Xiao 等 [40]对来自各个领 域的数据训练出同一个卷积神经网络(CNN),有些 神经元学习各个领域共享的表征,而其他的神经元 对特定的某个区域有效,得到鲁棒的 CNN 特征表示。 2.2 度量学习方法 由于摄像机的视角、尺度、光照、服饰与姿态变 化、分辨率不同以及存在遮挡,不同摄像头间可能 会失去连续的位置和运动信息,使用欧氏距离、巴 氏距离等标准的距离度量来度量行人表观特征的相 似度不能获得很好的重识别效果,因此,研究者们 提出通过度量学习的方法。该方法获得一个新的距 离度量空间,使得同一行人不同图像的特征距离小 于与不同人的距离。距离度量学习方法一般是基于 马氏距离(Mahalanobis distance)而进行。 2002 年, Xing 等 [41]提出以马氏距离为基础的度量学习算法, 根据样本的类别标签,将具有相同标签的样本组成 正样本对,反之组成负样本对,并以此作为约束训 练得到一个马氏矩阵,通过这样学习到的距离尺度 变换,使得相同的人的特征距离减小,而不同的人 特征距离增大,以此开创了行人重识别中距离度量 学习的先河。 目前在行人重识别研究中有一些普遍用于比较 的度量学习算法,见表 2。Weinberger 等 [42]提出 LMNN 算法,通过学习一种距离度量,使在一个新 的转换空间中,对于一个输入 xi 的 k 个近邻属于相 同的类别,而不同类别的样本与 xi 保持一定大的距 离。Dikmen 等 [43]对 LMNN 进行改进提出 LMNNR 方法,用所有样本点的平均近邻边界来代替 LMNN 中不同样本点所采用的各自近邻边界,相较于 LMNN 方法具有更强的约束效果。同一年,Guillaumin 等 [44] 基于概率论提出了 LDML 算法。LDML 算法基于逻 辑回归的思想, 使用 S 型函数来表示样本对是否属 于等值约束的概率。Prosser 等 [28]将重识别问题抽 象为相对排序问题,提出 RankSVM 学习到一个子 空间,在这个子空间中相匹配的图像有更高的排序。 表 2 行人重识别研究中常用的度量学习的方法 Table 2 A summary of metric learning 年份 作者 方法 2009 Weinberger等 [42] 大间隔最近邻居(large margin nearest neighbor, LMNN) 2009 Guillaumin等 [44] 逻辑判别距离度量学习(logistic discriminant metric learning, LDML) 2010 Prosser等 [28] RankSVM,对每种特征学习一个独立的权重 2011 Zheng等 [45] 概率相对距离比较(probabilistic relative distance comparison, PRDC)算法 2012 Köstinger等 [27] 保持简单有效原则下的距离测度学习算法( Keep It Simple and Straightforward metric learning,KISSME 2013 Zheng等 [46] 相对距离比较算法(relative distance comparison, RDC) 2013 Pedagadi等 [17] 局部Fisher判别分析(local fisher discriminant analysis, LFDA) 2015 Liao等 [47] XQDA(cross-view quadratic discriminative analysis) 第 6 期 宋婉茹,等:行人重识别研究综述 ·773·
·774· 智能系统学报 第12卷 Zheng等提出PRDC算法,相同人的图像组 入核方法,提出了核局部Fisher判别分析(kernel 成同类样本对,不同行人目标之间组成异类样本 local fisher discriminant analysis,kLFDA)算法,可 对,获得度量函数对应的系数矩阵,优化目标函数 避免求解高维的散列矩阵,既减少了运算量,又提 使得同类样本对之间的匹配距离小于异类样本对之 高了重识别的准确率。深度学习的发展同样带来了 间的距离,对每一个样本,选择一个同类样本和异 度量方法的变革。Y等4基于孪生卷积神经网络 类样本与其形成三元组,在训练过程通过最小化异 提出了一种深度度量学习方法,取得了不错的效 类样本距离减去同类样本距离的和,得到满足约束 果。Liu等基于邻域成分分析和深度置信网络提 的距离度量矩阵。算法的基本思想在于增加正确匹 出一种深度非线性度量学习方法。邻域变换分析的 配之间会拥有较短距离的可能性。2013年,Zheng 作用是通过数据变换使训练数据中每类数据的可识 等6在PRDC的基础上提出了一种相对距离比较 别样本数目最大化。为了扩展邻域变换分析中的数 算法RDC,RDC采用Adaboost算法来减少对标注 据变换,采用深度置信网络来学习非线性特征变 样本的需求。 换。Li等s0提出了一种深度学习框架来学习滤波 Kostinger等2m提出KISSME算法,认为所有相 器组,该滤波器组旨在对不同视角下的photometric 似样本对和不相似样本对的差向量均满足一个高斯 变换进行自动编码。Ding等s在损失函数和学习 分布,因此可以通过相似和不相似训练样本对分别 算法上做了改进,提出了一种基于深度神经网络的 大致计算出均值向量和协方差矩阵。给定两个样本 可扩展距离驱动特征学习框架,取得了不错的效果。 组成的样本对,作者分别计算该样本对属于相似样 2.3数据集 本对的概率和该样本属于不相似样本对的概率,并 目前已存在很多基于图像的行人重识别库,具 用其比值表示两个样本之间的距离,并把该距离变 体见表3。 幻成马氏距离的形式,而马氏距离中的矩阵正好等 表3常见的行人重识别数据集 于相似样本对高斯分布协方差矩阵的逆减去不相似 Table 3 Common dataset in person re-identification based on 样本对高斯分布协方差矩阵的逆。因此,该方法不 image 要用迭代优化过程,适合用于大尺度数据的距离度 数据库 时间 行人 图片 相机 量学习。 VIPeRB30] 2007 632 1264 2 Pedagadi等lm提出LFDA算法进行度量学习, iLIDS!2 2009 119 476 该方法在进行特征提取的时候,首先提取不同特征 GRIDIS31 2009 250 1275 8 的主要成分,然后拼接成特征向量。在距离度量学 习上,该方法考虑不是对所有样本点都给予相同的 CAVIARISI 2011 72 610 2 权重,考虑到了局部样本点,应用局部Fisher判别 CUHKO11551 2012 971 3884 分析方法为降维的特征提供有识别能力的空间,提 CUHK021561 2013 1816 7264 10 高度量学习的识别率。 CUHK03I501 2014 1467 13164 2 Liao等4”提出了XQDA算法,这是KISSME RAiD57列 2014 43 1264 算法在多场景下的推广。XQDA算法对多场景的 PRID450S158) 2014 450 900 数据进行学习,获得原有样本的一个子空间,同时 学习一个与子空间对应的距离度量函数,该距离度 Market-15019 20151501 32668 6 量函数分别用来度量同类样本和非同类样本。 VIPeR数据集是行人重识别中使用最为普遍的 此外,2015年,Zheng等18在之前研究的基础 数据集,也是最具挑战性的数据集之一。VIPeR基 上,提出了非对称的距离度量模型CVDCA,解决了 于图像,包含632个行人,1264幅图片,具有两个 不重叠的摄像机下的环境不同所导致特征变换不同 相机视角,每个相机视角下包含一个行人的一副图片。 的问题。核方法(kernel method)是目前机器学习领 数据集中同一行人的两个相机下的成像视角差距较 域内的研究焦点之一,引入核方法可以更好地解决 大,大部分在90°以上。数据集中所有的图像都归 行人重识别的距离度量中的非线性问题。上文中作 一化到相同的分辨率128×48。 者将核方法引入距离度量学习中,提出KCVDCA CUHK01也是具有较高的挑战性的数据集。 算法I网,使得重识别结果有所提升。同样,LFDA需 该数据集包含3884幅图像,971个行人。每个行人 要对高维散列矩阵进行PCA降维,降低了特征的表 对应从两个相机视角拍摄的4幅图像,每个相机2幅。 达能力,因此Xiong等1在LFDA的基础上同样引 所有图像分辨率均归一化到160×60
Zheng 等 [45]提出 PRDC 算法,相同人的图像组 成同类样本对,不同行人目标之间组成异类样本 对,获得度量函数对应的系数矩阵,优化目标函数 使得同类样本对之间的匹配距离小于异类样本对之 间的距离,对每一个样本,选择一个同类样本和异 类样本与其形成三元组,在训练过程通过最小化异 类样本距离减去同类样本距离的和,得到满足约束 的距离度量矩阵。算法的基本思想在于增加正确匹 配之间会拥有较短距离的可能性。2013 年,Zheng 等 [46]在 PRDC 的基础上提出了一种相对距离比较 算法 RDC,RDC 采用 Adaboost 算法来减少对标注 样本的需求。 Köstinger 等 [27]提出 KISSME 算法,认为所有相 似样本对和不相似样本对的差向量均满足一个高斯 分布,因此可以通过相似和不相似训练样本对分别 大致计算出均值向量和协方差矩阵。给定两个样本 组成的样本对,作者分别计算该样本对属于相似样 本对的概率和该样本属于不相似样本对的概率,并 用其比值表示两个样本之间的距离,并把该距离变 幻成马氏距离的形式,而马氏距离中的矩阵正好等 于相似样本对高斯分布协方差矩阵的逆减去不相似 样本对高斯分布协方差矩阵的逆。因此,该方法不 要用迭代优化过程,适合用于大尺度数据的距离度 量学习。 Pedagadi 等 [17]提出 LFDA 算法进行度量学习, 该方法在进行特征提取的时候,首先提取不同特征 的主要成分,然后拼接成特征向量。在距离度量学 习上,该方法考虑不是对所有样本点都给予相同的 权重,考虑到了局部样本点,应用局部 Fisher 判别 分析方法为降维的特征提供有识别能力的空间,提 高度量学习的识别率。 Liao 等 [47]提出了 XQDA 算法,这是 KISSME 算法在多场景下的推广。XQDA 算法对多场景的 数据进行学习,获得原有样本的一个子空间,同时 学习一个与子空间对应的距离度量函数,该距离度 量函数分别用来度量同类样本和非同类样本。 此外,2015 年,Zheng 等 [18]在之前研究的基础 上,提出了非对称的距离度量模型 CVDCA,解决了 不重叠的摄像机下的环境不同所导致特征变换不同 的问题。核方法 (kernel method) 是目前机器学习领 域内的研究焦点之一,引入核方法可以更好地解决 行人重识别的距离度量中的非线性问题。上文中作 者将核方法引入距离度量学习中,提出 KCVDCA 算法[18] ,使得重识别结果有所提升。同样,LFDA 需 要对高维散列矩阵进行 PCA 降维,降低了特征的表 达能力,因此 Xiong 等 [19]在 LFDA 的基础上同样引 入核方法,提出了核局部 Fisher 判别分析 (kernel local fisher discriminant analysis, kLFDA ) 算法,可 避免求解高维的散列矩阵,既减少了运算量,又提 高了重识别的准确率。深度学习的发展同样带来了 度量方法的变革。Yi 等 [48]基于孪生卷积神经网络 提出了一种深度度量学习方法,取得了不错的效 果。Liu 等 [49]基于邻域成分分析和深度置信网络提 出一种深度非线性度量学习方法。邻域变换分析的 作用是通过数据变换使训练数据中每类数据的可识 别样本数目最大化。为了扩展邻域变换分析中的数 据变换,采用深度置信网络来学习非线性特征变 换。Li 等 [50]提出了一种深度学习框架来学习滤波 器组,该滤波器组旨在对不同视角下的 photometric 变换进行自动编码。Ding 等 [51]在损失函数和学习 算法上做了改进,提出了一种基于深度神经网络的 可扩展距离驱动特征学习框架,取得了不错的效果。 2.3 数据集 目前已存在很多基于图像的行人重识别库,具 体见表 3。 VIPeR 数据集是行人重识别中使用最为普遍的 数据集,也是最具挑战性的数据集之一。VIPeR 基 于图像,包含 632 个行人,1 264 幅图片,具有两个 相机视角,每个相机视角下包含一个行人的一副图片。 数据集中同一行人的两个相机下的成像视角差距较 大,大部分在 90°以上。数据集中所有的图像都归 一化到相同的分辨率 128×48。 CUHK01 也是具有较高的挑战性的数据集。 该数据集包含 3 884 幅图像,971 个行人。每个行人 对应从两个相机视角拍摄的 4 幅图像,每个相机 2 幅。 所有图像分辨率均归一化到 160×60。 表 3 常见的行人重识别数据集 Table 3 Common dataset in person re-identification based on image 数据库 时间 行人 图片 相机 VIPeR[30] 2007 632 1 264 2 iLIDS[52] 2009 119 476 2 GRID[53] 2009 250 1 275 8 CAVIAR[54] 2011 72 610 2 CUHK01[55] 2012 971 3 884 2 CUHK02[56] 2013 1816 7 264 10 CUHK03[50] 2014 1467 13 164 2 RAiD[57] 2014 43 1 264 4 PRID450S[58] 2014 450 900 2 Market-1501[59] 2015 1501 32 668 6 ·774· 智 能 系 统 学 报 第 12 卷