当前位置：和泉文库 > 电气与自动化 > 浏览文档

行人重识别研究综述（南京邮电大学：宋婉茹、赵晴晴、陈昌红、干宗良、刘峰）

文件格式：PDF，文件大小：1.96MB，售价：4.28元

文档详细内容（约11页）

第12卷第6期智能系统学报 Vol.12 No.6 2017年12月 CAAI Transactions on Intelligent Systems Dec.2017 D0:10.11992/tis.201706084 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20171109.1534.032.html 行人重识别研究综述宋婉茹，赵晴晴，陈昌红，干宗良，刘峰 (南京邮电大学通信与信息工程学院，江苏南京210003) 摘要：行人重识别是智能视频分析领域的研究热点，得到了学术界的广泛重视。行人重识别旨在非重叠视角域多摄像头网络下进行的行人匹配，即确认不同位置的摄像头在不同的时刻拍摄到的行人目标是否为同一人。本文根据研究对象的不同.将目前的研究分为基于图像的行人重识别和基于视频的行人重识别两类，对这两类分别从特征描述、度量学习和数据库集3个方面将现有文献分类进行了详细地总结和分析。此外，随着近年来深度学习算法的广泛应用，也带来了行人重识别在特征描述和度量学习方面算法的变革，总结了深度学习在行人重识别中的应用，并对未来发展趋势进行了展望。关键词：行人重识别；特征表达；度量学习；深度学习；卷积神经网络；数据集；视频监控中图分类号：TP181文献标志码：A文章编号：1673-4785(2017)06-0770-11 中文引用格式：宋婉茹，赵晴晴，陈昌红，等.行人重识别研究综述J机.智能系统学报，2017,12(6)：770-780 英文引用格式：SONG Wanru,ZHAO Qingqing,CHEN Changhong,et al.Survey on pedestrian re-identification researchJ.CAAI transactions on intelligent systems,2017,12(6):770-780. Survey on pedestrian re-identification research SONG Wanru,ZHAO Qingqing,CHEN Changhong,GAN Zongliang,LIU Feng (College of Communication and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003, China) Abstract:The intelligent video analysis method based on pedestrian re-identification has become a research focus in the field of computer vision,and it has received extensive attention from the academic community.Pedestrian re-identifica- tion aims to verify pedestrian identity in image sequences captured by cameras that are orientated in different directions at different times.This current study is classified into two categories:image-based and video-based algorithms.For these two categories,using feature description,metric learning,and various benchmark datasets,detailed analysis is per- formed,and a summary is presented.In addition,the wide application of deep-learning algorithms in recent years has changed pedestrian re-identification in terms of feature description and metric learning.The paper summarizes the ap- plication of deep learning in pedestrian re-identification and looks at future development trends. Keywords:pedestrian re-identification;feature representation;metric learning;deep learning;convolutional neural net- works;datasets;video surveillance 在人的感知系统所获得的信息中，视觉信息大tification)是近几年智能视频分析领域兴起的一项约占到80%~85%。图像与视频等相关的应用在国新技术，属于在复杂视频环境下的图像处理和分析民日常生活的地位日益突出。图像处理学科既是科范畴，是许多监控和安防应用中的主要任务)，并学领域中具有挑战性的理论研究方向，也是工程领且在计算机视觉领域获得了越来越多的关注“。域中的重要应用技术。行人重识别(person re-iden- 1行人重识别概述收稿日期：2017-06-27.网络出版日期：2017-11-09. 基金项目：国家自然科学基金项目(61471201). 1.1背景与研究意义通信作者：宋婉茹.E-mail:songwanruu@163.com 行人重识别是指在已有的可能来源与非重叠摄

DOI: 10.11992/tis.201706084 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20171109.1534.032.html 行人重识别研究综述宋婉茹，赵晴晴，陈昌红，干宗良，刘峰（南京邮电大学通信与信息工程学院，江苏南京 210003）摘要：行人重识别是智能视频分析领域的研究热点，得到了学术界的广泛重视。行人重识别旨在非重叠视角域多摄像头网络下进行的行人匹配，即确认不同位置的摄像头在不同的时刻拍摄到的行人目标是否为同一人。本文根据研究对象的不同，将目前的研究分为基于图像的行人重识别和基于视频的行人重识别两类，对这两类分别从特征描述、度量学习和数据库集 3 个方面将现有文献分类进行了详细地总结和分析。此外，随着近年来深度学习算法的广泛应用，也带来了行人重识别在特征描述和度量学习方面算法的变革，总结了深度学习在行人重识别中的应用，并对未来发展趋势进行了展望。关键词：行人重识别；特征表达；度量学习；深度学习；卷积神经网络；数据集；视频监控中图分类号：TP181 文献标志码：A 文章编号：1673−4785(2017)06−0770−11 中文引用格式：宋婉茹, 赵晴晴, 陈昌红, 等. 行人重识别研究综述[J]. 智能系统学报, 2017, 12(6): 770–780. 英文引用格式：SONG Wanru, ZHAO Qingqing, CHEN Changhong, et al. Survey on pedestrian re-identification research[J]. CAAI transactions on intelligent systems, 2017, 12(6): 770–780. Survey on pedestrian re-identification research SONG Wanru，ZHAO Qingqing，CHEN Changhong，GAN Zongliang，LIU Feng (College of Communication and Information Engineering, Nanjing University of Posts and Telecommunications, Nanjing 210003, China) Abstract: The intelligent video analysis method based on pedestrian re-identification has become a research focus in the field of computer vision, and it has received extensive attention from the academic community. Pedestrian re-identification aims to verify pedestrian identity in image sequences captured by cameras that are orientated in different directions at different times. This current study is classified into two categories: image-based and video-based algorithms. For these two categories, using feature description, metric learning, and various benchmark datasets, detailed analysis is performed, and a summary is presented. In addition, the wide application of deep-learning algorithms in recent years has changed pedestrian re-identification in terms of feature description and metric learning. The paper summarizes the application of deep learning in pedestrian re-identification and looks at future development trends. Keywords: pedestrian re-identification; feature representation; metric learning; deep learning; convolutional neural networks; datasets; video surveillance 在人的感知系统所获得的信息中，视觉信息大约占到 80%～85%。图像与视频等相关的应用在国民日常生活的地位日益突出。图像处理学科既是科学领域中具有挑战性的理论研究方向，也是工程领域中的重要应用技术。行人重识别（person re-identification）是近几年智能视频分析领域兴起的一项新技术，属于在复杂视频环境下的图像处理和分析范畴，是许多监控和安防应用中的主要任务[1-3] ，并且在计算机视觉领域获得了越来越多的关注[4-8]。 1 行人重识别概述 1.1 背景与研究意义行人重识别是指在已有的可能来源与非重叠摄收稿日期：2017−06−27. 网络出版日期：2017−11−09. 基金项目：国家自然科学基金项目 (61471201). 通信作者：宋婉茹. E-mail：songwanruu@163.com. 第 12 卷第 6 期智能系统学报 Vol.12 No.6 2017 年 12 月 CAAI Transactions on Intelligent Systems Dec. 2017

第6期宋婉茹，等：行人重识别研究综述 ·771· 像机视域的视频序列中识别出目标行人。以图1为 1.2研究现状例，因为这些镜头是无重叠的，所以视域完全不同，相对于行人检测来说，行人重识别的研究还不假设我们要对在摄像头2中拍摄到的目标个体1在算成熟，但早在1996年，就有学者关注行人重识别其他镜头中进行重识别，需要在其他的摄像头中定问题，在2006年，行人重识别的概念第一次在位到这个目标，除了目标本身在不同镜头下外观上 CVPR上提出后o,相关的研究不断涌现。2007年的不同，还会受到其他个体的影响，比如在摄像头 Gray提出一个对于行人重识别的研究具有重大意 2中目标个体1需要与摄像头1中的4个目标个体义的数据库VIPeR四。此后越来越多的学者开始关都进行比较。因此研究该问题对公共安全和刑侦有注行人重识别的研究。近些年，每年在国际顶级的着非常重要的现实意义。会议以及顶级期刊上关于行人重识别的工作不在少数，如图3.2012年，第一个行人重识别研讨会在聂像头2 ECCV会议上召开；2013年，Gong等出版第一本摄像头行人重识别的专著；2014年后，深度学习被应用到像头行人重识别领域；2016年，行人重识别迎来井喷式 ● 摄像头4 的增长，在各大计算机视觉的会议中出现了几十篇相关论文，尤其是基于深度神经网络的方法引起了广泛的关注；同时，相关数据集在不断地扩充，图1多镜头监控中的行人重识别在各个数据集上的结果也获得很大的提升，到目 Fig.1 Person Re-identification under different cameras 前，行人重识别问题已成为计算机视觉的一个热点行人重识别的研究面临着诸如图像分辨率低问题。视角变化、姿态变化、光线变化以及遮挡等带来的 30 ◆-CVPR■-ICCV/ECCV 诸多挑战。比如，1)监控视频的画面一般比较模糊，分辨率也比较低，如图2(a)所示，所以利用人脸识别等方式无法进行重识别的工作，只能利用头部 0路路鲁-经之外的人体外观信息进行识别，而不同行人的体型 2008 20 和衣着服饰有可能相同，这为行人重识别的准确度年份带来了极大的挑战：2)行人重识别的图像往往采自图3顶级会议收录行人的论文篇数于不同的摄像机，由于拍摄场景、摄像参数不同，行 Fig.3 Percentage of person re-ID papers on top confer- 人重识别工作一般存在光照变化及视角变化等问 ences over the years 题，如图2b)、(c)所示，这导致同一个行人在不同摄传统的行人重识别从特征提取和距离度量学习像机下存在较大的差异，不同行人的外貌特征可能两个方面进行研究。2014年后，越来越多的研究比同一个人的外貌特征更相似；3)进行重识别的行者尝试将行人重识别的研究与深度学习结合在一人图像可能拍摄于不同的时间，行人姿态、衣着会起，深度学习不仅应用于提取高层特征，也为度有不同程度的改变。此外在不同的光照条件下，行量学习的研究带来了革新。即使深度学习在规模较人的外观特征也会有很大的差异，如图2（©）。此外小的数据集上的结果没有很明显的提升，但随着研实际视频监控下的场景非常复杂，很多监控场景人流量大，场景复杂，画面很容易出现遮挡等情况，如究方法的成熟以及较大规模的数据集的出现，深度图2(d),这种时候靠步态等特征就很难进行重识学习在行人重识别领域越来越受研究者们青睐。行别。以上情况都给行人重识别的研究带来了巨大的人重识别最开始是在基于图片的情况下，11，即挑战，因此目前的研究距离实际应用层面还有很大在每个数据集中每个摄像机视角下只有一幅或者几的距离。幅行人图像。但是视频相较于图像而言拥有更多信息，并且基于视频的研究更符合视频监控环境下的现实情况，因此我们很自然地考虑处理基于视频的行人重识别问题。从2010年后，很多学者开始对基于视频的行人重识别进行研究2。我们将按照基 (a)低分辨图像(b)视角变化(c)光线变化 (d遮挡于图像和基于视频的行人重识别研究进行介绍。图2行人重识别的困难与挑战 13评价标准 Fig.2 Difficulty and challenge to person reidentification 在研究中为了评价所提出的行人重识别方法的

像机视域的视频序列中识别出目标行人。以图 1 为例，因为这些镜头是无重叠的，所以视域完全不同，假设我们要对在摄像头 2 中拍摄到的目标个体 1 在其他镜头中进行重识别，需要在其他的摄像头中定位到这个目标，除了目标本身在不同镜头下外观上的不同，还会受到其他个体的影响，比如在摄像头 2 中目标个体 1 需要与摄像头 1 中的 4 个目标个体都进行比较。因此研究该问题对公共安全和刑侦有着非常重要的现实意义。行人重识别的研究面临着诸如图像分辨率低、视角变化、姿态变化、光线变化以及遮挡等带来的诸多挑战。比如，1）监控视频的画面一般比较模糊，分辨率也比较低，如图 2(a) 所示，所以利用人脸识别等方式无法进行重识别的工作，只能利用头部之外的人体外观信息进行识别，而不同行人的体型和衣着服饰有可能相同，这为行人重识别的准确度带来了极大的挑战；2）行人重识别的图像往往采自于不同的摄像机，由于拍摄场景、摄像参数不同，行人重识别工作一般存在光照变化及视角变化等问题，如图 2(b)、(c) 所示，这导致同一个行人在不同摄像机下存在较大的差异，不同行人的外貌特征可能比同一个人的外貌特征更相似；3）进行重识别的行人图像可能拍摄于不同的时间，行人姿态、衣着会有不同程度的改变。此外在不同的光照条件下，行人的外观特征也会有很大的差异，如图 2(c)。此外实际视频监控下的场景非常复杂，很多监控场景人流量大，场景复杂，画面很容易出现遮挡等情况，如图 2(d), 这种时候靠步态等特征就很难进行重识别。以上情况都给行人重识别的研究带来了巨大的挑战，因此目前的研究距离实际应用层面还有很大的距离。 1.2 研究现状相对于行人检测来说，行人重识别的研究还不算成熟，但早在 1996 年，就有学者关注行人重识别问题[ 9 ] ，在 2006 年，行人重识别的概念第一次在 CVPR 上提出后[10] ，相关的研究不断涌现。2007 年 Gray 提出一个对于行人重识别的研究具有重大意义的数据库 VIPeR[11]。此后越来越多的学者开始关注行人重识别的研究。近些年，每年在国际顶级的会议以及顶级期刊上关于行人重识别的工作不在少数，如图 3。2012 年，第一个行人重识别研讨会在 ECCV 会议上召开；2013 年，Gong 等 [12]出版第一本行人重识别的专著；2014 年后，深度学习被应用到行人重识别领域；2016 年，行人重识别迎来井喷式的增长，在各大计算机视觉的会议中出现了几十篇相关论文，尤其是基于深度神经网络的方法引起了广泛的关注；同时，相关数据集在不断地扩充，在各个数据集上的结果也获得很大的提升，到目前，行人重识别问题已成为计算机视觉的一个热点问题。传统的行人重识别从特征提取和距离度量学习两个方面进行研究。2014 年后，越来越多的研究者尝试将行人重识别的研究与深度学习结合在一起 [13-15] ，深度学习不仅应用于提取高层特征，也为度量学习的研究带来了革新。即使深度学习在规模较小的数据集上的结果没有很明显的提升，但随着研究方法的成熟以及较大规模的数据集的出现，深度学习在行人重识别领域越来越受研究者们青睐。行人重识别最开始是在基于图片的情况下[13, 16-19] ，即在每个数据集中每个摄像机视角下只有一幅或者几幅行人图像。但是视频相较于图像而言拥有更多信息，并且基于视频的研究更符合视频监控环境下的现实情况，因此我们很自然地考虑处理基于视频的行人重识别问题。从 2010 年后，很多学者开始对基于视频的行人重识别进行研究[20-24]。我们将按照基于图像和基于视频的行人重识别研究进行介绍。 1.3 评价标准在研究中为了评价所提出的行人重识别方法的 1 1 ᥰ׻ ๠2 ᥰ׻ ๠3 ᥰ׻ ๠1 ᥰ׻ ๠4 2 6 5 4 7 6 5 4 3 ๠׻ᥰ ๠׻ᥰ 图 1 多镜头监控中的行人重识别 Fig. 1 Person Re-identification under different cameras (a) Ѻܲ䓔ప׻) b) 㻲㻾ऄࡂ) c) اٴ㏫ऄࡂ) d) 䖚ᡍ 图 2 行人重识别的困难与挑战 Fig. 2 Difficulty and challenge to person reidentification 0 10 20 30 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 ン᪜ ᎠЩ CVPR ICCV/ECCV 图 3 顶级会议收录行人的论文篇数 Fig. 3 Percentage of person re-ID papers on top conferences over the years 第 6 期宋婉茹，等：行人重识别研究综述 ·771·

·772· 智能系统学报第12卷性能，通常将数据库中的行人分为训练集和测试集 precision)作为评价标准能更好地比较方法的优劣，两个部分，在测试时，第1个摄像机所拍摄的数据目前已有文献2将CMC曲线和mAP结合作为评作为查找集，而第2个摄像机中的行人数据为候选价标准。集。目前常用的评价标准主要是CMC曲线(cumu- lated matching characteristic),当查找的对象在候选 2基于图像的行人重识别研究集中进行距离比较之后，将候选集中的行人按照距行人重识别算法大致可分为基于特征描述的方离的远近由小到大进行排序，要查找的行人排序越法和基于距离度量学习的方法两类。基于特征描述靠前，则算法的效果越好。假设总共有N个行人，的方法关注的是找到较好的描述行人外貌特征的即共进行N次查询和排序，每次查询中目标行人的表观模型，基于度量学习的方法关注的是找到有效排序结果用r=(,2,,rw)表示，那么CMC曲线可的行人特征相似度的度量准则。下面将分别介绍这以表示为两类。 CMC(R) ≤R 2.1特征表达方法 (1） n>R 基于特征表示的方法重点在于设计鲁棒可靠的在近几年，Zheng等在论文中提出用平均正行人图像特征表示模型，即能够区分不同行人，同确率均值(mean average precision,.mAP)来进行算时能够不受光照和视角变化的影响，将其主要分为法的评价标准，指出同时使用mAP(mean average 以下几类进行介绍，典型特征总结见表1。表1典型特征的总结 Table 1 A summary of typical features 作者年份图像特征时间信息表征 D.Gray等 2008 颜色、纹理无 ELF (RGB,YCbCr,HSV.Gabor filters) A.Krizhevsky等B 2012 CNN颜色、形状无 CNN Zhao R等7 2013 颜色无 dColorSIFT (Dense Color.Dense SIFT) B.Ma等7 2014 外观、纹理生物激励特征无 gBiCov(BlF,Gabor,.Covariance?描述符) Xiang Li等4s 2015 颜色、形状、纹理无 Color,LBP,HOG GouM等B4 2016 颜色、局部、纹理、轨迹有 Color&LBP,HOG3D,DynFV T.Matsukawa等9 2016 局部、形状、颜色、梯度无 GOG(区域Gaussian分布、LAB,HSV,nRGB McLaughlin等9 2016 颜色、轨迹、CNN 有卷积神经网(CNN)循环神经网络(RNN) 1)底层视觉特征：这种方法基本上都是将图像式(LBP)2刃、Gabor滤波器2M、共生矩阵(Co-occur- 划分成多个区域，对每个区域提取多种不同的底层 rence Matrics)。视觉特征，组合后得到鲁棒性更好的特征表示形 2)中层语义属性：可以通过语义信息来判断两式。最常用的就是颜色直方图，多数情况下行人的张图像中是否属于同一行人，比如颜色、衣服以及衣服颜色结构简单，因此颜色表示是有效的特征，携带的包等信息。相同的行人在不同视频拍摄下，通常用RGB、HSV直方图表示。把RGB空间的图语义属性很少变化。Layne等o1采用15种语义来像转化成HSL和YCbCr颜色空间，观察对数颜色描述行人，包括鞋子、头发颜色长短、是否携带物品空间中目标像素值的分布，颜色特征在不同光照或等，分类器用SVM定义每幅行人图像的以上语义角度等行人识别的不适环境中具有一定的不变性。属性。结合语义属性重要性加权以及与底层特征融形状特征如方向梯度直方图1(histogram of ori- 合，最终描述行人图像。Shi等B对图像超像素划 ented gradients,.HOG)以及局部特征，如局部不变特分，最近分割算法对图像块定义多种特征属性，颜征-尺度不变特征变换(scale-invariant feature trans-. 色、位置和SFT特征，效果有提高。 form,SIFT),SURF2和Covariance描述子ELF 3)高级视觉特征：特征的选择技术对行人再识 (ensemble of localized features)方法中，结合RGB、别的识别率的性能进行提升，如Fisher向量s编码； YCbCr、HS颜色空间的颜色直方图，具有旋转不变提取颜色或纹理直方图，预先定义块或条纹形状的性的Schmid和Gabor滤波器计算纹理直方图。还图像区域：或者编码区域特征描述符来建立高级视有纹理特征、Haar--like Represention!2、局部二值模觉特征B。Gou等B用某种描述符对密集轨迹、纹

r = (r1,r2,··· ,rN) 性能，通常将数据库中的行人分为训练集和测试集两个部分，在测试时，第 1 个摄像机所拍摄的数据作为查找集，而第 2 个摄像机中的行人数据为候选集。目前常用的评价标准主要是 CMC 曲线 (cumulated matching characteristic)，当查找的对象在候选集中进行距离比较之后，将候选集中的行人按照距离的远近由小到大进行排序，要查找的行人排序越靠前，则算法的效果越好。假设总共有 N 个行人，即共进行 N 次查询和排序，每次查询中目标行人的排序结果用表示，那么 CMC 曲线可以表示为 CMC(R) = 1 N ∑N i=1 { 1, ri ⩽ R 0, ri > R (1) 在近几年，Zheng 等 [18]在论文中提出用平均正确率均值 (mean average precision, mAP) 来进行算法的评价标准，指出同时使用 mAP (mean average precision) 作为评价标准能更好地比较方法的优劣，目前已有文献[20]将 CMC 曲线和 mAP 结合作为评价标准。 2 基于图像的行人重识别研究行人重识别算法大致可分为基于特征描述的方法和基于距离度量学习的方法两类。基于特征描述的方法关注的是找到较好的描述行人外貌特征的表观模型，基于度量学习的方法关注的是找到有效的行人特征相似度的度量准则。下面将分别介绍这两类。 2.1 特征表达方法基于特征表示的方法重点在于设计鲁棒可靠的行人图像特征表示模型，即能够区分不同行人，同时能够不受光照和视角变化的影响，将其主要分为以下几类进行介绍, 典型特征总结见表 1。 1) 底层视觉特征：这种方法基本上都是将图像划分成多个区域，对每个区域提取多种不同的底层视觉特征，组合后得到鲁棒性更好的特征表示形式。最常用的就是颜色直方图，多数情况下行人的衣服颜色结构简单，因此颜色表示是有效的特征，通常用 RGB、HSV 直方图表示。把 RGB 空间的图像转化成 HSL 和 YCbCr 颜色空间，观察对数颜色空间中目标像素值的分布，颜色特征在不同光照或角度等行人识别的不适环境中具有一定的不变性。形状特征如方向梯度直方图[14] （histogram of oriented gradients，HOG）以及局部特征，如局部不变特征–尺度不变特征变换（scale-invariant feature transform，SIFT） [15] ，SURF[25]和 Covariance 描述子 ELF （ensemble of localized features）方法中，结合 RGB、 YCbCr、HS 颜色空间的颜色直方图，具有旋转不变性的 Schmid 和 Gabor 滤波器计算纹理直方图。还有纹理特征、Haar-like Represention[26] 、局部二值模式（LBP） [27] 、Gabor 滤波器[28] 、共生矩阵（Co-occurrence Matrics） [29]。 2) 中层语义属性：可以通过语义信息来判断两张图像中是否属于同一行人，比如颜色、衣服以及携带的包等信息。相同的行人在不同视频拍摄下，语义属性很少变化。Layne 等 [30]采用 15 种语义来描述行人，包括鞋子、头发颜色长短、是否携带物品等，分类器用 SVM 定义每幅行人图像的以上语义属性。结合语义属性重要性加权以及与底层特征融合，最终描述行人图像。Shi 等 [31]对图像超像素划分，最近分割算法对图像块定义多种特征属性，颜色、位置和 SIFT 特征，效果有提高。 3) 高级视觉特征：特征的选择技术对行人再识别的识别率的性能进行提升，如 Fisher 向量[32]编码；提取颜色或纹理直方图，预先定义块或条纹形状的图像区域；或者编码区域特征描述符来建立高级视觉特征[33]。Gou 等 [34]用某种描述符对密集轨迹、纹表 1 典型特征的总结 Table 1 A summary of typical features 作者年份图像特征时间信息表征 D. Gray等 [4] 2008 颜色、纹理无 ELF (RGB, YCbCr, HSV, Gabor filters) A.Krizhevsky等 [38] 2012 CNN颜色、形状无 CNN Zhao R等 [7] 2013 颜色无 dColorSIFT (Dense Color, Dense SIFT) B. Ma等 [47] 2014 外观、纹理生物激励特征无 gBiCov(BIF, Gabor, Covariance描述符) Xiang Li等 [48] 2015 颜色、形状、纹理无 Color, LBP, HOG Gou M等 [34] 2016 颜色、局部、纹理、轨迹有 Color&LBP, HOG3D, DynFV T. Matsukawa等 [49] 2016 局部、形状、颜色、梯度无 GOG（区域Gaussian分布、LAB, HSV, nRGB） McLaughlin等 [39] 2016 颜色、轨迹、CNN 有卷积神经网（CNN）循环神经网络（RNN） ·772· 智能系统学报第 12 卷

第6期宋婉茹，等：行人重识别研究综述 ·773· 理、直方图进行编码，突出重要信息。受到多视角神经元学习各个领域共享的表征，而其他的神经元行为识别研究和Fisher向量编码的影响，一种捕获对特定的某个区域有效，得到鲁棒的CNN特征表示。软矩阵的方法，即DynFV(dynamic fisher vector)特 2.2度量学习方法征和捕获步态和移动轨迹的Fisher向量编码的密集由于摄像机的视角、尺度、光照、服饰与姿态变短轨迹时间金字塔特征被提出。Fisher向量编码方化、分辨率不同以及存在遮挡，不同摄像头间可能法是首先用来解决大尺度图像分类的方法，也能改会失去连续的位置和运动信息，使用欧氏距离、巴善行为识别的性能。Karanam等B对行人的n幅图氏距离等标准的距离度量来度量行人表观特征的相像的每个图像分成6个水平条带，在每个条带上计似度不能获得很好的重识别效果，因此，研究者们算纹理和颜色直方图。在YCbCr、HSV、白化的RGB 提出通过度量学习的方法。该方法获得一个新的距颜色空间计算直方图建立颜色描述符，并用local 离度量空间，使得同一行人不同图像的特征距离小 fisher disrciminant analysis(LFDA)降维。Sugiya- 于与不同人的距离。距离度量学习方法一般是基于 ma等B6l学习出的矩阵把特征转换到新的空间，LF- 马氏距离(Mahalanobis distance)而进行。2002年， DA能在嵌入过程中使特征的局部结构适用于图像 Xing等提出以马氏距离为基础的度量学习算法，遮挡，背景变化和光照变化的情况，最后把计算变根据样本的类别标签，将具有相同标签的样本组成换空间中的特征向量的均值作为这个行人最终的特正样本对，反之组成负样本对，并以此作为约束训征向量表示。T.Matsukawa等3m提出GOG(Gau- 练得到一个马氏矩阵，通过这样学习到的距离尺度 ssian Of Gaussian),把一幅图像分成水平条带和局变换，使得相同的人的特征距离减小，而不同的人部块，每个条带用一个高斯分布建模。每个条带看特征距离增大，以此开创了行人重识别中距离度量作一系列这样的高斯分布，然后用一个单一的高斯学习的先河。分布总体表示。GOG特征提取的方法好表现在用目前在行人重识别研究中有一些普遍用于比较像素级特征的一个局部高斯分布来描述全局颜色和的度量学习算法，见表2。Weinberger等a提出纹理分布，并且GOG是局部颜色和纹理结构的分 LMNN算法，通过学习一种距离度量，使在一个新层模型，可以从一个人的衣服的某些部分得到。的转换空间中，对于一个输入x,的k个近邻属于相此外，深度学习也被应用于行人重识别的特征同的类别，而不同类别的样本与x,保持一定大的距提取中，在AlexNet-.Finetune中，开始在ImageNet 离。Dikmen等4对LMNN进行改进提出LMNN- 数据集上预训练的基于AlexNet结构的CNN,并用 R方法，用所有样本点的平均近邻边界来代替LMNN 这个数据集对数据进行微调3。在微调过程中，不中不同样本点所采用的各自近邻边界，相较于LMNN 修改卷积层的权重，训练后两个全连接层。McLaug- 方法具有更强的约束效果。同一年，Guillaumin等 hlin等B采用了类似的方法，对图像提取颜色和光基于概率论提出了LDML算法。LDML算法基于逻流特征，采用卷积神经网络(CNN)处理得到高层表辑回归的思想，使用$型函数来表示样本对是否属征，然后用循环神经网络(RNN)捕捉时间信息，然于等值约束的概率。Prosser等2将重识别问题抽后池化得到序列特征。T.Xiao等l对来自各个领象为相对排序问题，提出RankSVM学习到一个子域的数据训练出同一个卷积神经网络(CNN),有些空间，在这个子空间中相匹配的图像有更高的排序。表2行人重识别研究中常用的度量学习的方法 Table 2 A summary of metric learning 年份作者方法 2009 Weinberger等大间隔最近邻居((large margin nearest neighbor,.LMNN) 2009 Guillaumin等逻辑判别距离度量学习logistic discriminant metric learning,LDML) 2010 Prosser等P RankSVM,对每种特征学习一个独立的权重 2011 Zheng等概率相对距离比较(probabilistic relative distance comparison,PRDC)算法 Kostinger等2可保持简单有效原则下的距离测度学习算法(Keep It Simple and 2012 Straightforward metric learning,KISSME 2013 Zheng等s 相对距离比较算法(relative distance comparison,RDC) 2013 Pedagadi等m 局部Fisher判别分析(local fisher discriminant analysis.,LFDA) 2015 Liao等7 XODA(cross-view quadratic discriminative analysis)

理、直方图进行编码，突出重要信息。受到多视角行为识别研究和 Fisher 向量编码的影响，一种捕获软矩阵的方法，即 DynFV（dynamic fisher vector）特征和捕获步态和移动轨迹的 Fisher 向量编码的密集短轨迹时间金字塔特征被提出。Fisher 向量编码方法是首先用来解决大尺度图像分类的方法，也能改善行为识别的性能。Karanam 等 [35]对行人的 n 幅图像的每个图像分成 6 个水平条带，在每个条带上计算纹理和颜色直方图。在 YCbCr、HSV、白化的 RGB 颜色空间计算直方图建立颜色描述符，并用 local fisher disrciminant analysis（LFDA）降维。Sugiyama 等 [36]学习出的矩阵把特征转换到新的空间，LFDA 能在嵌入过程中使特征的局部结构适用于图像遮挡，背景变化和光照变化的情况，最后把计算变换空间中的特征向量的均值作为这个行人最终的特征向量表示。T. Matsukawa 等 [37]提出 GOG（Gaussian Of Gaussian），把一幅图像分成水平条带和局部块，每个条带用一个高斯分布建模。每个条带看作一系列这样的高斯分布，然后用一个单一的高斯分布总体表示。GOG 特征提取的方法好表现在用像素级特征的一个局部高斯分布来描述全局颜色和纹理分布，并且 GOG 是局部颜色和纹理结构的分层模型，可以从一个人的衣服的某些部分得到。此外，深度学习也被应用于行人重识别的特征提取中，在 AlexNet-Finetune 中，开始在 ImageNet 数据集上预训练的基于 AlexNet 结构的 CNN，并用这个数据集对数据进行微调[38]。在微调过程中，不修改卷积层的权重，训练后两个全连接层。McLaughlin 等 [39]采用了类似的方法，对图像提取颜色和光流特征，采用卷积神经网络（CNN）处理得到高层表征，然后用循环神经网络（RNN）捕捉时间信息，然后池化得到序列特征。T. Xiao 等 [40]对来自各个领域的数据训练出同一个卷积神经网络（CNN），有些神经元学习各个领域共享的表征，而其他的神经元对特定的某个区域有效，得到鲁棒的 CNN 特征表示。 2.2 度量学习方法由于摄像机的视角、尺度、光照、服饰与姿态变化、分辨率不同以及存在遮挡，不同摄像头间可能会失去连续的位置和运动信息，使用欧氏距离、巴氏距离等标准的距离度量来度量行人表观特征的相似度不能获得很好的重识别效果，因此，研究者们提出通过度量学习的方法。该方法获得一个新的距离度量空间，使得同一行人不同图像的特征距离小于与不同人的距离。距离度量学习方法一般是基于马氏距离（Mahalanobis distance）而进行。 2002 年， Xing 等 [41]提出以马氏距离为基础的度量学习算法，根据样本的类别标签，将具有相同标签的样本组成正样本对，反之组成负样本对，并以此作为约束训练得到一个马氏矩阵，通过这样学习到的距离尺度变换，使得相同的人的特征距离减小，而不同的人特征距离增大，以此开创了行人重识别中距离度量学习的先河。目前在行人重识别研究中有一些普遍用于比较的度量学习算法，见表 2。Weinberger 等 [42]提出 LMNN 算法，通过学习一种距离度量，使在一个新的转换空间中，对于一个输入 xi 的 k 个近邻属于相同的类别，而不同类别的样本与 xi 保持一定大的距离。Dikmen 等 [43]对 LMNN 进行改进提出 LMNNR 方法，用所有样本点的平均近邻边界来代替 LMNN 中不同样本点所采用的各自近邻边界，相较于 LMNN 方法具有更强的约束效果。同一年，Guillaumin 等 [44] 基于概率论提出了 LDML 算法。LDML 算法基于逻辑回归的思想, 使用 S 型函数来表示样本对是否属于等值约束的概率。Prosser 等 [28]将重识别问题抽象为相对排序问题，提出 RankSVM 学习到一个子空间，在这个子空间中相匹配的图像有更高的排序。表 2 行人重识别研究中常用的度量学习的方法 Table 2 A summary of metric learning 年份作者方法 2009 Weinberger等 [42] 大间隔最近邻居(large margin nearest neighbor, LMNN) 2009 Guillaumin等 [44] 逻辑判别距离度量学习(logistic discriminant metric learning, LDML) 2010 Prosser等 [28] RankSVM，对每种特征学习一个独立的权重 2011 Zheng等 [45] 概率相对距离比较(probabilistic relative distance comparison, PRDC)算法 2012 Köstinger等 [27] 保持简单有效原则下的距离测度学习算法( Keep It Simple and Straightforward metric learning，KISSME 2013 Zheng等 [46] 相对距离比较算法（relative distance comparison, RDC） 2013 Pedagadi等 [17] 局部Fisher判别分析(local fisher discriminant analysis, LFDA) 2015 Liao等 [47] XQDA(cross-view quadratic discriminative analysis) 第 6 期宋婉茹，等：行人重识别研究综述 ·773·

·774· 智能系统学报第12卷 Zheng等提出PRDC算法，相同人的图像组入核方法，提出了核局部Fisher判别分析(kernel 成同类样本对，不同行人目标之间组成异类样本 local fisher discriminant analysis,kLFDA)算法，可对，获得度量函数对应的系数矩阵，优化目标函数避免求解高维的散列矩阵，既减少了运算量，又提使得同类样本对之间的匹配距离小于异类样本对之高了重识别的准确率。深度学习的发展同样带来了间的距离，对每一个样本，选择一个同类样本和异度量方法的变革。Y等4基于孪生卷积神经网络类样本与其形成三元组，在训练过程通过最小化异提出了一种深度度量学习方法，取得了不错的效类样本距离减去同类样本距离的和，得到满足约束果。Liu等基于邻域成分分析和深度置信网络提的距离度量矩阵。算法的基本思想在于增加正确匹出一种深度非线性度量学习方法。邻域变换分析的配之间会拥有较短距离的可能性。2013年，Zheng 作用是通过数据变换使训练数据中每类数据的可识等6在PRDC的基础上提出了一种相对距离比较别样本数目最大化。为了扩展邻域变换分析中的数算法RDC,RDC采用Adaboost算法来减少对标注据变换，采用深度置信网络来学习非线性特征变样本的需求。换。Li等s0提出了一种深度学习框架来学习滤波 Kostinger等2m提出KISSME算法，认为所有相器组，该滤波器组旨在对不同视角下的photometric 似样本对和不相似样本对的差向量均满足一个高斯变换进行自动编码。Ding等s在损失函数和学习分布，因此可以通过相似和不相似训练样本对分别算法上做了改进，提出了一种基于深度神经网络的大致计算出均值向量和协方差矩阵。给定两个样本可扩展距离驱动特征学习框架，取得了不错的效果。组成的样本对，作者分别计算该样本对属于相似样 2.3数据集本对的概率和该样本属于不相似样本对的概率，并目前已存在很多基于图像的行人重识别库，具用其比值表示两个样本之间的距离，并把该距离变体见表3。幻成马氏距离的形式，而马氏距离中的矩阵正好等表3常见的行人重识别数据集于相似样本对高斯分布协方差矩阵的逆减去不相似 Table 3 Common dataset in person re-identification based on 样本对高斯分布协方差矩阵的逆。因此，该方法不 image 要用迭代优化过程，适合用于大尺度数据的距离度数据库时间行人图片相机量学习。 VIPeRB30] 2007 632 1264 2 Pedagadi等lm提出LFDA算法进行度量学习， iLIDS!2 2009 119 476 该方法在进行特征提取的时候，首先提取不同特征 GRIDIS31 2009 250 1275 8 的主要成分，然后拼接成特征向量。在距离度量学习上，该方法考虑不是对所有样本点都给予相同的 CAVIARISI 2011 72 610 2 权重，考虑到了局部样本点，应用局部Fisher判别 CUHKO11551 2012 971 3884 分析方法为降维的特征提供有识别能力的空间，提 CUHK021561 2013 1816 7264 10 高度量学习的识别率。 CUHK03I501 2014 1467 13164 2 Liao等4”提出了XQDA算法，这是KISSME RAiD57列 2014 43 1264 算法在多场景下的推广。XQDA算法对多场景的 PRID450S158) 2014 450 900 数据进行学习，获得原有样本的一个子空间，同时学习一个与子空间对应的距离度量函数，该距离度 Market-15019 20151501 32668 6 量函数分别用来度量同类样本和非同类样本。 VIPeR数据集是行人重识别中使用最为普遍的此外，2015年，Zheng等18在之前研究的基础数据集，也是最具挑战性的数据集之一。VIPeR基上，提出了非对称的距离度量模型CVDCA,解决了于图像，包含632个行人，1264幅图片，具有两个不重叠的摄像机下的环境不同所导致特征变换不同相机视角，每个相机视角下包含一个行人的一副图片。的问题。核方法(kernel method)是目前机器学习领数据集中同一行人的两个相机下的成像视角差距较域内的研究焦点之一，引入核方法可以更好地解决大，大部分在90°以上。数据集中所有的图像都归行人重识别的距离度量中的非线性问题。上文中作一化到相同的分辨率128×48。者将核方法引入距离度量学习中，提出KCVDCA CUHK01也是具有较高的挑战性的数据集。算法I网，使得重识别结果有所提升。同样，LFDA需该数据集包含3884幅图像，971个行人。每个行人要对高维散列矩阵进行PCA降维，降低了特征的表对应从两个相机视角拍摄的4幅图像，每个相机2幅。达能力，因此Xiong等1在LFDA的基础上同样引所有图像分辨率均归一化到160×60

Zheng 等 [45]提出 PRDC 算法，相同人的图像组成同类样本对，不同行人目标之间组成异类样本对，获得度量函数对应的系数矩阵，优化目标函数使得同类样本对之间的匹配距离小于异类样本对之间的距离，对每一个样本，选择一个同类样本和异类样本与其形成三元组，在训练过程通过最小化异类样本距离减去同类样本距离的和，得到满足约束的距离度量矩阵。算法的基本思想在于增加正确匹配之间会拥有较短距离的可能性。2013 年，Zheng 等 [46]在 PRDC 的基础上提出了一种相对距离比较算法 RDC，RDC 采用 Adaboost 算法来减少对标注样本的需求。 Köstinger 等 [27]提出 KISSME 算法，认为所有相似样本对和不相似样本对的差向量均满足一个高斯分布，因此可以通过相似和不相似训练样本对分别大致计算出均值向量和协方差矩阵。给定两个样本组成的样本对，作者分别计算该样本对属于相似样本对的概率和该样本属于不相似样本对的概率，并用其比值表示两个样本之间的距离，并把该距离变幻成马氏距离的形式，而马氏距离中的矩阵正好等于相似样本对高斯分布协方差矩阵的逆减去不相似样本对高斯分布协方差矩阵的逆。因此，该方法不要用迭代优化过程，适合用于大尺度数据的距离度量学习。 Pedagadi 等 [17]提出 LFDA 算法进行度量学习，该方法在进行特征提取的时候，首先提取不同特征的主要成分，然后拼接成特征向量。在距离度量学习上，该方法考虑不是对所有样本点都给予相同的权重，考虑到了局部样本点，应用局部 Fisher 判别分析方法为降维的特征提供有识别能力的空间，提高度量学习的识别率。 Liao 等 [47]提出了 XQDA 算法，这是 KISSME 算法在多场景下的推广。XQDA 算法对多场景的数据进行学习，获得原有样本的一个子空间，同时学习一个与子空间对应的距离度量函数，该距离度量函数分别用来度量同类样本和非同类样本。此外，2015 年，Zheng 等 [18]在之前研究的基础上，提出了非对称的距离度量模型 CVDCA，解决了不重叠的摄像机下的环境不同所导致特征变换不同的问题。核方法 (kernel method) 是目前机器学习领域内的研究焦点之一，引入核方法可以更好地解决行人重识别的距离度量中的非线性问题。上文中作者将核方法引入距离度量学习中，提出 KCVDCA 算法[18] ，使得重识别结果有所提升。同样，LFDA 需要对高维散列矩阵进行 PCA 降维，降低了特征的表达能力，因此 Xiong 等 [19]在 LFDA 的基础上同样引入核方法，提出了核局部 Fisher 判别分析 (kernel local fisher discriminant analysis, kLFDA ) 算法，可避免求解高维的散列矩阵，既减少了运算量，又提高了重识别的准确率。深度学习的发展同样带来了度量方法的变革。Yi 等 [48]基于孪生卷积神经网络提出了一种深度度量学习方法，取得了不错的效果。Liu 等 [49]基于邻域成分分析和深度置信网络提出一种深度非线性度量学习方法。邻域变换分析的作用是通过数据变换使训练数据中每类数据的可识别样本数目最大化。为了扩展邻域变换分析中的数据变换，采用深度置信网络来学习非线性特征变换。Li 等 [50]提出了一种深度学习框架来学习滤波器组，该滤波器组旨在对不同视角下的 photometric 变换进行自动编码。Ding 等 [51]在损失函数和学习算法上做了改进，提出了一种基于深度神经网络的可扩展距离驱动特征学习框架，取得了不错的效果。 2.3 数据集目前已存在很多基于图像的行人重识别库，具体见表 3。 VIPeR 数据集是行人重识别中使用最为普遍的数据集，也是最具挑战性的数据集之一。VIPeR 基于图像，包含 632 个行人，1 264 幅图片，具有两个相机视角，每个相机视角下包含一个行人的一副图片。数据集中同一行人的两个相机下的成像视角差距较大，大部分在 90°以上。数据集中所有的图像都归一化到相同的分辨率 128×48。 CUHK01 也是具有较高的挑战性的数据集。该数据集包含 3 884 幅图像，971 个行人。每个行人对应从两个相机视角拍摄的 4 幅图像，每个相机 2 幅。所有图像分辨率均归一化到 160×60。表 3 常见的行人重识别数据集 Table 3 Common dataset in person re-identification based on image 数据库时间行人图片相机 VIPeR[30] 2007 632 1 264 2 iLIDS[52] 2009 119 476 2 GRID[53] 2009 250 1 275 8 CAVIAR[54] 2011 72 610 2 CUHK01[55] 2012 971 3 884 2 CUHK02[56] 2013 1816 7 264 10 CUHK03[50] 2014 1467 13 164 2 RAiD[57] 2014 43 1 264 4 PRID450S[58] 2014 450 900 2 Market-1501[59] 2015 1501 32 668 6 ·774· 智能系统学报第 12 卷

点击进入文档下载页（PDF格式）

共11页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录