第13卷第2期 智能系统学报 Vol.13 No.2 2018年4月 CAAI Transactions on Intelligent Systems Apr.2018 D0:10.11992/tis.201607010 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20170626.1739.010.html 目标再确认中的优化扩散距离相似性度量 曹伟,韩华,王裕明,孙宪坤 (上海工程技术大学电子电气工程学院,上海201620)》 摘要:跨摄像头目标再确认是多摄像头监控领域中一个亟需解决的难点问题,如何获得准确率更高的距离度量算 法成为解决该难点的关键。为此本文在提取优秀的多特征基础上,建立了一种无需训练,适应更多场景的度量算法: 优化扩散距离相似性度量,用于跨摄像头目标再确认。在高维扩散距离的基础上,加入高斯金字塔图像采样和加权 性优化处理,用于提高相似空间向量的辨别力,并提高计算效率。通过对高维扩散距离的二次优化建立起最终的相 似性度量函数。最后对VIPR和ETHZ数据库中的图片进行多次目标再确认实验,排名第一的图片的正确匹配率达 到了50.5%。实验结果表明本文算法取得了较好的匹配结果。 关键词:优化扩散距离;相似性度量;多特征融合:目标再确认 中图分类号:TP391.9文献标志码:A文章编号:1673-4785(2018)02-0269-12 中文引用格式:曹伟,韩华,王裕明,等.目标再确认中的优化扩散距离相似性度量智能系统学报,2018,13(2):269-280 英文引用格式:CAO Wei,.HAN Hua,VANG Yuming,etal.Target re-.identification based on optimized diffusion distanceJ. CAAI transactions on intelligent systems,2018,13(2):269-280. Target re-identification based on optimized diffusion distance CAO Wei,HAN Hua,WANG Yuming,SUN Xiankun (School of Electronic and Electrical Engineering,Shanghai University of Engineering Science,Shanghai 201620,China) Abstract:Target re-identification via cross-camera is a challenging problem in the field of multi-camera surveillance. How to get a more accurate distance measurement algorithm is the key to solve this difficult problem.So,in this paper, we established a new measurement algorithm without training based on extracting more excellent features to do target re-identification,which is optimized diffusion distance.On the basis of high-dimensional diffusion distance,Gaussian pyramid image sampling and weight optimization are added to improve the discrimination of similar space vectors and increase computational efficiency.The final similarity measure function is established by the second optimization of the high-dimensional diffusion distance.At last,we do numerous target re-identification experiments based on databases VIPeR and ETHZ.The matching rate of rank first image can reach 50.5%.The experimental results show that the al- gorithm proposed in this paper has good performance. Keywords:optimized diffusion distance;similarity measure,multi-feature fusion;target re-identification 跨摄像头目标再确认是目前多摄像机智能监控 认,是现在智能监控领域研究的热点。能否在复杂 领域的一个重点研究方向),如何在不同的光照条 的环境中快速地匹配到同一目标的关键点在于能否 件、不同的行人姿态以及不同尺度甚至遮挡等复杂 找到目标在时间、空间上的不变特性以及选择合适 环境下实现不同监控摄像头下的同一目标的再确 的匹配算法。 收稿日期:2016-07-13.网络出版日期:2017-06-26. 基金项目:国家自然科学基金项目(61305014):国家留学基金管理 目前最先进的算法对VIPeR(viewpoint invari- 委员会项目(201508310033):上海市教育委员会和上海 市教育发展基金会“晨光计划”(13CG60):上海高校青年 ant pedestrian recognition)数据库的视频目标进行再 教师培养资助计划(ZZGJD13006):上海工程技术大学 确认的正确率为40%,处于比较低的水平。根据 人才行动计划(2017RC112015,nhrc-2015-11). 通信作者:韩华.E-mail:2070967@mail.dhu.edu.cn 上文所述,目标再确认主要的研究方法分为两类:
DOI: 10.11992/tis.201607010 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20170626.1739.010.html 目标再确认中的优化扩散距离相似性度量 曹伟,韩华,王裕明,孙宪坤 (上海工程技术大学 电子电气工程学院,上海 201620) 摘 要:跨摄像头目标再确认是多摄像头监控领域中一个亟需解决的难点问题,如何获得准确率更高的距离度量算 法成为解决该难点的关键。为此本文在提取优秀的多特征基础上,建立了一种无需训练,适应更多场景的度量算法: 优化扩散距离相似性度量,用于跨摄像头目标再确认。在高维扩散距离的基础上,加入高斯金字塔图像采样和加权 性优化处理,用于提高相似空间向量的辨别力,并提高计算效率。通过对高维扩散距离的二次优化建立起最终的相 似性度量函数。最后对 VIPeR 和 ETHZ 数据库中的图片进行多次目标再确认实验,排名第一的图片的正确匹配率达 到了 50.5%。实验结果表明本文算法取得了较好的匹配结果。 关键词:优化扩散距离;相似性度量;多特征融合;目标再确认 中图分类号:TP391.9 文献标志码:A 文章编号:1673−4785(2018)02−0269−12 中文引用格式:曹伟, 韩华, 王裕明, 等. 目标再确认中的优化扩散距离相似性度量[J]. 智能系统学报, 2018, 13(2): 269–280. 英文引用格式:CAO Wei, HAN Hua, WANG Yuming, et al. Target re-identification based on optimized diffusion distance[J]. CAAI transactions on intelligent systems, 2018, 13(2): 269–280. Target re-identification based on optimized diffusion distance CAO Wei,HAN Hua,WANG Yuming,SUN Xiankun (School of Electronic and Electrical Engineering, Shanghai University of Engineering Science, Shanghai 201620, China) Abstract: Target re-identification via cross-camera is a challenging problem in the field of multi-camera surveillance. How to get a more accurate distance measurement algorithm is the key to solve this difficult problem. So, in this paper, we established a new measurement algorithm without training based on extracting more excellent features to do target re-identification, which is optimized diffusion distance. On the basis of high-dimensional diffusion distance, Gaussian pyramid image sampling and weight optimization are added to improve the discrimination of similar space vectors and increase computational efficiency. The final similarity measure function is established by the second optimization of the high-dimensional diffusion distance. At last, we do numerous target re-identification experiments based on databases VIPeR and ETHZ. The matching rate of rank first image can reach 50.5%. The experimental results show that the algorithm proposed in this paper has good performance. Keywords: optimized diffusion distance; similarity measure; multi-feature fusion; target re-identification 跨摄像头目标再确认是目前多摄像机智能监控 领域的一个重点研究方向[1] ,如何在不同的光照条 件、不同的行人姿态以及不同尺度甚至遮挡等复杂 环境下实现不同监控摄像头下的同一目标的再确 认,是现在智能监控领域研究的热点。能否在复杂 的环境中快速地匹配到同一目标的关键点在于能否 找到目标在时间、空间上的不变特性以及选择合适 的匹配算法。 目前最先进的算法对 VIPeR(viewpoint invariant pedestrian recognition) 数据库的视频目标进行再 确认的正确率为 40%,处于比较低的水平[2]。根据 上文所述,目标再确认主要的研究方法分为两类: 收稿日期:2016−07−13. 网络出版日期:2017−06−26. 基金项目:国家自然科学基金项目 (61305014);国家留学基金管理 委员会项目 (201508310033);上海市教育委员会和上海 市教育发展基金会“晨光计划”(13CG60);上海高校青年 教师培养资助计划 (ZZGJD13006);上海工程技术大学 人才行动计划 (2017RC112015,nhrc-2015-11). 通信作者:韩华. E-mail:2070967@mail.dhu.edu.cn. 第 13 卷第 2 期 智 能 系 统 学 报 Vol.13 No.2 2018 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2018
·270· 智能系统学报 第13卷 日标外观特征类和度量算法类。而目标外观特征类 特征时,直方图是目前应用最广泛的的外观描述 的研究又可以归纳为3类:1)依据目标本身的整体 器。但是,大部分基于直方图的方法,其不足之处 特征进行描述,如文献[3-9]通过建立整体相关特征 是缺少特征分布的空间信息。比如,基于直方图的 颜色直方图进行目标再确认:2)基于目标本身的局 方法不能分辨出一个穿着白色衬衫和黑色裤子的行 部特征进行目标匹配,如文献[10-13]通过训练大量 人与另一个穿着黑色衬衫和白色裤子的行人是否是 样本得出的数据作为匹配函数,依据目标本身的颜 不同的。 色特征、纹理特征进行目标的再确认;3)通过整体 因此,文中提出了一个新颖而简单的方法:基 和局部多特征融合来匹配目标,如文献14-18]通过 于两级区域的直方图提取方法。首先,提出的第一 人体本身的局部LBP(local binary patterns)特征、 级区域为:行人整个身体区域(Hglobat)颜色直方图; SIFT(scale-invariant feature transform)特征以及整体 提出的二级区域为:行人的上半身区域(H)和腿 的颜色特征进行描述,来完成目标再确认。度量算 部区域(He)如图1所示。图中(a)、(d)为一级区域 法类的研究方向相对特征类方法而言,对目标外观 身体直方图,图(b)、()为二级区域身躯直方图,图 特征的要求较低,更多地依赖选择和训练优秀的度 (c)、()为二级区域腿部直方图。 量函数。比如,ERSVM方法采用基于相对距离 排序的SVM分类器集成多个特征向量权重:文献 [20]采用多核SVM学习的方法融合颜色和视觉单 词直方图;文献[21]采用直方图交叉核;文献[22]采 用夹角余弦法等相似度量函数进行目标匹配。 以上两类方法在目标再确认过程中,度量算法 类对特征的选择要求较低,通常能取得更好的再确 二级 级 认效果。但其训练的时间和空间复杂度较高,且场 图1两级区域直方图 景和图库变化时需要重新训练。目标外观特征类方 Fig.1 Two levels of area histogram 法则需要人为地寻找和设计较好的特征,该方法的 图l(a)、(d)一级所提取的Hglobal直方图,(d)直 性能依赖于特征的优劣程度。本文受两类方法优点 方图中的3个峰值在(a)直方图中可以找到相似的 的启发,在特征类方法的思路下设计和构造优秀的 对应,因此单纯靠全局直方图很难发现目标是两个 特征;同时在度量算法类方法的思路下,引入物理 不同的人;通过对图1中的两个原始图像分别提取 学科中的热扩散原理作为度量函数2),并最终建立 身躯段和腿部段的H和He直方图,对应于二级, 基于优化的扩散距离的度量函数完成目标再确认。 如图1左图中的(b)(c)和图1右图中的(e)、()所 基于上文所述,引入度量算法的基础来源于扩 示,对比图1(b)和图1(e),可发现两者身躯直方图 散距离。扩散距离是物理学中用于描述热力场中存 明显不同,同时对比图1(c)和图1(①也能发现两者 在的一种扩散现象的,国外学者Ling等曾提出了 的腿部直方图也是明显不同的,可以通过局部直方 图的差异,发现两目标并不是同一个人。通过上述 一种非线性基于扩散现象和距离判断方式二者结合 方法可以有效地提取颜色的空间信息,并区分出图1 的扩散距离,它是模拟热扩散和记录随机扩散遍历 两个行人的不同。 的时间计算两点之间的距离。这使得扩散距离具有 人体目标本身具有很多稳定不变的特征,这些 可以很好地描述目标间相似性的特性,同时,传统 不变特征在应对因光照变化或细微的肢体动作变化 度量算法存在诸多缺点,比如:对图像形变比较敏 时具有很好的鲁棒性。因此,为了更好利用这些优 感;缺少考虑像素间的空间关系;较小的形变就能 势特征来克服由于光照变化或其他因素所带来的干 使距离计算变化较大,从而产生误匹配等,而扩散 扰,本文在下文中会从整体特征和局部特征两方面 距离的引入克服了以上不足。基于扩散距离的众多 来介绍本文所提取的这些优势多特征,实验表明, 优点,因此本文引入扩散距离,并对其进行优化,构 使用这些多特征中的任何一类进行匹配时,识别率 造出优秀的相似性度量函数,以完成对行人目标的 都不太理想,但结合下文中的多特征进行目标再确 再确认。 认时,可以很大程度上提高目标的识别率。 多特征描述 1.1整体特征 整体特征使用基于一级区域(图1中Level 1) 目标再确认过程中,描述每个目标的外观相当 的RGB颜色直方图进行粗识别。在提取RGB颜 于从目标身上找到可辨识性的特征。在描述目标 色直方图时,本文将R、G、B这3个通道分别进行量化
目标外观特征类和度量算法类。而目标外观特征类 的研究又可以归纳为 3 类:1) 依据目标本身的整体 特征进行描述,如文献[3-9]通过建立整体相关特征 颜色直方图进行目标再确认;2) 基于目标本身的局 部特征进行目标匹配,如文献[10-13]通过训练大量 样本得出的数据作为匹配函数,依据目标本身的颜 色特征、纹理特征进行目标的再确认;3) 通过整体 和局部多特征融合来匹配目标,如文献[14-18]通过 人体本身的局部 LBP(local binary patterns) 特征、 SIFT(scale-invariant feature transform) 特征以及整体 的颜色特征进行描述,来完成目标再确认。度量算 法类的研究方向相对特征类方法而言,对目标外观 特征的要求较低,更多地依赖选择和训练优秀的度 量函数。比如,ERSVM 方法[19]采用基于相对距离 排序的 SVM 分类器集成多个特征向量权重;文献 [20]采用多核 SVM 学习的方法融合颜色和视觉单 词直方图;文献[21]采用直方图交叉核;文献[22]采 用夹角余弦法等相似度量函数进行目标匹配。 以上两类方法在目标再确认过程中,度量算法 类对特征的选择要求较低,通常能取得更好的再确 认效果。但其训练的时间和空间复杂度较高,且场 景和图库变化时需要重新训练。目标外观特征类方 法则需要人为地寻找和设计较好的特征,该方法的 性能依赖于特征的优劣程度。本文受两类方法优点 的启发,在特征类方法的思路下设计和构造优秀的 特征;同时在度量算法类方法的思路下,引入物理 学科中的热扩散原理作为度量函数[23] ,并最终建立 基于优化的扩散距离的度量函数完成目标再确认。 基于上文所述,引入度量算法的基础来源于扩 散距离。扩散距离是物理学中用于描述热力场中存 在的一种扩散现象的,国外学者 Ling 等 [23]曾提出了 一种非线性基于扩散现象和距离判断方式二者结合 的扩散距离,它是模拟热扩散和记录随机扩散遍历 的时间计算两点之间的距离。这使得扩散距离具有 可以很好地描述目标间相似性的特性,同时,传统 度量算法存在诸多缺点,比如:对图像形变比较敏 感;缺少考虑像素间的空间关系;较小的形变就能 使距离计算变化较大,从而产生误匹配等,而扩散 距离的引入克服了以上不足。基于扩散距离的众多 优点,因此本文引入扩散距离,并对其进行优化,构 造出优秀的相似性度量函数,以完成对行人目标的 再确认。 1 多特征描述 目标再确认过程中,描述每个目标的外观相当 于从目标身上找到可辨识性的特征。在描述目标 特征时,直方图是目前应用最广泛的的外观描述 器。但是,大部分基于直方图的方法,其不足之处 是缺少特征分布的空间信息。比如,基于直方图的 方法不能分辨出一个穿着白色衬衫和黑色裤子的行 人与另一个穿着黑色衬衫和白色裤子的行人是否是 不同的。 因此,文中提出了一个新颖而简单的方法:基 于两级区域的直方图提取方法。首先,提出的第一 级区域为:行人整个身体区域 (Hglobal) 颜色直方图; 提出的二级区域为:行人的上半身区域 (Htor) 和腿 部区域 (Hleg) 如图 1 所示。图中 (a)、(d) 为一级区域 身体直方图,图 (b)、(e) 为二级区域身躯直方图,图 (c)、(f) 为二级区域腿部直方图。 (b) (c) (d) (e) (f) ̬㏓ ̬㏓ θ㏓ θ㏓ (a) 图 1 两级区域直方图 Fig. 1 Two levels of area histogram 图 1(a)、(d) 一级所提取的 Hglobal 直方图,(d) 直 方图中的 3 个峰值在 (a) 直方图中可以找到相似的 对应,因此单纯靠全局直方图很难发现目标是两个 不同的人;通过对图 1 中的两个原始图像分别提取 身躯段和腿部段的 Htor 和 Hleg 直方图,对应于二级, 如图 1 左图中的 (b)、(c) 和图 1 右图中的 (e)、(f) 所 示,对比图 1(b) 和图 1(e),可发现两者身躯直方图 明显不同,同时对比图 1(c) 和图 1(f) 也能发现两者 的腿部直方图也是明显不同的,可以通过局部直方 图的差异,发现两目标并不是同一个人。通过上述 方法可以有效地提取颜色的空间信息,并区分出图 1 两个行人的不同。 人体目标本身具有很多稳定不变的特征,这些 不变特征在应对因光照变化或细微的肢体动作变化 时具有很好的鲁棒性。因此,为了更好利用这些优 势特征来克服由于光照变化或其他因素所带来的干 扰,本文在下文中会从整体特征和局部特征两方面 来介绍本文所提取的这些优势多特征,实验表明, 使用这些多特征中的任何一类进行匹配时,识别率 都不太理想,但结合下文中的多特征进行目标再确 认时,可以很大程度上提高目标的识别率。 1.1 整体特征 整体特征使用基于一级区域 (图 1 中 Level 1) 的 RGB 颜色直方图进行粗识别。在提取 RGB 颜 色直方图时,本文将 R、G、B这 3 个通道分别进行量化。 ·270· 智 能 系 统 学 报 第 13 卷
第2期 曹伟,等:目标再确认中的优化扩散距离相似性度量 ·271· 而量化过程中存在两个极端问题:粗量化会造成大 部和背景干扰之后,身躯和腿部的R、G、B分量直 量的可辩别性信息被放弃,细量化会生成稀疏直方 方图。其中,图2(d)中的横轴,0~31代表身躯段和 图。本文在3个通道使用相同的量化级数32bins。 腿部段上的R颜色通道统计直方图(其中0~15代 通过大量实验验证了本文所使用的32bins具有较 表身躯段,16~31代表腿部段):32~63代表身躯段和 好的可辨别性和准确性。通过图1可以很清楚地体 腿部段上的G颜色通道统计直方图:64~95代表身 现出来。 躯段和腿部段上的B颜色通道统计直方图。 1.2局部特征 局部特征相对整体特征而言更加注重局部小范 围特征的不变性,采用更细腻的特征描述子或者具 有较强鲁棒性的特征来进行匹配。观察大部分行人 目标的Ho和He特征发现:最显著的局部差异特 征仍是颜色特征,实验过程中发现使用颜色特征应 对摄像机镜头旋转变化所造成的差异具有很好的辨 别性。所以在下文中的局部特征表述过程中,基于 (a)原图 b)背景掩膜(©)分割示意图 上文中二级区域H和Hee的基础上,为了使人体 800 目标取得更佳的匹配效果使用GrabCut24背景去除 700 法,将干扰背景(头部也当作背景)进行去除,同时 600 500 将RGB颜色通道模型和加权HSV颜色通道模型作 400 为主要的局部特征:而另一方面考虑到局部人体目 300 标的表象和形状能够被梯度或边缘的方向密度分布 200 100 很好地描述,方向梯度直方图(histogram of oriented gradient,HOG)特征可以通过计算和统计图像局部 0 102030405060708090100 颜色区间 区域的梯度方向直方图来构成特征,并且能够对图 (d身躯、腿部R、G、B与通道直方图 像的几何和光学形变都能保持很好的不变性,所 图2局部RGB颜色直方图 以,将结构性HOG描述子作为次要的局部特征。 Fig.2 Local RGB color histogram 1.2.1局部RGB颜色特征 局部RGB颜色直方图充分利用了空间分布信 观察数据库中行人目标发现:去除头部的影响 息,可以有效区分出上文所提到的上身下身穿衣颜 后,由于目标行人上身所穿的衣服和下身所穿的裤 色的不同。在局部特征描述方面的应用中,可以较 子在颜色上往往会表现出明显的差异,所以本文在 好地实现应对图像旋转和平移的改变所带来的影 二级区域Hor和Hee基础上使用局部RGB颜色直 响,并且还可借助归一化技术,来达到不受图像尺 方图匹配。通过观察图2(b):掩膜背景图(图中干扰 度的改变所带来的影响,充分利用了局部颜色特征 背景和头部已经去除)和测试样本库里的图片(国 的优势。 际通用标准库VIPeR中的样本图片大小:48×128) 12.2加权HSV特征 分析得到:头部和身躯段的平均分界线在第20行, 身躯段和腿部段的平均分界线在62行。为了减少 根据人眼视觉特性,颜色信息中HSV特征相比 背景对匹配结果的干扰,如图2(C)所示,将身躯段 较RGB特征,在应对光照变化方面,可以很大程度 去除左右边界各4列,即使用整张图像的第 上忽略图像亮度变化所带来的影响;在二级区域中 20-60行,第644列作为身躯段窗口:同时,在腿部 对HSV模型使用高斯分布的加权处理,可以在提取 段部分去除最下面的8行,以及左右各14列,使用 空间信息基础上更好地对特征权重化处理,所以本 整张图像的第66122行,第14~36列,作为腿部段 文选择HSV颜色模型作为局部特征之一来使用。 窗口。在量化过程中,同整体特征量化数相同,提 考虑到由于人体目标特征分布比例的差异性, 取每个通道对其量化后的直方图统计如图2。 有些显著特征在人体身上的某些部位所占比例很 图2中,分段处理和图1中的两级区域一致, 重,而有些特征则在人体身上的某些部位所占比例 将图像中的人物按照不对称原则分为头部、身躯和 很小。通过观察图3(b)发现:身躯和腿部中间部分 腿部3个水平段,并将图像中的人物的身躯和腿部 的颜色特征比较明显,对图像匹配时的影响会比较 按照对称原则分为两个垂直段,并且去掉权重比较 重,所以相应地给予较大的权重分配,越远离垂直 小的头部像素点,得到的实际效果如图2(c)所示。 坐标的颜色特征对匹配性能的提高影响较小,甚至 图2(d)代表实验过程中所绘制的图2(b)被去除头 会降低匹配性能,所以相应地给予远离垂直坐标的
而量化过程中存在两个极端问题:粗量化会造成大 量的可辩别性信息被放弃,细量化会生成稀疏直方 图。本文在 3 个通道使用相同的量化级数 32bins。 通过大量实验验证了本文所使用的 32bins 具有较 好的可辨别性和准确性。通过图 1 可以很清楚地体 现出来。 1.2 局部特征 局部特征相对整体特征而言更加注重局部小范 围特征的不变性,采用更细腻的特征描述子或者具 有较强鲁棒性的特征来进行匹配。观察大部分行人 目标的 Htor 和 Hleg 特征发现:最显著的局部差异特 征仍是颜色特征,实验过程中发现使用颜色特征应 对摄像机镜头旋转变化所造成的差异具有很好的辨 别性。所以在下文中的局部特征表述过程中,基于 上文中二级区域 Htor 和 Hleg 的基础上,为了使人体 目标取得更佳的匹配效果使用 GrabCut[24]背景去除 法,将干扰背景 (头部也当作背景) 进行去除,同时 将 RGB 颜色通道模型和加权 HSV 颜色通道模型作 为主要的局部特征;而另一方面考虑到局部人体目 标的表象和形状能够被梯度或边缘的方向密度分布 很好地描述,方向梯度直方图 (histogram of oriented gradient,HOG) 特征可以通过计算和统计图像局部 区域的梯度方向直方图来构成特征,并且能够对图 像的几何和光学形变都能保持很好的不变性,所 以,将结构性 HOG 描述子作为次要的局部特征。 1.2.1 局部 RGB 颜色特征 观察数据库中行人目标发现:去除头部的影响 后,由于目标行人上身所穿的衣服和下身所穿的裤 子在颜色上往往会表现出明显的差异,所以本文在 二级区域 Htor 和 Hleg 基础上使用局部 RGB 颜色直 方图匹配。通过观察图 2(b):掩膜背景图 (图中干扰 背景和头部已经去除) 和测试样本库里的图片 (国 际通用标准库 VIPeR 中的样本图片大小:48×128) 分析得到:头部和身躯段的平均分界线在第 20 行, 身躯段和腿部段的平均分界线在 62 行。为了减少 背景对匹配结果的干扰,如图 2(c) 所示,将身躯段 去除左右边界 各 4 列,即使用整张图像的 第 20~60 行,第 6~44 列作为身躯段窗口;同时,在腿部 段部分去除最下面的 8 行,以及左右各 14 列,使用 整张图像的第 66~122 行,第 14~36 列,作为腿部段 窗口。在量化过程中,同整体特征量化数相同,提 取每个通道对其量化后的直方图统计如图 2。 图 2 中,分段处理和图 1 中的两级区域一致, 将图像中的人物按照不对称原则分为头部、身躯和 腿部 3 个水平段,并将图像中的人物的身躯和腿部 按照对称原则分为两个垂直段,并且去掉权重比较 小的头部像素点,得到的实际效果如图 2(c) 所示。 图 2(d) 代表实验过程中所绘制的图 2(b) 被去除头 部和背景干扰之后,身躯和腿部的 R、G、B 分量直 方图。其中,图 2(d) 中的横轴,0~31 代表身躯段和 腿部段上的 R 颜色通道统计直方图 (其中 0~15 代 表身躯段,16~31 代表腿部段);32~63 代表身躯段和 腿部段上的 G 颜色通道统计直方图;64~95 代表身 躯段和腿部段上的 B 颜色通道统计直方图。 (a) ࣋ప (b) 㗸ᮛᣕ㛈 (c) ܲޞᘻప (d) 䏗䏛ȟ㚫䘔RȟGȟB̺䕆䕿Ⱐప 800 700 600 500 400 300 200 100 0 10 20 30 40 50 60 70 80 90 100 ͖/䶽㉌ ䷈㞞ࡦ䬠 图 2 局部 RGB 颜色直方图 Fig. 2 Local RGB color histogram 局部 RGB 颜色直方图充分利用了空间分布信 息,可以有效区分出上文所提到的上身下身穿衣颜 色的不同。在局部特征描述方面的应用中,可以较 好地实现应对图像旋转和平移的改变所带来的影 响,并且还可借助归一化技术,来达到不受图像尺 度的改变所带来的影响,充分利用了局部颜色特征 的优势。 1.2.2 加权 HSV 特征 根据人眼视觉特性, 颜色信息中 HSV 特征相比 较 RGB 特征,在应对光照变化方面,可以很大程度 上忽略图像亮度变化所带来的影响;在二级区域中 对 HSV 模型使用高斯分布的加权处理,可以在提取 空间信息基础上更好地对特征权重化处理,所以本 文选择 HSV 颜色模型作为局部特征之一来使用。 考虑到由于人体目标特征分布比例的差异性, 有些显著特征在人体身上的某些部位所占比例很 重,而有些特征则在人体身上的某些部位所占比例 很小。通过观察图 3(b) 发现:身躯和腿部中间部分 的颜色特征比较明显,对图像匹配时的影响会比较 重,所以相应地给予较大的权重分配,越远离垂直 坐标的颜色特征对匹配性能的提高影响较小,甚至 会降低匹配性能,所以相应地给予远离垂直坐标的 第 2 期 曹伟,等:目标再确认中的优化扩散距离相似性度量 ·271·
·272· 智能系统学报 第13卷 点以较小的权重分配。根据人体不同部位所对应的 分成小的连通区域,我们把它叫细胞单元2。然后 分段坐标对HSV直方图进行高斯分布的加权处理。 采集细胞单元中各像素点梯度或边缘的方向直方 图。最后把这些直方图组合起来就可以构成特征描 1.0 述器。为了提高性能,还可以把这些局部直方图在 0.8 图像的更大的范围内(也可称为区间或block)进行 06 对比度归一化,所采用的方法是:先计算各直方图 在这个区间(block)中的密度,然后根据这个密度对 0.4 区间中的各个细胞单元做归一化。本文在实际操作 02 中使用的参数为:窗口大小统一为48×128,block块 大小为16×16,每个block划分为4个cell,并且 (a)原图 (b)高斯核图谱 block每次滑动8个像素(即一个cell的宽),以及梯 度方向划分为9个区间,最后在0~360°范围内统 1.0 计,将cell的梯度方向360°分成9个方向块,也就 1.0 0.9 是每360°19=40°分到一个方向,方向大小按像素边 0.8 8333 缘强度加权,对cll内每个像素用梯度方向在直方 0.6 图中进行加权投影(映射到固定的角度范围),其相 0.5 应的实验效果如图4(©)所示。实验过程中,根据上 0.4 文相应参数对图4(a)进行HOG特征提取,提取过 0.3 0.2 程中的实验效果如图4所示。 0.1 从图中可以清晰的看出:本文将cell的梯度方 50 向以40°为一个单位,分成一个方向;图4()代表实 40 图像高 30 验过程中提取的归一化后HOG3维特征曲面图。 10 20 00 图像宽 由于HOG方法是在图像的局部细胞单元上操作 (©)三维空间核图谱能量分布图 的,所以它对图像几何和光学的形变能够保持很好 800 的不变性,归一化后能对光照变化和阴影获得更好 700 的效果。它的优点不仅包括对图像几何和光学形变 600 500 方面能保持良好的不变性,还包括归一化后允许行 400 人有细微的肢体动作,且不影响检测效果,多特征 300 融合HOG特征描述可以很好地提高匹配率。 200 100 0.35 0.30 0 20 40 60 80 100 120 颜色权重分布区间 0.25 (d)权重分布直方图 图3人体加权HSV处理图 0.15 Fig.3 Body weighted HSV processing figure 0.10 如图3所示,为了更形象地表现人体身上特征 0.05 权重的分布,文中提取人体不同位置对应的高斯分 6 布图谱3b)和三维空间中的核能量图谱3(c)。考虑 bin (a)cell的单元直方图 到光照的影响会对匹配精度造成很大的影响,因而 为了抑制光照变化,将H$V中的亮度值(V)分配较 0.35 小区间段。文中的H、S、V通道分别分成16、16、4段, 0.30 进而得到一个加权的108段(其中0~31段为头部 0.25 段,已被忽略计算:32~71段为身躯段:72~107为 020 腿部段)HSV直方图,其相应的实验效果如图3(d)。 12.3HOG特征 .05 HOG是日标检测常用的特征描述子。目标局 5101520253035 部的表象和形状能够被梯度或边缘的方向的密度分 bin 布很好地描述4。具体的实现方法是:首先将图像 (b)block块直方图
点以较小的权重分配。根据人体不同部位所对应的 分段坐标对 HSV 直方图进行高斯分布的加权[16]处理。 1.0 0.8 0.6 0.4 0.2 0 (a) ࣋ప (b) 倄ᵤప䅝 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 140120 100 8060 40 20 0 0 10 20 30 40 50 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 (c) ̵㐠⾦䬠ᵤప䅝㘩䛻ܲጯప ࢁѹ⾦䬠㘩䛻ჲᏒ/kg పჩ ప倄 800 700 600 500 400 300 200 100 20 40 60 80 100 120 (d) ᱯ䛹ܲጯⰠప 0 ᱯ䛹 ䷈㞞ᱯ䛹ܲጯࡦ䬠 图 3 人体加权 HSV 处理图 Fig. 3 Body weighted HSV processing figure 如图 3 所示,为了更形象地表现人体身上特征 权重的分布,文中提取人体不同位置对应的高斯分 布图谱 3(b) 和三维空间中的核能量图谱 3(c)。考虑 到光照的影响会对匹配精度造成很大的影响,因而 为了抑制光照变化,将 HSV 中的亮度值 (V) 分配较 小区间段。文中的 H、S、V 通道分别分成 16、16、4 段, 进而得到一个加权的 108 段 (其中 0~31 段为头部 段,已被忽略计算;32~71 段为身躯段;72~107 为 腿部段)HSV 直方图,其相应的实验效果如图 3(d)。 1.2.3 HOG 特征 HOG 是目标检测常用的特征描述子。目标局 部的表象和形状能够被梯度或边缘的方向的密度分 布很好地描述[24]。具体的实现方法是:首先将图像 分成小的连通区域,我们把它叫细胞单元[25]。然后 采集细胞单元中各像素点梯度或边缘的方向直方 图。最后把这些直方图组合起来就可以构成特征描 述器。为了提高性能,还可以把这些局部直方图在 图像的更大的范围内 (也可称为区间或 block) 进行 对比度归一化,所采用的方法是:先计算各直方图 在这个区间 (block) 中的密度,然后根据这个密度对 区间中的各个细胞单元做归一化。本文在实际操作 中使用的参数为:窗口大小统一为 48×128,block 块 大小为 16×16,每个 block 划分为 4 个 cell,并且 block 每次滑动 8 个像素 (即一个 cell 的宽),以及梯 度方向划分为 9 个区间,最后在 0~360o 范围内统 计,将 cell 的梯度方向 360o 分成 9 个方向块,也就 是每 360o /9=40o 分到一个方向,方向大小按像素边 缘强度加权,对 cell 内每个像素用梯度方向在直方 图中进行加权投影 (映射到固定的角度范围),其相 应的实验效果如图 4(c) 所示。实验过程中,根据上 文相应参数对图 4(a) 进行 HOG 特征提取,提取过 程中的实验效果如图 4 所示。 从图中可以清晰的看出:本文将 cell 的梯度方 向以 40o 为一个单位,分成一个方向;图 4(d) 代表实 验过程中提取的归一化后 HOG 3 维特征曲面图。 由于 HOG 方法是在图像的局部细胞单元上操作 的,所以它对图像几何和光学的形变能够保持很好 的不变性,归一化后能对光照变化和阴影获得更好 的效果。它的优点不仅包括对图像几何和光学形变 方面能保持良好的不变性,还包括归一化后允许行 人有细微的肢体动作,且不影响检测效果,多特征 融合 HOG 特征描述可以很好地提高匹配率。 (a) cell ⮰ٯࢁⰠప 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0 㐋䃍ը ᝂ㔱䶽 bin (b) block ಃⰠప 0.35 0.30 0.25 0.20 0.15 0.10 0.05 㐋䃍ը ᝂ㔱䶽 bin 0 ·272· 智 能 系 统 学 报 第 13 卷
第2期 曹伟,等:目标再确认中的优化扩散距离相似性度量 ·273· 9g00.6 T(x,)=To(x)() 120 60 T(x)=T(x,0)=d(x) 40 1 (2) 150 30 x,0= V吃epa X 那么一维分布hist1()和his2(x)的扩散距离定 义为 210 330 R(hist histz)=k(IT(x,t)Ddr (3) 0 240 300 270 式中:是一个正常数,且kT(x,0=T(x,dr。 (C)极坐标映射图 由于一维扩散距离的应用没有多大实际意义, 所以推广到高维且引人高斯金字塔对扩散距离进行 2 0.50 0.5 优化,进一步提高了相似性度量函数的计算效率。 0.1 0.40 0.30 假设有两个p维直方图Hist(X)和Hist2(X),其 0.3 0.2 0.20 中X为p维的实矩阵,由于高斯金字塔中图像的平 0.1 0.10 滑子采样不会产生混淆现象,能有效的描述温度场 504030 010005101520253035400 T(x,)的离散化连续性扩散过程,所以本文使用基 block个数 每一block 于成熟的高斯金字塔的交替距离定义高维扩散距 中特征数 离,即 (d三维特征 图4HOG特征描述子实验效果图 K(Hist,Hist,)= k(ld(x)) (4) Fig.4 HOG feature descriptor experimental result 式中: 2相似性度量函数 do()=Hist()-Hist(X),1=0 (5) 在相似性度量函数的建立方面,传统度量算法 d(X)=[d-(X)*(X,l2g,1=1,2,…,L (6) 1 大多基于欧氏距离或者余弦距离等进行优化。然 (X,σ)= (2PR。epr (7) 而,欧式距离和余弦距离本身存在诸多缺点,比如: 式(6)中的代表降采样,如果采样值偏小,有 欧式距离不能从高维特征向量恢复到具有低维的几 效信息会缺失;如果采样值偏大,会带来计算效率 何机构,对图像的形变比较敏感和缺少像素间的空 降低的问题,综合以上考虑,本文采样值大小设定 间关系;余弦距离存在位置判定上差异性太大以及 为经验值↓23,即取采样值的2/3。L是高斯金字塔 对数值的不敏感导致结果的众多误差等缺点。考虑 的层数,σ是高斯函数(X,σ)的标准差,式(7)中 到传统相似性度量算法的不足,本文引进物理学温 p代表直方图的维数。然后,使用L,范数标准对式 度场扩散距离2的概念来建立相似性度量函数。扩 (4)进行简化: 散距离的本质来源于物理学中的温度场,它不同于 欧式距离中的距离长短决定相似度大小的标准。扩 K(Hist Hist)=dX) (8) 散距离中的相似度取决于温度扩散路径的多少以及 热扩散的快慢。本文所使用的基于优化扩散距离相 从式(6)可以看出,d,中的向下采样操作在运 似性度量函数用于衡量个体在空间上存在的距离, 算量上呈指数减少,同时使用采样值的2/3,又能够 距离越远,说明个体间的差异越大,反之,差异越 最大限度保留样本值的信息:其次,高斯滤波卷积 小。优化扩散距离在一定程度上弥补了欧式和余弦 操作是线性运算,在计算效率上明显有优势。但 距离的不足的同时,在匹配性能上显示了较优的表 是,优化后的扩散距离虽然在计算效率上提高不 现2。其原理如下: 少,但是由式(4)和(5)可以知道,优化扩散距离在 首先,假设hist(x)和hist()为两个一维分布,其 表示空间向量直方图Hist(X)和Hist2(X)之间的累积 差异可以表示成: 差时,缺少对内部单个元素之间差异的表示。虽然 d(x)=hist (x)-hist,(x) (1) 使用式(8)可以直接应用到相似距离度量中,但其 如果存在一个独立的温度场T(x,)中,在时间 忽略了空间向量对应元素之间的相似性的影响,因 =0时,有T(x,0)=d(x)。那么温度场T(x,)的计算公 而其精确度会存在误差。由于不同Hst(X)中的每个 式为 元素代表不同的特征属性,比如wHSV(weighted
2 相似性度量函数 在相似性度量函数的建立方面,传统度量算法 大多基于欧氏距离或者余弦距离等进行优化。然 而,欧式距离和余弦距离本身存在诸多缺点,比如: 欧式距离不能从高维特征向量恢复到具有低维的几 何机构,对图像的形变比较敏感和缺少像素间的空 间关系;余弦距离存在位置判定上差异性太大以及 对数值的不敏感导致结果的众多误差等缺点。考虑 到传统相似性度量算法的不足,本文引进物理学温 度场扩散距离[26]的概念来建立相似性度量函数。扩 散距离的本质来源于物理学中的温度场,它不同于 欧式距离中的距离长短决定相似度大小的标准。扩 散距离中的相似度取决于温度扩散路径的多少以及 热扩散的快慢。本文所使用的基于优化扩散距离相 似性度量函数用于衡量个体在空间上存在的距离, 距离越远,说明个体间的差异越大,反之,差异越 小。优化扩散距离在一定程度上弥补了欧式和余弦 距离的不足的同时,在匹配性能上显示了较优的表 现 [26]。其原理如下: 首先,假设 hist1(x) 和 hist2(x) 为两个一维分布,其 差异可以表示成: d(x) = hist1(x)−hist2(x) (1) T(x,t) T(x,0) = d(x) T(x,t) 如果存在一个独立的温度场 中,在时间 t=0 时,有 。那么温度场 的计算公 式为 T(x,t) = T0(x)· ϕ(x) T0(x) = T(x,0) = d(x) ϕ(x,t) = 1 √ 2πt exp−x 2 /2t 2 (2) 那么一维分布 hist1(x) 和 hist2(x) 的扩散距离定 义为 Kˆ(hist1 ,hist2) = ∫ t¯ 0 k(|T(x,t)|)dt (3) t¯ k(|T(x,t)|) = ∫ +∞ −∞ 式中: 是一个正常数,且 |T(x,t)|dx。 由于一维扩散距离的应用没有多大实际意义, 所以推广到高维且引入高斯金字塔对扩散距离进行 优化,进一步提高了相似性度量函数的计算效率。 Hist1(X) Hist2(X) T(x,t) 假设有两个 p 维直方图 和 ,其 中 X 为 p 维的实矩阵,由于高斯金字塔中图像的平 滑子采样不会产生混淆现象,能有效的描述温度场 的离散化连续性扩散过程,所以本文使用基 于成熟的高斯金字塔的交替距离定义高维扩散距 离,即 K(Hist1,Hist2) = ∑L l=0 k(|dl(x)|) (4) 式中: d0(X) = Hist1(X)−Hist2(X),l = 0 (5) dl(X) = [dl−1(X) ∗ ϕ(X,σ)]↓2/3 , l = 1,2,··· ,L (6) ϕ(X,σ) = 1 (2π) p/2σ exp−X TX/2σ 2 (7) ↓ ↓2/3 ϕ(X,σ) 式 (6) 中的 代表降采样,如果采样值偏小,有 效信息会缺失;如果采样值偏大,会带来计算效率 降低的问题,综合以上考虑,本文采样值大小设定 为经验值 ,即取采样值的 2/3。L 是高斯金字塔 的层数,σ 是高斯函数 的标准差,式 (7) 中 p 代表直方图的维数。然后,使用 L1 范数标准对式 (4) 进行简化[26] : K(Hist1,Hist2) = ∑L l=1 dl(X) (8) Hist1(X) Hist2(X) Hist(X) 从式 (6) 可以看出,dl 中的向下采样操作在运 算量上呈指数减少,同时使用采样值的 2/3,又能够 最大限度保留样本值的信息;其次,高斯滤波卷积 操作是线性运算,在计算效率上明显有优势。但 是,优化后的扩散距离虽然在计算效率上提高不 少,但是由式 (4) 和 (5) 可以知道,优化扩散距离在 表示空间向量直方图 和 之间的累积 差时,缺少对内部单个元素之间差异的表示。虽然 使用式 (8) 可以直接应用到相似距离度量中,但其 忽略了空间向量对应元素之间的相似性的影响,因 而其精确度会存在误差。由于不同 中的每个 元素代表不同的特征属性,比如 wHSV(weighted (d) ̵㐠➥ᒭ 㐋䃍ը ᝂ㔱䶽 0.5 0.1 0.3 0.2 0.1 0 50 40 30 20 10 0 0 5 10 15 20 25 30 35 40 0.50 0.40 0.30 0.20 0.10 0 Z Y X block 个数 每一 block 中特征数 (c) Ჭ౼ᴳᭌᄰప 0.6 60 40 30 0 330 300 270 240 210 180 150 120 90 Y X 0.4 图 4 HOG 特征描述子实验效果图 Fig. 4 HOG feature descriptor experimental result 第 2 期 曹伟,等:目标再确认中的优化扩散距离相似性度量 ·273·