第8卷第3期 智能系统学报 Vol.8 No.3 2013年6月 CAAI Transactions on Intelligent Systems Jum.2013 D0I:10.3969/j.issn.1673-4785.201212064 网络出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20130515.0939.010.html 视频序列的人体运动描述方法综述 孙倩茹12,王文敏1,刘宏12 (1.北京大学深圳研究生院深圳物联网智能感知技术工程实验室,广东深圳518055:2.北京大学机器感知与智能 教育部重点实验室,北京100871) 摘要:视频中的人体运动分析是计算机视觉领域的重要课题,同时也是近年来备受关注的前沿研究方向之一,在明 确实际视频中存在的若干种难点,如人体遮挡、视频模糊、拍摄视角变化等基础上,从经典的人体运动特征提取、特 征选择以及特征融合3个方面,对基于视频序列的人体运动描述方法和研究现状进行了概述,归纳出人体运动描述 算法的研究难点,并分析了人体运动分析的技术发展趋势.指出了利用不同特征间存在的互补性质探求高性能特征 选择和特征融合机制是人体运动描述技术发展的必然趋势,从处理简单实验场景视频向挑战高难度实际场景视频 的转化是运动视频分析未来发展的方向. 关键词:视频序列:人体运动描述:特征提取:特征选择:特征融合 中图分类号:TP391文献标志码:A文章编号:1673-4785(2013)03-0189-10 中文引用格式:孙倩茹,王文敏,刘宏.视频序列的人体运动描述方法综述[J].智能系统学报,2013,8(3):189-198 英文引用格式:SUN Qianru,WANG Wenmin,LIU Hong.Study of human action representation in video sequences[J].CAAI Transactions on Intelligent Systems,2013,8(3):189-198. Study of human action representation in video sequences SUN Qianru'2,WANG Wenmin',LIU Hong'2 (1.Engineering Lab on Intelligent Perception for Internet of Things(ELIP),Shenzhen Graduate School of Peking University,Shenz- hen 518055,China:2.Key Laboratory for Machine Perception Ministry of Education),Peking University,Beijing 100871,China) Abstract:Recently analysis of human actions in videos has become an important issue in the field of computer vi- sion.Much attention has been paid to this frontier research.In this paper,we first explicitly defines several existing difficulties in real-world videos,such as body occlusion,video fuzzy,shooting angle change and then conducts a survey based on the popular methods and present situation research studies on human action representation.Next, we focus attention on three aspects of feature extraction,feature selection and feature fusion,and then summarize the research difficulties in algorithms of action description,and analyze the technical development trend of human action analysis.It was pointed out that the inevitable trend of human action representation technology is to explore high-performance feature selection and feature merging mechanism by making use of the complementary mechanism among different features,and the development trend of motion video analysis in the future is to change from pro- cessing simple experimental scene videos to the challenge of real-world scene videos with high difficulties Keywords:video sequences;human action representation;feature extraction;feature selection;feature fusion 运动信息是视频的重要特性之一.近年来,摄像 视频中的人体运动分析是指通过计算机视觉和模式 机等视频录制设备价格的不断降低,计算机性能的 识别的各类技术手段,实现对视频序列中存在特定 不断提高,使得视频相关领域的应用需求不断增加. 人体运动的智能化表示和标记.它在较多计算机视 频应用领域有着广泛且重要的研究应用,因此对人 收稿日期:2012-12-31.网络出版日期:2013-05-15. 基金项目:国家自然科学基金资助项目(60875050,60675025):国家 体运动描述和识别算法的研究就成为了计算机视觉 “863"计划资助项目(2006AA04Z247):深圳市科学和技术 领域备受关注的前沿研究课题.近几年,国际上一些 创新委员会资助项目(JC201005280682A, JCYJ20120614152234873,CXC201104210010A). 权威期刊如JCV(International Journal of Computer 通信作者:孙倩茹.E-mail:qianrusun@sz-pku.cdu.cn. Vision),CVIU Computer Vision and Image Under-
第 8 卷第 3 期 智 能 系 统 学 报 Vol.8 №.3 2013 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2013 DOI:10.3969 / j.issn.1673⁃4785.201212064 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20130515.0939.010.html 视频序列的人体运动描述方法综述 孙倩茹1,2 ,王文敏1 ,刘宏1,2 (1.北京大学深圳研究生院 深圳物联网智能感知技术工程实验室,广东 深圳 518055; 2.北京大学 机器感知与智能 教育部重点实验室,北京 100871) 摘 要:视频中的人体运动分析是计算机视觉领域的重要课题,同时也是近年来备受关注的前沿研究方向之一.在明 确实际视频中存在的若干种难点,如人体遮挡、视频模糊、拍摄视角变化等基础上,从经典的人体运动特征提取、特 征选择以及特征融合 3 个方面,对基于视频序列的人体运动描述方法和研究现状进行了概述,归纳出人体运动描述 算法的研究难点,并分析了人体运动分析的技术发展趋势.指出了利用不同特征间存在的互补性质探求高性能特征 选择和特征融合机制是人体运动描述技术发展的必然趋势,从处理简单实验场景视频向挑战高难度实际场景视频 的转化是运动视频分析未来发展的方向. 关键词:视频序列;人体运动描述;特征提取;特征选择;特征融合 中图分类号: TP391 文献标志码:A 文章编号:1673⁃4785(2013)03⁃0189⁃10 中文引用格式:孙倩茹,王文敏,刘宏. 视频序列的人体运动描述方法综述[J]. 智能系统学报, 2013, 8(3): 189⁃198. 英文引用格式:SUN Qianru, WANG Wenmin, LIU Hong. Study of human action representation in video sequences[ J]. CAAI Transactions on Intelligent Systems, 2013, 8(3): 189⁃198. Study of human action representation in video sequences SUN Qianru 1,2 , WANG Wenmin 1 , LIU Hong 1,2 (1. Engineering Lab on Intelligent Perception for Internet of Things(ELIP), Shenzhen Graduate School of Peking University, Shenz⁃ hen 518055, China; 2. Key Laboratory for Machine Perception (Ministry of Education), Peking University, Beijing 100871, China) Abstract:Recently analysis of human actions in videos has become an important issue in the field of computer vi⁃ sion. Much attention has been paid to this frontier research. In this paper, we first explicitly defines several existing difficulties in real⁃world videos, such as body occlusion, video fuzzy, shooting angle change and then conducts a survey based on the popular methods and present situation research studies on human action representation. Next, we focus attention on three aspects of feature extraction, feature selection and feature fusion, and then summarize the research difficulties in algorithms of action description, and analyze the technical development trend of human action analysis. It was pointed out that the inevitable trend of human action representation technology is to explore high⁃performance feature selection and feature merging mechanism by making use of the complementary mechanism among different features, and the development trend of motion video analysis in the future is to change from pro⁃ cessing simple experimental scene videos to the challenge of real⁃world scene videos with high difficulties. Keywords:video sequences; human action representation; feature extraction; feature selection; feature fusion 收稿日期:2012⁃12⁃31. 网络出版日期:2013⁃05⁃15. 基金项目:国家自然科学基金资助项目( 60875050,60675025);国家 “863”计划资助项目(2006AA04Z247);深圳市科学和技术 创 新 委 员 会 资 助 项 目 ( JC201005280682A, JCYJ20120614152234873, CXC201104210010A). 通信作者:孙倩茹. E⁃mail:qianrusun@ sz.pku.edu.cn. 运动信息是视频的重要特性之一.近年来,摄像 机等视频录制设备价格的不断降低,计算机性能的 不断提高,使得视频相关领域的应用需求不断增加. 视频中的人体运动分析是指通过计算机视觉和模式 识别的各类技术手段,实现对视频序列中存在特定 人体运动的智能化表示和标记.它在较多计算机视 频应用领域有着广泛且重要的研究应用,因此对人 体运动描述和识别算法的研究就成为了计算机视觉 领域备受关注的前沿研究课题.近几年,国际上一些 权威期刊如 IJCV ( International Journal of Computer Vision)、 CVIU ( Computer Vision and Image Under⁃
·190· 智能系统学报 第8卷 standing)PAMI(IEEE Transactions on Pattern Analy- 段得到的特征存在着很大的差异性,最直观的轮廓 sis and Machine Intelligence),IVC(Image and Vision 特征就几乎完全不同为了解决类内多样性,需要探 Computing),以及重要的国际学术会议,如ICCV 求一种抓住运动本质的鲁棒运动特征 (International Conference on Computer Vision),CVPR 2)类间相似性(inter-class similarity).它指的是 (IEEE Conference on Computer Vision and Pattern 不同的运动看上去有很大的相似性,这与类内多样 Recognition)ECCV European Conference on Com- 性是相对的一种困难情况.例如图1()中显示的2 puter Vision)等,已将基于视频信息的人体运动分析 张灰度图像,2个人好像都是在跑步,但是结合原多 研究作为其主体内容之一四.目前,在低噪声环境下 帧图像序列可以判断第1幅子图是在跑步而第2幅 获取的视频中进行运动检测和识别已经可以达到较 子图是在单腿向前跳在视频中跑和跳出现了多帧 高的识别效率,但是针对实际环境中的视频,人体运 极其类似的情况,这就给区分这2个运动带来了极 动描述和识别仍然面临很多难题, 大的模糊性并且,当分类的运动种类增多时,这种 类间相似造成的模糊性也会随之增大,进而导致识 1人体运动描述的研究难点 别率降低,这就要求继续研究高区分度的人体运动 由于人体运动识别需要将视频中包含的人体运 描述特征和模型, 动进行准确地描述和正确地分类,因此这是一项极 3)人体遮挡(body occlusion).实际场景中的人 富挑战性的研究工作.另外,当此类方法应用到实际 体经常会被场景中的其他人或物体遮挡住部分或者 视频中时,由于视频中存在的种种现象,如人体遮 全部的身体,有时还会因为视角的问题产生自遮挡 挡、视频模糊、拍摄视角变化等,所需要解决的问题 的问题这类问题严重影响了运动特征的有效提取 就变得更加复杂.为了避免研究这些复杂情形,很多 和描述过程.此时,识别算法获取的特征是不完整 研究方法都集中在对视频质量和运动发生环境严格 的,甚至会误导识别结果,降低识别率.例如图1(a) 受限的理想数据库的实验上.而且,研究者为了得到 中的交互行为“拳击”,当摄像头角度固定时,2个人 鲁棒的运动描述特征,对视频中的人体运动进行了 拳击的过程中会不停地挪动,遮挡是很常见的,一旦 前提性的假设,如假设已经实现了鲁棒的人体跟踪, 遮挡发生就会造成子特征或者整体轮廓类特征混 排除轻微的相机晃动和图像模糊以及对观察视角进 乱,对识别的进行会造成严重影响另外,当全遮挡 行了若干个简单的划分.这些都从根本上限制了方 发生的时候,根本无法完成目标定位或者运动物体 法本身在实际视频中的应用, 的定位,这是显而易见的实际难题, 为了解决这些问题,首先需要对问题本身进行 4)视角转变(view point variation).当摄像机的 分析,然后对识别过程中出现的各类难点问题进行 视角发生大的转变时,所观察到的运动在计算机看 总结 来就有可能完全不同.例如,图1(d)中的自行车运 动,侧面得到的特征和背面有很大的不同,如轮廓、 姿势等.当然,远近视角会造成尺度的变化,这也是 需要在特征选取过程中考虑的因素 (a)人体遮挡 (b)相机晃动(c)严重阴影 5)相机运动(camera motion).相机运动是造成 运动序列变化的另一种根本性因素,不合理的相机 运动设置会造成严重的运动扭曲,其中就包括相机 抖动的情况.相机在运动过程中会造成运动视角的 转变以及背景的更新,因此固定相机和移动相机所 (d)类内多样性 (e)类间相似性 拍摄的同一运动过程就会显现出不同的状态.一般 图1人体运动分析中的客观难点举例 会采用预处理的方式对相机移动造成的影响进行运 Fig.I Examples of problems in human action analysis 动补偿,但是当视频中包含快速的背景变化或者难 为了便于后面的论述,本文先给出几个术语 以进行轨迹参数化的相机运动时,预处理是完全无 1)类内多样性(intra-class variations).它指的是 效的 相同的运动存在不同的个体和视角.人体运动者处 6)动态背景(dynamic background).实际场景中 于不同的年龄阶段,会拥有不同的外表,同时运动速 经常包含同时运动的多个人和物体,因此,背景是不 度和时空变化程度都有较大的差异.例如图1(d)所 断变化的.当存在这种变化时,运动识别主要面临的 示的2个骑单车运动,它们的不同之处就在于实验 问题是会出现局部或者全身遮挡,导致目标定位和 者的着装以及拍摄视角,这就导致了在特征获取阶 识别变得复杂和困难,背景减除也变得困难,运动特
standing)、PAMI(IEEE Transactions on Pattern Analy⁃ sis and Machine Intelligence)、IVC( Image and Vision Computing), 以及重要的国际学术会议, 如 ICCV (International Conference on Computer Vision)、CVPR (IEEE Conference on Computer Vision and Pattern Recognition)、 ECCV ( European Conference on Com⁃ puter Vision)等,已将基于视频信息的人体运动分析 研究作为其主体内容之一[1] .目前,在低噪声环境下 获取的视频中进行运动检测和识别已经可以达到较 高的识别效率,但是针对实际环境中的视频,人体运 动描述和识别仍然面临很多难题. 1 人体运动描述的研究难点 由于人体运动识别需要将视频中包含的人体运 动进行准确地描述和正确地分类,因此这是一项极 富挑战性的研究工作.另外,当此类方法应用到实际 视频中时,由于视频中存在的种种现象,如人体遮 挡、视频模糊、拍摄视角变化等,所需要解决的问题 就变得更加复杂.为了避免研究这些复杂情形,很多 研究方法都集中在对视频质量和运动发生环境严格 受限的理想数据库的实验上.而且,研究者为了得到 鲁棒的运动描述特征,对视频中的人体运动进行了 前提性的假设,如假设已经实现了鲁棒的人体跟踪, 排除轻微的相机晃动和图像模糊以及对观察视角进 行了若干个简单的划分.这些都从根本上限制了方 法本身在实际视频中的应用. 为了解决这些问题,首先需要对问题本身进行 分析,然后对识别过程中出现的各类难点问题进行 总结. 图 1 人体运动分析中的客观难点举例 Fig.1 Examples of problems in human action analysis 为了便于后面的论述,本文先给出几个术语. 1)类内多样性(intra⁃class variations).它指的是 相同的运动存在不同的个体和视角.人体运动者处 于不同的年龄阶段,会拥有不同的外表,同时运动速 度和时空变化程度都有较大的差异.例如图 1(d)所 示的 2 个骑单车运动,它们的不同之处就在于实验 者的着装以及拍摄视角,这就导致了在特征获取阶 段得到的特征存在着很大的差异性,最直观的轮廓 特征就几乎完全不同.为了解决类内多样性,需要探 求一种抓住运动本质的鲁棒运动特征. 2)类间相似性(inter⁃class similarity).它指的是 不同的运动看上去有很大的相似性,这与类内多样 性是相对的一种困难情况.例如图 1( e)中显示的 2 张灰度图像,2 个人好像都是在跑步,但是结合原多 帧图像序列可以判断第 1 幅子图是在跑步而第 2 幅 子图是在单腿向前跳.在视频中跑和跳出现了多帧 极其类似的情况,这就给区分这 2 个运动带来了极 大的模糊性.并且,当分类的运动种类增多时,这种 类间相似造成的模糊性也会随之增大,进而导致识 别率降低,这就要求继续研究高区分度的人体运动 描述特征和模型. 3)人体遮挡( body occlusion).实际场景中的人 体经常会被场景中的其他人或物体遮挡住部分或者 全部的身体,有时还会因为视角的问题产生自遮挡 的问题.这类问题严重影响了运动特征的有效提取 和描述过程.此时,识别算法获取的特征是不完整 的,甚至会误导识别结果,降低识别率.例如图 1(a) 中的交互行为“拳击”,当摄像头角度固定时,2 个人 拳击的过程中会不停地挪动,遮挡是很常见的,一旦 遮挡发生就会造成子特征或者整体轮廓类特征混 乱,对识别的进行会造成严重影响.另外,当全遮挡 发生的时候,根本无法完成目标定位或者运动物体 的定位,这是显而易见的实际难题. 4)视角转变( view point variation).当摄像机的 视角发生大的转变时,所观察到的运动在计算机看 来就有可能完全不同.例如,图 1( d)中的自行车运 动,侧面得到的特征和背面有很大的不同,如轮廓、 姿势等.当然,远近视角会造成尺度的变化,这也是 需要在特征选取过程中考虑的因素. 5)相机运动( camera motion).相机运动是造成 运动序列变化的另一种根本性因素,不合理的相机 运动设置会造成严重的运动扭曲,其中就包括相机 抖动的情况.相机在运动过程中会造成运动视角的 转变以及背景的更新,因此固定相机和移动相机所 拍摄的同一运动过程就会显现出不同的状态.一般 会采用预处理的方式对相机移动造成的影响进行运 动补偿,但是当视频中包含快速的背景变化或者难 以进行轨迹参数化的相机运动时,预处理是完全无 效的. 6)动态背景( dynamic background).实际场景中 经常包含同时运动的多个人和物体,因此,背景是不 断变化的.当存在这种变化时,运动识别主要面临的 问题是会出现局部或者全身遮挡,导致目标定位和 识别变得复杂和困难,背景减除也变得困难,运动特 ·190· 智 能 系 统 学 报 第 8 卷
第3期 孙倩茹,等:视频序列的人体运动描述方法综述 ·191· 征提取会因为严重的背景噪声而变得效率低下 Bobick和Davis2)于2001年提出使用人体轮廓 7)其他环境因素(environmental conditions).录 模板训练分类器的方法,他们采集单一视角的轮廓并 像设置和场景选择也是影响运动分析的重要因素. 对其进行聚类以提取可计算的特征向量.首先利用连 例如,室外场景中存在的阴影、光照变化以及人群拥 续的轮廓形状建立一种运动能量图(MEI),用于表征 挤都会严重影响人体运动识别结果 运动发生的位置信息:再建立一种运动历史图 2 经典的人体运动描述方法 (MⅢ),用于表征轮廓序列的灰度值变化情况:最后 通过对这2种特征图像的参数化描述建立运动特征 通常来说,不同的运动具有不同的计算复杂度 向量(如图2).Blank4)和Yilmaz先后提出了结合运 运动表示方法的不同会直接影响后续识别的效率, 动信息的人体3D体积模型,通过获取轮廓序列计算 Bobick[将人的运动分为3类:动作(movement)、行 3D体积的特征值(如体积大小、时空角点位置等)来 动(action)和行为(activity),这3类运动分别处于3 计算运动描述向量.除了利用单纯的轮廓和体积信息 个不同复杂度的层次上.动作是运动的基元,是最基 之外,Wang6]为了探索人体轮廓的运动流形轨迹的 本的运动,是形成其他复杂、高级运动的基础.一般 内在结构,于2007年提出采用LPp)(R变换)对提 来说人体动作在执行过程中会持续较短的时间,其 取的人体轮廓序列进行轨迹分析,他们在多个具有挑 识别方法一般可以采用几何或概率统计的方法3)] 战性的数据库上对这种方法的鲁棒性进行了实验验 一般来说,运动的表示与应用场合有紧密的关系,对 证,均取得了较好的识别效果。 于不同的情况通常会选择不同的运动表示方法.譬 如,在对一个大的场景下进行较远距离的监控时,只 需要提取运动目标的轨迹就可以满足需要,而在识 别近距离人体动作时,对人的肢体进行2D或者3D 建模则会起到更好的效果[)」 动作描述是指给定一段包含人体运动的视频, 需要建立起视频(观察)到高维特征空间一种合理 的映射,用特征或者特征的组合形式来表述这段运 动.参考在第1节中提到的人体运动识别的难点,主 要解决途径就是探求具备高类间区分度且对类内元 素具有很好的“聚类”作用的特征描述方法.好的运 动描述方法可以使人体运动识别系统实现高识别效 率,因此近些年来,运动的特征描述成为运动识别的 重点研究之一 (a)关键顿 (b)MEI (e)MHI 根据近些年的相关研究成果,关于运动的特征 图2人体运动描述子:MEI和MHI 描述方法主要可以分为四大类2]:1)基于时空形状 Fig.2 Human action descriptors:MEI and MHI 模板(spatio-temporal shape template)的运动描述方 后续的很多文献致力于获取对视角和尺度变化 法;2)基于光流(optical flow)特征的运动描述方法; 较为鲁棒的轮廓描述方法,但是在处理实际视频中 3)基于运动轨迹(trajectories)的运动描述方法;4) 出现的遮挡、拥挤、大视角大尺度视频变化等问题 基于兴趣点(interest points)的运动描述方法. 时,基于时空形状模板的运动描述方法难以满足识 2.1基于时空形状模板的运动描述方法 别要求 时空形状模板是一种较早的用于运动识别的方 2.2基于光流特征的运动描述方法 法该方法在训练过程中通过对视频序列中检测到 基于光流特征的运动描述方法是将人体运动联 的人体形状建立起一组与特定运动相对应的人体形 合背景变化作为一个变化的整体,然后通过获取主 状序列运动识别的过程实际就是模板匹配的过程, 运动区域来定位人体运动.光流法不需要预先获取 获得训练样本的高质量轮廓模板是这类方法的前 图像背景,而且计算结果仅仅依靠连续帧的相对运 提.因此,这类方法要求以高精度的人体轮廓分割 动,不受复杂背景的影响,因而在基于对象的运动估 (一般会使用背景减除)为前提,因此当出现复杂背 计、运动检测和跟踪等领域都有广阔的应用前景[) 景情形时,如相机晃动、人体阴影、人体遮挡或者多 光流的基本计算以2帧图像亮度恒定为前提,用泰 个运动目标,此类方法的识别率会变得比较低,甚至 勒级数一阶展开,使得光流计算受限于2帧图像间 会完全失效
征提取会因为严重的背景噪声而变得效率低下. 7)其他环境因素( environmental conditions).录 像设置和场景选择也是影响运动分析的重要因素. 例如,室外场景中存在的阴影、光照变化以及人群拥 挤都会严重影响人体运动识别结果. 2 经典的人体运动描述方法 通常来说,不同的运动具有不同的计算复杂度, 运动表示方法的不同会直接影响后续识别的效率. Bobick [2]将人的运动分为 3 类:动作(movement)、行 动(action)和行为(activity),这 3 类运动分别处于 3 个不同复杂度的层次上.动作是运动的基元,是最基 本的运动,是形成其他复杂、高级运动的基础.一般 来说人体动作在执行过程中会持续较短的时间,其 识别方法一般可以采用几何或概率统计的方法[3] . 一般来说,运动的表示与应用场合有紧密的关系,对 于不同的情况通常会选择不同的运动表示方法.譬 如,在对一个大的场景下进行较远距离的监控时,只 需要提取运动目标的轨迹就可以满足需要,而在识 别近距离人体动作时,对人的肢体进行 2D 或者 3D 建模则会起到更好的效果[3] . 动作描述是指给定一段包含人体运动的视频, 需要建立起视频(观察)到高维特征空间一种合理 的映射,用特征或者特征的组合形式来表述这段运 动.参考在第 1 节中提到的人体运动识别的难点,主 要解决途径就是探求具备高类间区分度且对类内元 素具有很好的“聚类”作用的特征描述方法.好的运 动描述方法可以使人体运动识别系统实现高识别效 率,因此近些年来,运动的特征描述成为运动识别的 重点研究之一. 根据近些年的相关研究成果,关于运动的特征 描述方法主要可以分为四大类[2] :1)基于时空形状 模板(spatio⁃temporal shape template) 的运动描述方 法;2)基于光流(optical flow)特征的运动描述方法; 3)基于运动轨迹( trajectories) 的运动描述方法;4) 基于兴趣点(interest points)的运动描述方法. 2.1 基于时空形状模板的运动描述方法 时空形状模板是一种较早的用于运动识别的方 法.该方法在训练过程中通过对视频序列中检测到 的人体形状建立起一组与特定运动相对应的人体形 状序列.运动识别的过程实际就是模板匹配的过程, 获得训练样本的高质量轮廓模板是这类方法的前 提.因此,这类方法要求以高精度的人体轮廓分割 (一般会使用背景减除)为前提,因此当出现复杂背 景情形时,如相机晃动、人体阴影、人体遮挡或者多 个运动目标,此类方法的识别率会变得比较低,甚至 会完全失效. Bobick 和 Davis [2] 于 2001 年提出使用人体轮廓 模板训练分类器的方法,他们采集单一视角的轮廓并 对其进行聚类以提取可计算的特征向量.首先利用连 续的轮廓形状建立一种运动能量图(MEI),用于表征 运动 发 生 的 位 置 信 息;再 建 立 一 种 运 动 历 史 图 (MHI),用于表征轮廓序列的灰度值变化情况;最后 通过对这 2 种特征图像的参数化描述建立运动特征 向量(如图 2).Blank [4]和 Yilmaz [5]先后提出了结合运 动信息的人体 3D 体积模型,通过获取轮廓序列计算 3D 体积的特征值(如体积大小、时空角点位置等)来 计算运动描述向量.除了利用单纯的轮廓和体积信息 之外,Wang [6]为了探索人体轮廓的运动流形轨迹的 内在结构,于 2007 年提出采用 LPP [7] (R 变换)对提 取的人体轮廓序列进行轨迹分析,他们在多个具有挑 战性的数据库上对这种方法的鲁棒性进行了实验验 证,均取得了较好的识别效果. 图 2 人体运动描述子:MEI 和 MHI Fig.2 Human action descriptors: MEI and MHI 后续的很多文献致力于获取对视角和尺度变化 较为鲁棒的轮廓描述方法,但是在处理实际视频中 出现的遮挡、拥挤、大视角大尺度视频变化等问题 时,基于时空形状模板的运动描述方法难以满足识 别要求. 2.2 基于光流特征的运动描述方法 基于光流特征的运动描述方法是将人体运动联 合背景变化作为一个变化的整体,然后通过获取主 运动区域来定位人体运动.光流法不需要预先获取 图像背景,而且计算结果仅仅依靠连续帧的相对运 动,不受复杂背景的影响,因而在基于对象的运动估 计、运动检测和跟踪等领域都有广阔的应用前景[8] . 光流的基本计算以 2 帧图像亮度恒定为前提,用泰 勒级数一阶展开,使得光流计算受限于 2 帧图像间 第 3 期 孙倩茹,等:视频序列的人体运动描述方法综述 ·191·
·192 智能系统学报 第8卷 的运动不能大于1个像素,因此只有当相邻2帧间 特征、身体轮廓等,建立起三维综合信息,实现最终 的运动不大于1个像素时,标准光流算法才比较可 的人体运动描述 靠.Efos]于2003年率先在这个领域有所突破,他 Rao和Shah]于2001年研究了人手运动过程 先是利用跟踪算法锁定远距离的人体,然后再对跟 中轨迹的视角不变性,他们的方法是通过计算轨迹 踪目标框内的视频流进行光流变化的检测和统计, 的时空曲率实现的,其中运动轨迹是通过肤色跟踪 同时将光流变化划分为上下左右4个独立通道,获 器记录人手动作执行过程得到的.Sheikh]于2005 取邻接跟踪通道中光流的时间相关数据作为最终的 年提出了使用人体的多个肢点记录轨迹来表示某一 运动描述子.如图3所示,其中图3(a)为原始图像, 个人体的全身运动情况,其描述空间是包含了时间 图3(b)是光流图像,图3(c)是分离出来的x和y 轴的4D空间.这一方法的明显缺点是无法对长时间 方向上的光流分量,图3(d)是半波整流产生的4个 视角变化的运动轨迹进行清晰有效的表示.为了探 独立通道分量,图3(e)是得到的模糊运动通道.这 索这一问题的解决方案,John4于2010年提出了 种方法虽然没有利用轮廓分割,但是需要鲁棒的人 一种多视角情况下跟踪铰链式人体运动的框架,该 体跟踪,因此目标的全遮挡和尺度变化对检测性能 方法在文中设定的一系列限制条件下取得了较好的 的影响很大.其后,Fathito]提出了结合底层和中层 实验效果.A1)则另辟蹊径,提出了获取关节轨迹 特征对视频中的运动区域进行整体描述,其中中层 的混沌不变量作为不同运动之间可用于相互区分的 特征就是采用上述光流方法, 特征,该特征在2个经典的人体运动数据库上取得 了较好的运动分类效果.图4中描绘了人体跑步运 动的3种轨迹曲线[)」 (a)原始图像 (b)光流图像 图4跑步运动的3种运动轨迹 Fig.4 Running trajectories toward three orientations 针对视频中存在的运动识别难点,Wang16]和 (cr和方向 (上下左右4个 (e模糊运动通道 上的光流分量独立通道分量 Raptis1]分别于2011年和2012年提出利用视频中 图3光流及其光流描述子 局部特征的稠密运动轨迹进行运动识别和分析,这 Fig.3 Optical flow and its corresponding description 是目前针对实际拍摄中相机抖动的2种性能较好的 另一类光流描述方法是将光流算子作为局部特 方法.其缺点是计算和分析的代价较大,检测到的局 征,通过经典统计方法训练分类器.Danafar山将跟 部特征维度较高,因此对计算机的计算能力要求高. 踪通道内的局部光流按照横向和纵向划分为2个独 同时,所记录运动轨迹的稠密性决定了这类方法对 立通道进行特征直方图统计,将统计结果作为运动 计算机的存储能力要求也很高. 描述算子,再利用SVM分类器实现最终的运动分类 2.4 基于兴趣点的运动描述方法 和识别实验表明该局部特征统计方法对环境噪声 基于兴趣点的人体运动描述模型是建立在2个 和视角变化有良好的鲁棒性 关键步骤上的:兴趣点的检测和兴趣点周围局部区 2.3基于运动轨迹的运动描述方法 域的描述.在现有的各种运动表示方法和模型中,基 运动轨迹模型是利用时空描述子记录行动物体 于兴趣点的运动描述是研究者们最热衷的一类方 的运动轨迹或肢体运动轨迹,通过轨迹特征来表述 法.与前面提到的人体模型表示方法和轨迹表示方 相应的运动其优点是可以记录关于目标运动的整 法比较,兴趣点模型最大的优点就是不需要跟踪移 体发生时间特性,增强运动间的区分度:缺点在于它 动人体或对其进行任何轮廓轨迹的建模,并且兴趣 通常需要将3D空间的轨迹映射到2D再进行数学 点是对显著区域的稀疏采样,因此其存储和计算代 价较小这类模型的缺点是无法解决动态背景干扰 化描述,这就造成了视角模糊性,进而增加了运动种 类间的模糊性.为了尽量减少轨迹的模糊性,很多学 问题.下面分2个部分论述这类模型的主要框架和 实现方法:兴趣点检测和局部区域描述, 者通过增加与运动轨迹相联系的描述信息,如局部
的运动不能大于 1 个像素,因此只有当相邻 2 帧间 的运动不大于 1 个像素时,标准光流算法才比较可 靠.Efros [9]于 2003 年率先在这个领域有所突破,他 先是利用跟踪算法锁定远距离的人体,然后再对跟 踪目标框内的视频流进行光流变化的检测和统计, 同时将光流变化划分为上下左右 4 个独立通道,获 取邻接跟踪通道中光流的时间相关数据作为最终的 运动描述子.如图 3 所示,其中图 3(a)为原始图像, 图 3(b)是光流图像,图 3( c) 是分离出来的 x 和 y 方向上的光流分量,图 3(d)是半波整流产生的 4 个 独立通道分量,图 3( e)是得到的模糊运动通道.这 种方法虽然没有利用轮廓分割,但是需要鲁棒的人 体跟踪,因此目标的全遮挡和尺度变化对检测性能 的影响很大.其后,Fathi [10] 提出了结合底层和中层 特征对视频中的运动区域进行整体描述,其中中层 特征就是采用上述光流方法. 图 3 光流及其光流描述子 Fig.3 Optical flow and its corresponding description 另一类光流描述方法是将光流算子作为局部特 征,通过经典统计方法训练分类器.Danafar [11] 将跟 踪通道内的局部光流按照横向和纵向划分为 2 个独 立通道进行特征直方图统计,将统计结果作为运动 描述算子,再利用 SVM 分类器实现最终的运动分类 和识别.实验表明该局部特征统计方法对环境噪声 和视角变化有良好的鲁棒性. 2.3 基于运动轨迹的运动描述方法 运动轨迹模型是利用时空描述子记录行动物体 的运动轨迹或肢体运动轨迹,通过轨迹特征来表述 相应的运动.其优点是可以记录关于目标运动的整 体发生时间特性,增强运动间的区分度;缺点在于它 通常需要将 3D 空间的轨迹映射到 2D 再进行数学 化描述,这就造成了视角模糊性,进而增加了运动种 类间的模糊性.为了尽量减少轨迹的模糊性,很多学 者通过增加与运动轨迹相联系的描述信息,如局部 特征、身体轮廓等,建立起三维综合信息,实现最终 的人体运动描述. Rao 和 Shah [12]于 2001 年研究了人手运动过程 中轨迹的视角不变性,他们的方法是通过计算轨迹 的时空曲率实现的,其中运动轨迹是通过肤色跟踪 器记录人手动作执行过程得到的.Sheikh [13] 于 2005 年提出了使用人体的多个肢点记录轨迹来表示某一 个人体的全身运动情况,其描述空间是包含了时间 轴的 4D 空间.这一方法的明显缺点是无法对长时间 视角变化的运动轨迹进行清晰有效的表示.为了探 索这一问题的解决方案,John [14] 于 2010 年提出了 一种多视角情况下跟踪铰链式人体运动的框架,该 方法在文中设定的一系列限制条件下取得了较好的 实验效果.Ali [15]则另辟蹊径,提出了获取关节轨迹 的混沌不变量作为不同运动之间可用于相互区分的 特征,该特征在 2 个经典的人体运动数据库上取得 了较好的运动分类效果.图 4 中描绘了人体跑步运 动的 3 种轨迹曲线[15] . 图 4 跑步运动的 3 种运动轨迹 Fig.4 Running trajectories toward three orientations 针对视频中存在的运动识别难点,Wang [16] 和 Raptis [17]分别于 2011 年和 2012 年提出利用视频中 局部特征的稠密运动轨迹进行运动识别和分析,这 是目前针对实际拍摄中相机抖动的 2 种性能较好的 方法.其缺点是计算和分析的代价较大,检测到的局 部特征维度较高,因此对计算机的计算能力要求高. 同时,所记录运动轨迹的稠密性决定了这类方法对 计算机的存储能力要求也很高. 2.4 基于兴趣点的运动描述方法 基于兴趣点的人体运动描述模型是建立在 2 个 关键步骤上的:兴趣点的检测和兴趣点周围局部区 域的描述.在现有的各种运动表示方法和模型中,基 于兴趣点的运动描述是研究者们最热衷的一类方 法.与前面提到的人体模型表示方法和轨迹表示方 法比较,兴趣点模型最大的优点就是不需要跟踪移 动人体或对其进行任何轮廓轨迹的建模,并且兴趣 点是对显著区域的稀疏采样,因此其存储和计算代 价较小.这类模型的缺点是无法解决动态背景干扰 问题.下面分 2 个部分论述这类模型的主要框架和 实现方法:兴趣点检测和局部区域描述. ·192· 智 能 系 统 学 报 第 8 卷
第3期 孙倩茹,等:视频序列的人体运动描述方法综述 ·193· 2.4.1兴趣,点检测 2006年,0 ikonomopoulos2提出了一种改进的兴 兴趣点是指当运动发生时在视频中检测到的运 趣点检测器,他利用光流信息来降低相机运动或背景 动显著位置的集合.对于不具备连续性的运动来说, 连续变化所带来的背景干扰问题具体算法是将光流场 很多基于模板匹配的方法会失效,此时兴趣点检测 中的热力熵信息与Dollar方法中的灰度梯度值相结合 显得尤为重要.更重要的是,兴趣点检测不需要考虑 之后对视频中的显著区域进行检测该方法使用的时空 视角变换和运动事件周期的变化近些年,在图像识 尺度是利用测试得到的最佳尺度.为了增强兴趣点的描 别领域出现了很多兴趣点定义和检测的方法,比较 述有效性,该方法还采用了聚类的手段进行特征选择, 著名的是Hais1)]于1988年提出的图像角点检测, 排除掉了一些低显著度的兴趣点」 2003年Laptev等19]将Harris角点检测拓展到三维 总的来说,这类显著区域检测器主要利用的是 视频数据的显著区域定位上,提出了3D时空兴趣 图像变化信息,因此其检测性能还是很好的但是这 点的检测方法.2D兴趣点完全忽略视频数据中的时 类检测器最大的缺陷是主要适用于静止相机拍摄的 域变化信息,而3D兴趣点周围局部区域内的三维 包含运动信息的视频.为此,2007年Wong和Cipol- 灰度数据无论是在时空域还是在时域上都包含了比 较丰富的像素变化信息,所以它们普遍具有很强的 la[提出将空间域检测和时间域检测分开进行的 特征描述能力并且应用广泛这种检测角点的缺点 思想,这样就可以在空间上做合理化的背景减除来 在于处理比较平滑少纹理的视频数据时,检测足够 提取主要运动区域,进而适应移动摄相机的情况, 多的有效显著区域是比较困难的.为了解决这一显 2.4.2局部区域描述 著点过于稀疏的问题,Dollar2o在2005年提出了一 近年来,在对兴趣点周围局部区域的描述,即局 种基于周期性运动的兴趣点检测方法(图5所示), 部特征的获取上,相关研究人员花费了很大的精力 他利用2D空间高斯平滑核函数g和1对1D时间 Schuldt!2)是这方面工作的先驱,他先是利用Laptev 高斯核函数h、h(式(1)和(2))构造了三维响应 的检测器19]检测兴趣点,再对兴趣点周围的立体区 函数R(式(3).所要获取的兴趣点个数是通过手动 域提取灰度值变化的标准化差分算子作为局部特 调整2个核函数的尺度参数来进行设定的.这个兴 征,最后经过聚类算法计算所有获取特征的统计直 趣点检测器虽然应用广泛:但是检测器本身还是存 方图这种方法可以避免摄像头移动带来的干扰,但 在一些缺点,比如运动物体边缘较为平滑(和背景 是对于相似度较高的运动(如跑步和单腿向前跳) 区分度很小)即灰度值变化较小时,检测足够的显 识别效果比较差. 著区域也是比较困难,另外,这种检测是在单一尺度 较先提出兴趣点检测算子的Dollar2o]同时提出 (固定尺度参数)下的 了局部特征描述的方法.他在文章中对3种不同的 [h (t:T,)=-cos(2m)e (1) 描述子进行了测试:像素级别的归一化描述子、亮度 (ht:,)=-sin(2m)e (2) 梯度描述子和基于光流统计的描述子.其中利用亮 R=(I*g*hn)2+(I*g*h)2. (3) 度梯度描述子的分类器达到了最好的运动识别效 果.该方法还利用PCA来降低特征维度,提高了计 算和存储的效率。 为了将检测到的显著区域较好地表示出来,以 达到较高的特征区分度,Scovanner24]在2007年提 出了改进的3D-SFT算子(图6所示),利用3个维 (a)动作l b)动作2 度的高斯差分结果计算局部灰度特征,这是一种时 间域上扩展的ST方法[2].此外,还有很多特征融 合的描述子建立方法[26]都取得了较高的人体运 动识别率 (c)动作3 (d)动作4 图5 芭蕾舞运动中的兴趣点检测和相应的分类标记 Fig.5 Interest points of Ballet motions and their corre- sponding labeled results 图63D-SFT描述算子的提取和建立过程 Fig.6 The extraction process of a 3D-SIFT descriptor
2.4.1 兴趣点检测 兴趣点是指当运动发生时在视频中检测到的运 动显著位置的集合.对于不具备连续性的运动来说, 很多基于模板匹配的方法会失效,此时兴趣点检测 显得尤为重要.更重要的是,兴趣点检测不需要考虑 视角变换和运动事件周期的变化.近些年,在图像识 别领域出现了很多兴趣点定义和检测的方法,比较 著名的是 Harris [18]于 1988 年提出的图像角点检测, 2003 年 Laptev 等[19]将 Harris 角点检测拓展到三维 视频数据的显著区域定位上,提出了 3D 时空兴趣 点的检测方法.2D 兴趣点完全忽略视频数据中的时 域变化信息,而 3D 兴趣点周围局部区域内的三维 灰度数据无论是在时空域还是在时域上都包含了比 较丰富的像素变化信息,所以它们普遍具有很强的 特征描述能力并且应用广泛.这种检测角点的缺点 在于处理比较平滑少纹理的视频数据时,检测足够 多的有效显著区域是比较困难的.为了解决这一显 著点过于稀疏的问题,Dollar [20] 在 2005 年提出了一 种基于周期性运动的兴趣点检测方法(图 5 所示), 他利用 2D 空间高斯平滑核函数 g 和 1 对 1D 时间 高斯核函数 hev、hod(式(1)和(2))构造了三维响应 函数 R(式(3)).所要获取的兴趣点个数是通过手动 调整 2 个核函数的尺度参数来进行设定的.这个兴 趣点检测器虽然应用广泛;但是检测器本身还是存 在一些缺点,比如运动物体边缘较为平滑(和背景 区分度很小) 即灰度值变化较小时,检测足够的显 著区域也是比较困难,另外,这种检测是在单一尺度 (固定尺度参数)下的. hev(t;τ,ω) = - cos(2πtω)e -t 2 / τ 2 , (1) hod(t;τ,ω) = - sin(2πtω)e -t 2 / τ 2 ; (2) { R = (I∗g∗hev) 2 + (I∗g∗hod ) 2 . (3) 图 5 芭蕾舞运动中的兴趣点检测和相应的分类标记 Fig.5 Interest points of Ballet motions and their corre⁃ sponding labeled results 2006 年,Oikonomopoulos [21] 提出了一种改进的兴 趣点检测器,他利用光流信息来降低相机运动或背景 连续变化所带来的背景干扰问题.具体算法是将光流场 中的热力熵信息与 Dollar 方法中的灰度梯度值相结合 之后对视频中的显著区域进行检测.该方法使用的时空 尺度是利用测试得到的最佳尺度.为了增强兴趣点的描 述有效性,该方法还采用了聚类的手段进行特征选择, 排除掉了一些低显著度的兴趣点. 总的来说,这类显著区域检测器主要利用的是 图像变化信息,因此其检测性能还是很好的.但是这 类检测器最大的缺陷是主要适用于静止相机拍摄的 包含运动信息的视频.为此,2007 年 Wong 和 Cipol⁃ la [22]提出将空间域检测和时间域检测分开进行的 思想,这样就可以在空间上做合理化的背景减除来 提取主要运动区域,进而适应移动摄相机的情况. 2.4.2 局部区域描述 近年来,在对兴趣点周围局部区域的描述,即局 部特征的获取上,相关研究人员花费了很大的精力. Schuldt [23]是这方面工作的先驱,他先是利用 Laptev 的检测器[19]检测兴趣点,再对兴趣点周围的立体区 域提取灰度值变化的标准化差分算子作为局部特 征,最后经过聚类算法计算所有获取特征的统计直 方图.这种方法可以避免摄像头移动带来的干扰,但 是对于相似度较高的运动(如跑步和单腿向前跳) 识别效果比较差. 较先提出兴趣点检测算子的 Dollar [20]同时提出 了局部特征描述的方法.他在文章中对 3 种不同的 描述子进行了测试:像素级别的归一化描述子、亮度 梯度描述子和基于光流统计的描述子.其中利用亮 度梯度描述子的分类器达到了最好的运动识别效 果.该方法还利用 PCA 来降低特征维度,提高了计 算和存储的效率. 为了将检测到的显著区域较好地表示出来,以 达到较高的特征区分度,Scovanner [24] 在 2007 年提 出了改进的 3D⁃SIFT 算子(图 6 所示),利用 3 个维 度的高斯差分结果计算局部灰度特征,这是一种时 间域上扩展的 SIFT 方法[25] .此外,还有很多特征融 合的描述子建立方法[26⁃27] 都取得了较高的人体运 动识别率. 图 6 3D⁃SIFT 描述算子的提取和建立过程 Fig.6 The extraction process of a 3D⁃SIFT descriptor 第 3 期 孙倩茹,等:视频序列的人体运动描述方法综述 ·193·