第7卷第6期 智能系统学报 Vol.7 No.6 2012年12月 CAAI Transactions on Intelligent Systems Dec.2012 D0I:10.3969/j.issn.1673-4785.201203013 网络出版t地址:htp://www.cnki.net/kcma/detail/23.1538.TP.20121116.1700.003.html 基于多尺度特征的双层隐马尔可夫模型 及其在行为识别中的应用 梅雪,胡石,许松松,张继法 (南京工业大学自动化与电气工程学院,江苏南京211816)】 摘要:借鉴人类视觉感知所具有的多尺度、多分辨性的特性,针对智能视频监控系统的人体运动行为识别,提出了 一种基于多尺度特征的双层隐马尔可夫模型.根据人体行为关键姿态数确定HM的状态数目,发橱人体运动行为 隐藏的多尺度结构间的关系,将运动轨迹和人体姿态边缘小波矩2个不同尺度特征应用于2层H“,提供更为丰富 的行为尺度间的相关信息.分别用Weizmann人体行为数据库和自行拍摄的室内视频,对人体运动行为识别进行仿 真实验,结果表明,五状态HMM模型更符合人体运动行为特点,基于多尺度特征的五状态双层隐马尔可夫模型具有 较高的识别率 关键词:双层隐马尔可夫模型;行为识别;多尺度特征;智能视频监控 中图分类号:TP391.4文献标志码:A文章编号:16734785(2012)06051206 Multi-scale feature based double-layer HMM and its application in behavior recognition MEI Xue,HU Shi,XU Songsong,ZHANG Jifa (College of Automation and Electrical Engineering,Nanjing University of Technology,Nanjing 211816,China) Abstract:Learning from multi-scale and multi-distinguish attributes of human beings'visual perception and aiming at human movement behavior recognition in intelligent video surveillance system,a double-layer hidden markov model (DL-HMM)is developed based on multi-scale behavior features.Considering the human behavior character- istics,the number of HMM states is according to the number of key gestures selected.Discovering the relationship between the multi-scale structures hidden in the human movement behavior,two different scale features-human mo- tion trajectory and wavelet moment of human gesture's edge,are applied respectively in two layers of DL-HMM,so as to provide more scale information about behavior.Experiments,using Israel Weizmann human behavior database and human actions indoor recorded by ourselves,show the five-state HMM more accords with the human motion be- havior characteristics,and the five-state DL-HMM based on multi-scale feature has a higher recognition rate com- pared with traditional methods using one layer HMM. Keywords:double-layer HMM (DL-HMM);behavior recognition;multi-scale feature;intelligent video surveillance 人体行为识别(human action recognition,HAR)问题之一).行为识别方法大致可分为2类23】:I) 是由视频分析人的行为,并形成一系列高层的描述 静态识别方法,如模板匹配方法和基于文法技术 方法,在智能视频监控、人机交互以及虚拟现实等领 (syntactic technique),该类方法的计算量比较小,但 域有着广泛的应用价值,是计算机视觉领域的热点 是鲁棒性较差;2)状态转移图模型方法,该方法将 行为的每一个姿态或运动状态作为状态图的一个节 收稿日期:2012-03-15.网络出版日期:2012-11-16. 点,通过某种概率将对应于各个姿势或状态节点之 基金项目:江苏省高校自然科学基金资助项目(09KJB510002):江苏 省博士后科研资助计划资助项目(1001027B);南京工业大 间的依存关系联系起来,这样任何人体行为运动序 学青年学科基金资助项目(39710006). 列可以看作在图中若干节点或状态之间的一次遍历 通信作者:梅雪.E-mail:mr@njut.ed.cm. 过程.应用较为广泛的2种状态图模型为隐马尔可
第6期 梅雪,等:基于多尺度特征的双层隐马尔可夫模型及其在行为识别中的应用 ·513· 夫模型(hidden Markov models,HMM)和动态贝叶 信号.视频连续帧中的运动人体目标可表示为参数 斯网络(dynamic Bayesian networks,DBNs),其中前 曲线.图1为几种行为轨迹 者是后者的一种特殊形式 基于状态图转移的行为识别方法大都是针对某 一特定尺度的行为特征分析实现的,如基于HMM 的轨迹识别45;基于肢体结构特征及其时空结构 关系的行为识别方法6.目前已有一些研究工作兼 (a)run (b)side (o)jup(d)“前进-下 蹲-前进” 顾了多个尺度特征.Lee等应用分层隐马尔可夫模 图1运动行为轨迹 型(hierarchical hidden Markov model,.HHMM)分析 Fig.1 Trajectory of movement 行为内在的层次结构1;Qian等在概率框架下提出 对于一个完整轨迹分割得到的5条子轨迹具有 了一种抽象隐马尔可夫模型(abstract hidden Markov 不同的序列长度l,(i=1,2,…,5).设m为每个子轨 models,AHMM),采用级联的形式对人的行为进行 迹上的采样点数.若l:>m,则在该段子轨迹中均匀 建模[1;Chen等提出了一种2层动态贝叶斯时间序 采集m个坐标点,即获得m帧图像序列.若l:<m 列模型(layered time series model,,LTSM),用尺度间 时,对数据先进行插值,使得轨迹长度达到m.对处 的相关特性分析步态例 理后的子轨迹数据分别进行主成分分析,提取前 兼顾多尺度特征的识别方法与人类视觉感知方 m/2个主成分系数作为特征向量, 法有类似之处,其灵活性很大程度上在于对目标识 在轨迹数据中变化明显的点处进行分割,一个 别时的多尺度性、多分辨性.本文借鉴人类视觉感知 行为事件的轨迹被分割成多段子轨迹.计算轨迹的 特点,建立了双层隐马尔可夫模型(double layer 速度(一阶导数)和加速度(二阶导数)来判断曲率 HMM,DL-HMM),分别将大尺度运动轨迹特征和小 的大小,当曲率大小大于设定阈值时,记录该点为疑 尺度姿态的边缘小波矩细节特征应用于2层HMM 似分割点.在每一个完整的行为段中,选取曲率最大 中.大尺度下,得到人的运动行为的概略特征;小尺 的4个疑似分割点作为最终的分割点,于是一段完 度下,利用具有代表性的关键姿态可以刻画行为的 整的行为事件轨迹被分割成为5段子轨迹.例如对 肢体等相对位置和结构的细节特征.同时,DL-HMM 于“前进一下蹲一前进”行为:人沿着走廊过道向前 的状态数根据行为的关键姿态数确定,降低了运算 行走,中间蹲下来,站起来然后继续往前行走.图2 复杂度,提高了识别率, 为该行为事件得到的轨迹示意图,图中标记①、②、 1行为多尺度特征 ③、④为曲率最大的4个分割点. 由于人体动作行为是一个复杂的运动过程,具 4 有大自由度和高度非线性的特点,以及关于行为、事 件的定义有着不同的概念,如何选择充分有效的表 达方式来描述场景中人的行为是非常困难的[45].本 第1帧 第顺 文首先获得视频帧中运动人体的剪影图,从而将行为 图2“前进一下蹲一前进”行为的近似轨迹 视频表示为剪影序列,以人体目标侧影序列的集合构 Fig.2 The approximate path diagram of "advance- 建基本的人体行为姿态的数据库, squat-advance"movement 1.1大尺度特征 1.2小尺度特征 以行为运动轨迹作为大尺度特征.选取各个瞬 用边缘轮廓小波矩特征来刻画在小尺度上单个 间时刻运动人体剪影的最小外界矩形框的中心来近 姿态的细节特征,求取步骤见文献[10],该特征建 似人体的轨迹坐标.在各个瞬间时刻,一个轨迹对应 立在多段定向距离矢量傅里叶描述子的基础上,具 的是人体质心位置的x和y坐标组成的二维V元向 有平移、缩放和旋转不变性.人体姿态用一个8维的 量{(X,Y),k=1,2,…,N}.以统一形式编码轨迹, 边缘轮廓小波矩特征表示「1] 对于帧序列,每一帧的运动人体均由二维图像的 由于在模型中采用的是2层行为状态来描述2个 坐标(x,y:)来表示,令f=(:,y:).人体运动行为 不同尺度上的运动细节,在2层的行为状态中分别采 轨迹的流向量序列可表示为T。={f,f,…,f,…, 用马尔可夫假设.运动轨迹和姿态之间具有很强的相 ∫n-1n},一个对象的轨迹基本上表示成了一个二维 关性,即2个尺度之间也存在依赖关系.通常情况下
514 智能系统学报 第7卷 在人体行为分析中,大尺度占有主导性,本文只考虑两 如果关键姿态的个数过多时,则运算量增大,以至于 尺度间大尺度特征对小尺度细节特征的影响。 影响算法的运算速度.本文选取一个行为由5个关 2应用多尺度特征的DL-HMM 键姿态组成,这5个关键姿态分别来自于5段子轨 迹. 2.1模型描述 用12=(A0,BD,TD,A2),B2,2), 根据行为的特点,每一个行为事件可以由若干 H1,2)表示DL-HMM,它是一个无回路的五状态拓 关键姿态来描述,这些关键姿态均分布于一个行为 扑结构,每一个状态均不能返回到前一状态,A)、 事件的各段子轨迹组成的子事件中,其余姿势认为 B)、π⑧分别表示对应层的状态转移矩阵、状态输 是这些关键姿势的过渡.关键姿态个数在一定程度 出概率矩阵和初始状态的概率分布矩阵.图3为应 上决定了识别率的高低和运算量的大小,若关键姿 用多尺度特征的DL-HMM结构图. 态数过少会无法正确表征行为特征,使识别率降低; b(c)...b(c) b(c)...bic) b,(c).b,(c) am a ·大尺度特征 S 卡知为O a a az a a aos 小尺度特征 S b(o)...b(o) b(o)...bio) b(o)..b(o) Argm axP(O) 图3应用多尺度特征的双层隐马尔可夫模型 Fig.3 Double-layer hidden Markov model 「h4:2 h) 0 0 0 对于行为J,其参数集合)为: 0 hs)he 0 0 1)状态转移矩阵A,在第i层DL-HMM中,当 H(1,2) 0 0 h码2h码 0 前状态只能转移到下一状态,而不能返回到前一状 0 0 0 h22 态,例如a8=P(S0=S1S81=S),i=1,2. 0 0 0 0 2)状态输出概率矩阵B,表示当前时刻该状态 h) 式中:1,表示在上层的子轨迹序列状态条件下存在 输出某一观察值的概率.定义为 下层的行为姿态数字序列的概率,例如其中2”= b0(c)…b0(c4)1 P(S=S1S2)=S).在参数训练中初始值选择为 Bi= Γ0.50.50001 b(c)… Bs (ci) 00.50.500 式中:b(cn)=P(cnIS0=S2),i=1,2. H12)= 000.50.50 3)初始状态概率分布π,由于状态的转移总是 0 00 0.50.5 从S。状态开始,因此有下面定义:={=1, L 00000.5J π=0,…,mg9=0,i=1,2. 设观测序列为0={01,02,…,0},其中每一 4)定义DL-HMM中上层HMM对下层HMM的 个观察值均由基于大尺度的轨迹特征和基于小尺度 条件概率矩阵为H1): 的小波矩特征的观察值构成,用O,={c,c}表示t 时刻观察序列中的观察值.观测向量长度为T的状
第6期 梅雪,等:基于多尺度特征的双层隐马尔可夫模型及其在行为识别中的应用 ·515· 态序列,S={(S,S),(S2,S),…,(S,S)}.于 于5个分割出的子行为.实验中,使用K-means聚类 是,给定一系列未知的人体行为{01,02,…,0n}和 算法,自动从每一类行为的子姿态序列中选择一个 描述行为J的参数集合2”.未知行为0。= 关键姿势.选用Weizmann人体动作行为数据库10 {(c1,c),(c吃,c),…,(c,c)}和行为J的多尺度 种人体动作行为:bend、jack、jump1、jump2、un、side、 特征HMM的相似度由贝叶斯准则公式P(O.I walk、wave1、wave2、skip.这l0类动作行为均是由9 12))获得.前向变量(i,)表示t时刻在某一状 个人完成的,一共有90段视频: 态(i,)中产生观察序列的概率a心,(i,)由前向算法 分别运用三状态和五状态的隐马尔可夫模型, (forward algorithm)推导出: 对Weizmann人体行为数据库进行识别.图4所示为 a(ij)=m”m2b"(c)b2(c),1≤iJ≤5, bend行为的5个关键姿势.利用交叉验证方法,识 4(i》=b四(c)b②(c) 别率如图5所示,相比三状态模型的平均识别率 Σ=[a(m,n)a,ahg2]. (1) 88.75%来说,应用5个关键姿态的五状态HMM能 够到达94.61%的平均识别率 似然概率由式(1)得出. P(0.1i2)=∑[a(m,n)]. m,4 2.2模型参数的训练和重估 利用已知的行为序列来训练应用多尺度特征 HMM的参数集合入,2),对每一层HMM用Baum- 图4Bend行为的5个关键姿势 Welch算法估算出状态转移概率a⑧.、输出概率 Fig.4 Five key postures of bend behavior b9(c)以及上层HMM对下层的条件概率2. T- ∑(m,) ■三状态HMM ☐i状态IIMM a= 1.0 (m T bm(c-合(m,)o",6)门 run walk skip jack jumpljump2 sid wave wave?bend ∑(i) 图5BME-SCHMM与本文的五状态HMM实验结果 b2(c)= 左E(o”,] 的对比 Fig.5 Experimental results contrast of five movement 蓝0) between BME-SCHMM and ways of this paper 3.2室内人体动作行为识别 ∑12(n,) 在实验室内,固定摄像头位置,拍摄了5类行为 = ∑"(n) 视频,用于仿真实验,这些行为包括: 式中:(i,)表示在给定模型2)和观察值序列 1)行为0:行人向前直行,行走路线为直线前 O,t时刻处于状态i,t+1时刻处于状态j的期望概 进; 率。6(0,c)表示给定模型42产生观察值序列 2)行为1:行人向前直行,中间直立向上跳一 的最佳转换序列的概率 下,然后继续往前行走; 3)行为2:行人向前直行,中间突然摔倒躺在地 3仿真实验及分析 上,爬起来后继续往前行走; 3.1DL-HMM状态数选择 4)行为3:行人向前直行,中间弯下腰,直腰后 首先,通过实验验证DL-HMM模型的状态数的 继续往前行走; 选择对识别结果的影响.分别运用三状态和五状态 5)行为4:行人向前直行,中间蹲下来,站起来 建立隐马尔可夫模型,对于一个行为周期为T的行 后继续往前行走, 为,五状态HMM模型中的5个关键姿态,分别取自 实验视频是采集于10个不同的人,分别重复做 4次上述5种行为,于是每种行为均有40组样本
·516 智能系统学报 第7卷 图6所示为Action4行为的5个关键姿势 行为多层次结构特征和其相关性,提出了一种基于 多尺度特征双层马尔可夫模型,将人体运动轨迹和 小波矩特征应用在HMM中,提供了更为丰富的行 为尺度间的相关信息.同时,DL-HMM的状态数根 据行为的关键姿态数确定,使模型结构也具有清晰 的物理意义,仿真实验获得了较好的识别结果, 参考文献: [1]黎洪松,李达.人体运动分析研究的若干新进展[J].模 图6行为4的5个关键姿势 式识别与人工智能,2009,22(1):70-78. Fig.6 Five key postures of behavior of Action4 LI Hongsong,LI Da.Some advances in human motion analy- 对上述5种连续的行为动作序列进行轨迹提 sis[J].Pattern Recognition and Aritificial Intelligence, 取,检测轨迹的突变点作为分割点.若运动轨迹无明 2009,22(1):70-78. 显的分割点,即轨迹曲线的曲率无明显变化,则认为 [2]WEINLAND D,RONFARD R.A survey of vision based 该行为是直线前行行为Action(0.对另外4种行为的 methods for action representation,segmentation and recog- 轨迹及边缘小波矩特征进行提取,并对其应用多尺 nition[J].Computer Vision and Image Understanding, 度特征DL-HMM进行建模,5种行为数据,一半用于 2011,115(2):224-241. [3]PAU-CHOO C,De CHIN L.A daily behavior enabled hid- 训练,一半用于验证,识别结果如表1,得到92.5% den Markov model for human behavior understanding[J]. 的平均识别率.为了横向比较DL-HMM的识别效 Pattern Recognition,2008,41(2):1572-1580. 果,对HMM和2层的HHMM在同样的数据集上, [4]NASCIMENTO C J,FIGUEIREDO A M T,MARQUES S 应用相同的特征进行了测试.其中HMM包含6~8 J.Trajectory classification using switched dynamical hidded 个状态,HHMM每层包含4~5个状态.HMM对5种行 Markov models [J].IEEE Trans on Image Processing, 为的平均识别率为79.5%,HHMM的平均识别率为 2010,19(5):1338-1348. 84.5%.HHMM虽然是分层模型,但仅从单一的观测序 [5]HERVIEU A,BOUTHEMY P,CADRE J P L.A HMM 列中实现模型学习,导致识别率低于DL-HMM based method for recognizing dynamic video contents from 对于N个状态,序列长度为T的HMM,所用到 trajectories[C]//Proceedings of International Conference 的前向后向算法的计算复杂度均为O(W2T).在应 on Image Processing.San Antonio,USA,2007:533-536. [6]UDDIN Z,NGUYEN T,JEONG K,et al.Human activity 用Baum-Welch算法模型进行参数的训练和重估, recognition using body joint-angle features and hidden 以及计算特定HMM下可观察序列概率时,都使用 Markov model[J].Electronics and Telecommunications 前向后向算法,所以状态数是决定模型计算复杂度 Research Institute,2011,33(4):569-579. 的关键参数.本文方法根据动作行为本身特点确定 [7]YOUNG L,SUNG C.Activity recognition using hierachical 状态数目,简化了模型,且具有较高的识别率。 hidden Markov models on a smartphone with 3D accelerom- 表15种人体动作行为的识别结果行为类别 eter[C]//6th Interational Conference on HAIS.Berlin: Table 1 Five recgnition results of human behavior Springer-Verlag,2011:460-467. 行为 识别结果 [8]钱堃,马旭东,戴先中.基于抽象隐马尔可夫模型的运动 识别率/ 类别行为0行为1行为2行为3行为4 % 行为识别方法[J].模式识别与人工智能,2009,22 (3):433439. 行为0 40 0 0 0 0 100.0 QIAN Kun,MA Xudong,DAI Xianzhong.Motion activity rec 行为1 1 39 0 0 0 97.5 ognition based on abstract hidden Markov model[J].Pattern 行为2 0 0 36 2 2 90.0 Recognition and Aritificial Intelligence,2009,22(3):433- 行为3 0 1 1 35 3 87.5 439. 行为4 0 0 0 36 90.0 [9]CHEN Changhong,LIANG Jimin,ZHU Xiuchang.Gait rec- ognition based on improved dynamic Bayesian networks[J]. 4结束语 Pattern Recognition,2011,44(4):988-995. [10]胡石,梅雪.人体行为动作的形状轮廓特征提取及识别 本文借鉴人类视觉感知的特点,兼顾人体运动 [J].计算机工程,2012,38(4):266-268