第10卷第2期 智能系统学报 Vol.10 No.2 2015年4月 CAAI Transactions on Intelligent Systems Apr.2015 D0:10.3969/j.issn.1673-4785.201407009 网络出版地址:http://www.enki..net/kcms/detail/23.1538.TP.20150302.1106.008.html 基于语义分层的行为推理框架 聂慧饶,陶霖密 (清华大学计算机科学与技术系,北京100084) 摘要:人类行为理解是实现“人本计算”模式的基础,其本质在于获取行为的语义,即由动作特征推导人体的行为, 需要跨越两者之间的语义鸿沟:为此提出了环境上下文进行隐式建模的方法,并基于此提出了语义分层的行为推理 框架,该框架使用了从模糊语义到确定语义的渐近式推理。根据知识将特征合理地分为多个层次,系统则根据当前 状态去提取所需要的特征,推理当前可能的候选行为集:并由该候选行为集指导处理模块,更新特征集并进行新一 轮的推理,反复迭代至推理完成。应用提出的环境建模方法和渐近推理框架可以有效地实现行为理解。使用隐式环 境方法可以提高行为理解的准确率:渐近式推理框架可以避免传统推理方法无差别地提取所有特征,从而提升了推 理效率。 关键词:行为理解:特征行为关系:环境上下文:语义分层:分层推理框架 中图分类号:TP301.6文献标志码:A文章编号:1673-4785(2015)02-0178-09 中文引用格式:聂慧饶,陶霖密.基于语义分层的行为推理框架[J].智能系统学报,2015,10(2):178-186. 英文引用格式:NIE Huirao,TAO Linmi..Inference framework for activity recognition based on multiple semantic layers[J】.CAAI Transactions on Intelligent Systems,2015,10(2):178-186. Inference framework for activity recognition based on multiple semantic layers NIE Huirao,TAO Linmi (Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China) Abstract:Human activity recognition is the core of the implementation of human-centered computing(HCC), whose nature is to acquire activities'semanteme.The basic problem is the semantic gap between observable actions and human activities.They should be bridged by environment context based inference.In this paper,a method is proposed to model the environment context implicitly.Further,a novel semanteme multilayered activity inference framework was presented,which divided the inferring process into 2 stages.One stage used to acquire fuzzy seman- teme and another one to acquire accurate semanteme.The feature set was divided into different subsets according to knowledge.The system extracts the corresponding features according to the current state and obtains the possible set of candidate activities that can instruct the system to update the current feature set.Update the features set and infer it,the process continues until the inference is completed.The modeling method and progressive inference frame- work proposed could handle the activity-recognition problem well.Implicitly modeling the environment context could improve the accuracy of activity recognition.The progressive framework can improve the efficiency by avoiding ex- tracting all features indistinguishably,whose validity was proven in the data set. Keywords:activity recognition;feature activity relation;environment context;semantic layer;multilayer inference framework 收稿日期:2014-07-04.网络出版日期:2015-03-02. Pantic等)提出了“人本计算”(human-centered 基金项目:国家“863”计划资助项目(2012AA011602):国家自然科学基 金资助项目(61272232). computing,HCC)的概念;这种模式被认为是未来的计 通信作者:聂慧饶.E-mail:sangoblin@yeah..net
第 10 卷第 2 期 智 能 系 统 学 报 Vol.10 №.2 2015 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2015 DOI:10.3969 / j.issn.1673⁃4785.201407009 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20150302.1106.008.html 基于语义分层的行为推理框架 聂慧饶,陶霖密 (清华大学 计算机科学与技术系,北京 100084) 摘 要:人类行为理解是实现“人本计算”模式的基础,其本质在于获取行为的语义,即由动作特征推导人体的行为, 需要跨越两者之间的语义鸿沟;为此提出了环境上下文进行隐式建模的方法,并基于此提出了语义分层的行为推理 框架,该框架使用了从模糊语义到确定语义的渐近式推理。 根据知识将特征合理地分为多个层次,系统则根据当前 状态去提取所需要的特征,推理当前可能的候选行为集;并由该候选行为集指导处理模块,更新特征集并进行新一 轮的推理,反复迭代至推理完成。 应用提出的环境建模方法和渐近推理框架可以有效地实现行为理解。 使用隐式环 境方法可以提高行为理解的准确率;渐近式推理框架可以避免传统推理方法无差别地提取所有特征,从而提升了推 理效率。 关键词:行为理解;特征行为关系;环境上下文;语义分层;分层推理框架 中图分类号: TP301.6 文献标志码:A 文章编号:1673⁃4785(2015)02⁃0178⁃09 中文引用格式:聂慧饶,陶霖密. 基于语义分层的行为推理框架[J]. 智能系统学报, 2015, 10(2): 178⁃186. 英文引用格式:NIE Huirao, TAO Linmi. Inference framework for activity recognition based on multiple semantic layers[J]. CAAI Transactions on Intelligent Systems, 2015, 10(2): 178⁃186. Inference framework for activity recognition based on multiple semantic layers NIE Huirao, TAO Linmi (Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China) Abstract:Human activity recognition is the core of the implementation of human⁃centered computing ( HCC), whose nature is to acquire activities′ semanteme. The basic problem is the semantic gap between observable actions and human activities. They should be bridged by environment context based inference. In this paper, a method is proposed to model the environment context implicitly. Further, a novel semanteme multilayered activity inference framework was presented, which divided the inferring process into 2 stages. One stage used to acquire fuzzy seman⁃ teme and another one to acquire accurate semanteme. The feature set was divided into different subsets according to knowledge. The system extracts the corresponding features according to the current state and obtains the possible set of candidate activities that can instruct the system to update the current feature set. Update the features set and infer it, the process continues until the inference is completed. The modeling method and progressive inference frame⁃ work proposed could handle the activity⁃recognition problem well. Implicitly modeling the environment context could improve the accuracy of activity recognition. The progressive framework can improve the efficiency by avoiding ex⁃ tracting all features indistinguishably, whose validity was proven in the data set. Keywords:activity recognition; feature activity relation; environment context; semantic layer; multilayer inference framework 收稿日期:2014⁃07⁃04. 网络出版日期:2015⁃03⁃02. 基金项目:国家“863”计划资助项目(2012AA011602);国家自然科学基 金资助项目(61272232). 通信作者:聂慧饶. E⁃mail:sangoblin@ yeah.net. Pantic 等[1] 提出了“人本计算” (human⁃centered computing,HCC)的概念;这种模式被认为是未来的计
第2期 聂慧饶,等:基于语义分层的行为推理框架 ·179· 算模式,在该模式当中,计算被隐藏在居住空间的后 方面总结了很多有效的算法和模型,如隐马尔可夫 台,而其计算结果则在日常生活当中与人交织在一 模型3】、贝叶斯网络[4]、条件随机场[5]、最近邻 起。与过去“以计算机为中心”的计算模式相比,HCC 法[16]等。 使用了更接近人类交互方式的方法,如理解人类的行 但是当前的推理方法当中均未考虑对行为的语 为和情感等,从而取代传统的键盘和鼠标输入;人类 义进行分层,并根据需要从环境当中提取特征,而是 得以从过去僵化的输入环境当中解放出来,而使用更 尽可能多地从环境当中提取特征后进行行为推理。 加贴近其天性的自然方式与计算机进行交互。 2 环境上下文模型 HCC的研究重点在于使计算设备与传感设备 进行协同工作以便主动感知场景中的用户信息,分 对行为进行推理时,若能引入人所处的环境上 析用户需求并完成相关任务[)。因此,利用计算设 下文,则可以提高推理结果的精度。不少研究者在 备和传感器协同工作以理解人类的行为是HCC的 开展他们的工作时也引入了环境上下文的概念,但 核心组成部分。针对传统行为理解系统无差别提取 是他们通常是根据本体论将环境上下文显式地建立 场景当中所有特征的弊病,本文对行为所搭载的语 在了模型当中78】,该方法的缺点是:1)模型的可 义进行分层,并相应地对场景中的特征进行了分类, 扩展性差,一旦环境有更改,需要重新建立一套模 从而提出了一个由粗至精的逐步获取行为语义的推 型:2)难以将时间上下文同时引入到模型当中。本 理框架。 文当中为了使环境上下文便于计算,未将其作为显 式的模型节点,而是将其作为隐式的观测特征用于 1 研究现状 辅助行为的推理。 行为理解是计算机视觉领域的传统问题),其 2.1特征的属性 推理方式可以大致分为基于规则的推理和基于学习 当前的相关工作大都采用了分层模型来表示行 的推理4)。基于规则是指研究者根据自己对行为 为,并将行为定义成了语义的携带者[1921]:行为通 逻辑的认识,并利用逻辑推理的方法对行为进行理 常都是为了满足用户需求而发生的一系列动作。伴 解。该方法通常包含以下步骤:1)将所有可能的需 随着行为的发生,通常可以观测到与该行为相关的 要理解的行为囊括到模型库当中,并利用逻辑形式 特征。而行为理解需要处理的问题就是根据所观测 对这些行为进行定义和描述:2)整理所获得的传感 的特征还原出用户的行为。 信息,并将其转换为逻辑术语和公式;3)根据上一 特征作为样本的表现形式,可以用于将一个样本 步当中的术语和公式,进行包括演绎、归纳和推断等 与其他样本进行区分,例如,发生吃饭行为时,手中的 的逻辑推理,以便于根据所观察的信息寻找最匹配 餐具可以作为用来表征该行为的重要特征。因此,特 的行为或者行为集(模型库的子集)[s] 征可以视作对样本的某种属性的观测。理论上,若能 基于学习的推理则又可进一步细分为无监督学 获取正确表达某个样本的完整的特征集,则可以以极 习和有监督学习。其中无监督的学习指的是从未进 高的置信度识别该样本。但是在基于视觉的处理方 行人工标注的数据当中直接建立起模型对行为进行 法当中,系统可以从视频图像中提取出大量不同的特 判别,其通用原则是根据系统当前的状态并结合对 征,如颜色直方图、SFT特征、HOG特征等,而且基于 系统的观察对系统的状态进行随时更新,模型中每 视觉特征进行分类得到的结果通常具有不确定性。 个动作可能发生的概率均是由人工进行赋予的;无 因此,当样本集的规模变得很大时,即面临着组合爆 监督学习的过程通常有:1)采集原始传感数据(未 炸的问题,特征的规模会增长得比样本更快,很难一 被标注)[8]:2)处理未标注的数据并将其转换成相 次性将视频中所有的特征悉数提取出来。 应特征;3)采用聚类等手段建立起判别模型[91o】」 在本文当中,根据特征是否被行为集中的所有 与无监督的学习相比,有监督的学习必须基于已经 元素共享将其分为:公有特征和私有特征,其中公有 标注的数据(通常是人工标注),而后根据数据和行 特征属于某个行为集中的所有行为,即所有行为发 为集建立起合理的推理模型,并通过标注数据训练 生时该类特征都可被观测(但是特征值不同);私有 出模型的参数。当前通过有监督的学习得到推理模 特征则是某个行为所特有,通常可以用于证明或者 型参数的方法是最为常见的,并且研究者们也在此 证伪该行为是否发生。显然公有特征集和私有特征
算模式,在该模式当中,计算被隐藏在居住空间的后 台,而其计算结果则在日常生活当中与人交织在一 起。 与过去“以计算机为中心”的计算模式相比,HCC 使用了更接近人类交互方式的方法,如理解人类的行 为和情感等,从而取代传统的键盘和鼠标输入;人类 得以从过去僵化的输入环境当中解放出来,而使用更 加贴近其天性的自然方式与计算机进行交互。 HCC 的研究重点在于使计算设备与传感设备 进行协同工作以便主动感知场景中的用户信息,分 析用户需求并完成相关任务[2] 。 因此,利用计算设 备和传感器协同工作以理解人类的行为是 HCC 的 核心组成部分。 针对传统行为理解系统无差别提取 场景当中所有特征的弊病,本文对行为所搭载的语 义进行分层,并相应地对场景中的特征进行了分类, 从而提出了一个由粗至精的逐步获取行为语义的推 理框架。 1 研究现状 行为理解是计算机视觉领域的传统问题[3] ,其 推理方式可以大致分为基于规则的推理和基于学习 的推理[ 4 ] 。 基于规则是指研究者根据自己对行为 逻辑的认识,并利用逻辑推理的方法对行为进行理 解。 该方法通常包含以下步骤:1)将所有可能的需 要理解的行为囊括到模型库当中,并利用逻辑形式 对这些行为进行定义和描述;2)整理所获得的传感 信息,并将其转换为逻辑术语和公式;3) 根据上一 步当中的术语和公式,进行包括演绎、归纳和推断等 的逻辑推理,以便于根据所观察的信息寻找最匹配 的行为或者行为集(模型库的子集) [ 5⁃7 ] 。 基于学习的推理则又可进一步细分为无监督学 习和有监督学习。 其中无监督的学习指的是从未进 行人工标注的数据当中直接建立起模型对行为进行 判别,其通用原则是根据系统当前的状态并结合对 系统的观察对系统的状态进行随时更新,模型中每 个动作可能发生的概率均是由人工进行赋予的;无 监督学习的过程通常有:1)采集原始传感数据(未 被标注) [ 8 ] ;2)处理未标注的数据并将其转换成相 应特征;3) 采用聚类等手段建立起判别模型[9⁃10 ] 。 与无监督的学习相比,有监督的学习必须基于已经 标注的数据(通常是人工标注),而后根据数据和行 为集建立起合理的推理模型,并通过标注数据训练 出模型的参数。 当前通过有监督的学习得到推理模 型参数的方法是最为常见的,并且研究者们也在此 方面总结了很多有效的算法和模型,如隐马尔可夫 模型[11⁃13 ] 、贝叶斯网络[ 14 ] 、条件随机场[15 ] 、最近邻 法[16 ]等。 但是当前的推理方法当中均未考虑对行为的语 义进行分层,并根据需要从环境当中提取特征,而是 尽可能多地从环境当中提取特征后进行行为推理。 2 环境上下文模型 对行为进行推理时,若能引入人所处的环境上 下文,则可以提高推理结果的精度。 不少研究者在 开展他们的工作时也引入了环境上下文的概念,但 是他们通常是根据本体论将环境上下文显式地建立 在了模型当中[17⁃18 ] ,该方法的缺点是:1) 模型的可 扩展性差,一旦环境有更改,需要重新建立一套模 型;2)难以将时间上下文同时引入到模型当中。 本 文当中为了使环境上下文便于计算,未将其作为显 式的模型节点,而是将其作为隐式的观测特征用于 辅助行为的推理。 2.1 特征的属性 当前的相关工作大都采用了分层模型来表示行 为,并将行为定义成了语义的携带者[19⁃21 ] ;行为通 常都是为了满足用户需求而发生的一系列动作。 伴 随着行为的发生,通常可以观测到与该行为相关的 特征。 而行为理解需要处理的问题就是根据所观测 的特征还原出用户的行为。 特征作为样本的表现形式,可以用于将一个样本 与其他样本进行区分,例如,发生吃饭行为时,手中的 餐具可以作为用来表征该行为的重要特征。 因此,特 征可以视作对样本的某种属性的观测。 理论上,若能 获取正确表达某个样本的完整的特征集,则可以以极 高的置信度识别该样本。 但是在基于视觉的处理方 法当中,系统可以从视频图像中提取出大量不同的特 征,如颜色直方图、SIFT 特征、HOG 特征等,而且基于 视觉特征进行分类得到的结果通常具有不确定性。 因此,当样本集的规模变得很大时,即面临着组合爆 炸的问题,特征的规模会增长得比样本更快,很难一 次性将视频中所有的特征悉数提取出来。 在本文当中,根据特征是否被行为集中的所有 元素共享将其分为:公有特征和私有特征,其中公有 特征属于某个行为集中的所有行为,即所有行为发 生时该类特征都可被观测(但是特征值不同);私有 特征则是某个行为所特有,通常可以用于证明或者 证伪该行为是否发生。 显然公有特征集和私有特征 第 2 期 聂慧饶,等:基于语义分层的行为推理框架 ·179·
·180 智能系统学报 第10卷 集的选取依赖于特定的应用场景,并且可以根据应 3分层的语义推理及实现 用需要对行为集进行多层次的分层,从而实现推理 层次更加丰富的推理过程。 3.1分层的语义推理 2.2可计算的环境上下文 前文当中根据特征是否被行为集中的所有元素 显然所有的行为发生都伴随着环境上下文,因 所共享将其分成了公有特征和私有特征2类。行为 此环境上下文应该属于公有特征。环境上下文是一 是具确定语义的,但是在观测到属于某个行为的所 个很抽象的概念,为了能将其予以形式化的表达,需 有特征前,尤其若其私有特征尚未被观测,则该行为 要考虑用户在室内的交互方式以及交互对象:通常 的确定语义将无法被推断,其所携带的语义将变得 用户在室内的交互对象主要是各色家电以及家具, 模糊不清,从而该行为的确定语义将退化成为模糊 而用户的交互方式又由他当前的交互对象所决定, 语义。图2中所示,用户分别发生了2个行为,即喝 例如,用户处在卧室当中,则其可能在与床进行交 水和喝饮料:这2个行为的公有特征即为手中持有 互,交互方式则是用户躺在床上。而这些家具或者 物品,且在手部在向面部运动,而喝水的私有特征则 家电与特定行为的发生具有很强的关联,比如餐桌 是手中物品为水杯,喝饮料的私有特征为手中物品 附近吃饭发生的概率很高:于是可以将它们的中心 为饮料。显然这2个行为的公有特征是几乎一致 作为某些行为发生的概率中心,而随着人体逐渐的 的,区分它们的关键因素在于这2个行为不同的私 远离该行为发生的概率会逐渐衰减。 有特征:但是公有特征的观测可以排除用户发生看 因此,可以将家具和家电等潜在交互对象的位 电视等其他行为。 置予以标定(如图1所示,图中的圆形和方形分别 图2(a)对喝水和喝饮料的私有特征进行了模糊 代表了室内的餐桌、冰箱等交互对象),并结合人体 化处理(即不再观测这2个行为的私有特征)后,喝水 的当前位置作为观测的特征:在实现时,通常使用人 和喝饮料均退化成为语义模糊不清的动作,该动作表 体位置与各个交互对象间的坐标差值(或基于差值 明人手中有物品且在向面部运动。从中可以看出,行 的非线性变换)作为观测特征,而不是使用人体到 为的公有特征即表达了行为的模糊语义,而辅以相应 交互对象中心的欧氏距离,以考虑交互对象的形状 的私有特征后行为的语义才能被确定。 对于行为发生的概率衰减的影响。 (a)原图 (b)观测私有特征 图2由粗至精的推理过程 Fig.2 Inference process from fuzzy semantic logic to definite semantic logic 因此,提出了一个从模糊语义逐渐到确定语义 的推理框架,即首先根据观察到的公有特征筛选出 图1室内家具布置标定示意图 符合当前模糊语义的候选行为集合,A,然后根据A Fig.1 Calibration of the indoor layout of the furniture 中的成员做证据广播,即去观测该成员的相应私有 特征,并最终得到当前用户的行为或者行为集A
集的选取依赖于特定的应用场景,并且可以根据应 用需要对行为集进行多层次的分层,从而实现推理 层次更加丰富的推理过程。 2.2 可计算的环境上下文 显然所有的行为发生都伴随着环境上下文,因 此环境上下文应该属于公有特征。 环境上下文是一 个很抽象的概念,为了能将其予以形式化的表达,需 要考虑用户在室内的交互方式以及交互对象;通常 用户在室内的交互对象主要是各色家电以及家具, 而用户的交互方式又由他当前的交互对象所决定, 例如,用户处在卧室当中,则其可能在与床进行交 互,交互方式则是用户躺在床上。 而这些家具或者 家电与特定行为的发生具有很强的关联,比如餐桌 附近吃饭发生的概率很高;于是可以将它们的中心 作为某些行为发生的概率中心,而随着人体逐渐的 远离该行为发生的概率会逐渐衰减。 因此,可以将家具和家电等潜在交互对象的位 置予以标定(如图 1 所示,图中的圆形和方形分别 代表了室内的餐桌、冰箱等交互对象),并结合人体 的当前位置作为观测的特征;在实现时,通常使用人 体位置与各个交互对象间的坐标差值(或基于差值 的非线性变换) 作为观测特征,而不是使用人体到 交互对象中心的欧氏距离,以考虑交互对象的形状 对于行为发生的概率衰减的影响。 图 1 室内家具布置标定示意图 Fig.1 Calibration of the indoor layout of the furniture 3 分层的语义推理及实现 3.1 分层的语义推理 前文当中根据特征是否被行为集中的所有元素 所共享将其分成了公有特征和私有特征 2 类。 行为 是具确定语义的,但是在观测到属于某个行为的所 有特征前,尤其若其私有特征尚未被观测,则该行为 的确定语义将无法被推断,其所携带的语义将变得 模糊不清,从而该行为的确定语义将退化成为模糊 语义。 图 2 中所示,用户分别发生了 2 个行为,即喝 水和喝饮料;这 2 个行为的公有特征即为手中持有 物品,且在手部在向面部运动,而喝水的私有特征则 是手中物品为水杯,喝饮料的私有特征为手中物品 为饮料。 显然这 2 个行为的公有特征是几乎一致 的,区分它们的关键因素在于这 2 个行为不同的私 有特征;但是公有特征的观测可以排除用户发生看 电视等其他行为。 图 2(a)对喝水和喝饮料的私有特征进行了模糊 化处理(即不再观测这 2 个行为的私有特征)后,喝水 和喝饮料均退化成为语义模糊不清的动作,该动作表 明人手中有物品且在向面部运动。 从中可以看出,行 为的公有特征即表达了行为的模糊语义,而辅以相应 的私有特征后行为的语义才能被确定。 图 2 由粗至精的推理过程 Fig.2 Inference process from fuzzy semantic logic to definite semantic logic 因此,提出了一个从模糊语义逐渐到确定语义 的推理框架,即首先根据观察到的公有特征筛选出 符合当前模糊语义的候选行为集合c A,然后根据c A 中的成员做证据广播,即去观测该成员的相应私有 特征,并最终得到当前用户的行为或者行为集 Acurr ·180· 智 能 系 统 学 报 第 10 卷
第2期 聂慧饶,等:基于语义分层的行为推理框架 ·181- (用户可以同时发生多个行为)。事实上人的推理 到(0,1)的概率值,也便于处理同一时刻下多个不 过程也并非一次完成的,人们总是会根据当前观测 同行为的发生。 的特征对即将发生的行为作出初步的判断,而后根 愿 =oAj=1 多路视频数据 据初步判断的结果去寻找可以证明或者证伪初步判 断的新的特征。例如,甲向乙伸出手时,乙初步判断 过 确定当前公有观测特征F 程 甲想要同乙握手或者攻击乙,此时乙开始寻找额外 模 的特征,若甲的手向乙的运动而去,则甲想要同乙握 糊 P(dF) 确定新的公有观 i=1,2N) 测特征Fj+1 手,反之则是要攻击乙。 假定系统中共有N个行为需要识别,将该原始 确定新的候选集 行为集记作A={a1,a2,…,ax};系统可以获得的总 =J-1 特征数为M个,总特征集记.F={fi,f,…,f}。这 y 些特征包含了公有特征集以及私有特征集中的元 获 确定中的每个元素的专有特征 取 素,其中月={2,…,月w}G=1,2,…,Jk= 1,2,…,K)为公有特征集,含有M个元素,而J为 定 P(d F) 得到Am (i=1,2,W 推理的总次数,K为第j次推理时候选行为集合。州 义 的总个数:私有特征集针对,A中的每个元素进行定 图3分层推理流程图 义,因此可以得到N个行为的私有特征集,F:= Fig.3 Flow chart of multilayer inference {f,f2,…,}(i=1,2,…,N),对于第i个私有 进行分层次推理时,需要训练出多组逻辑回归 特征集,其含有,M个元素。则有 模型以适应不同的推理层次。令,X= (UF)U(0F)=.F [p2…xm](k∈{1,2,…,K})为第j (UF)0(UF=8 次推理时观测到的公有特征向量,即。x(i=1,2, 推理时则如前所述,第j次推理时可以先依据 …,M)对应于的观测值,第j次推理时的特征 当前的公有特征集,FPn(cur∈{1,2,…,K})从 对行为的贡献度为,W= 中得到模糊语义满足观测的候选集,, [01p02…ph4](z=1,2,…,e八-1) N=,,…心}N是的元素的个数且 其中。d:即表示第j次推理时f对a。的影响。则 (A=AA=A 第1次到第J-1次推理时用到的逻辑回归模型为 NN1j=1,2,,J P(a=a.1X)= 通常NN。在第J次推理时,遍历A1的成 exp(,W‘) 员a1(i=1,2,…,1),根据对a1的私有特 ,2=1,2,…,eN-1-1 征集,F,中的成员进行观测,可以得出Am。该过程 1+m,脱) 如图3所示。需要注意的是,该推理框架可以通过 P(a=a:I X)= 不同的推理方法予以实现,后文当中分别使用了逻 辑回归和HMM对框架进行了实现。 N-1 -,2=N- 3.2基于单帧的推理方法 1+∑exp(,职) 基于单帧的推理方法,即在推理时只使用当前 对于第j层逻辑回归模型,设定阈值 视频帧所观测的特征进行行为理解,其优点在于推 Threshold,若P(.a=a,I,X)>Threshold,则a: 理方式相对简单,计算量较小,可以快速地完成,而 会被添加至。对于第J次推理,需要判断。A-中 其缺点在于不使用时间上下文,从而对于噪声的抗 的每个成员是否属于Am,因此需要对于所有的行 性较差。基于单帧的推理方法有逻辑回归、支持向 为都训练一个二项逻辑回归模型,即根据特征判断 量机以及决策树等。本文实现时使用了逻辑回归模 该行为发生或者没有发生,对于行为a(m∈{1, 型作为实现单帧推理的方法,可以方便地得到对齐 2,…,V-1}),第J次推理时用到的特征向量X为
(用户可以同时发生多个行为)。 事实上人的推理 过程也并非一次完成的,人们总是会根据当前观测 的特征对即将发生的行为作出初步的判断,而后根 据初步判断的结果去寻找可以证明或者证伪初步判 断的新的特征。 例如,甲向乙伸出手时,乙初步判断 甲想要同乙握手或者攻击乙,此时乙开始寻找额外 的特征,若甲的手向乙的运动而去,则甲想要同乙握 手,反之则是要攻击乙。 假定系统中共有 N 个行为需要识别,将该原始 行为集记作oA = {a1 ,a2 ,…,aN };系统可以获得的总 特征数为 M 个,总特征集记oF = {f 1 ,f 2 ,…,fM }。 这 些特征包含了公有特征集以及私有特征集中的元 素,其中 pF j k = {p f j k1 ,p f j k2 ,…,p f j kpMj k }(j = 1,2,…,J;k = 1,2,…,Kj) 为公有特征集,含有pMk j个元素,而 J 为 推理的总次数,Kj为第 j 次推理时候选行为集合c A j 的总个数;私有特征集针对oA 中的每个元素进行定 义,因此可以得到 N 个行为的私有特征集, sFi = {s f i1 ,s f i2 ,…,s f i sMi }(i = 1,2,…,N) ,对于第 i 个私有 特征集,其含有sMi个元素。 则有 ∪KJ-1 i = 1 pF J-1 i { } ∪ ∪N i = 1 sFi { } =oF ∪KJ-1 i = 1 pF J-1 i { } ∩ ∪N i = 1 sFi { { } = ⌀ 推理时则如前所述,第 j 次推理时可以先依据 当前的公有特征集 pF j curr(curr ∈ {1,2,…,Kj}) 从 cA j-1 中 得 到 模 糊 语 义 满 足 观 测 的 候 选 集cA j , cA j ={ca j 1 ,ca j 2 ,…,ca j c Nj } ,cNj是cA j的元素的个数且 cA 0 =oA,cA J = Acurr cA j ⊆cA j-1 { ,j = 1,2,...,J 通常cNJ≪N。 在第 J 次推理时,遍历 cA J-1 的成 员 ca J-1 i (i = 1,2,…,cN J-1 ) ,根据对 ca J-1 i 的私有特 征集 sFi 中的成员进行观测,可以得出 Acurr。 该过程 如图 3 所示。 需要注意的是,该推理框架可以通过 不同的推理方法予以实现,后文当中分别使用了逻 辑回归和 HMM 对框架进行了实现。 3.2 基于单帧的推理方法 基于单帧的推理方法,即在推理时只使用当前 视频帧所观测的特征进行行为理解,其优点在于推 理方式相对简单,计算量较小,可以快速地完成,而 其缺点在于不使用时间上下文,从而对于噪声的抗 性较差。 基于单帧的推理方法有逻辑回归、支持向 量机以及决策树等。 本文实现时使用了逻辑回归模 型作为实现单帧推理的方法,可以方便地得到对齐 到(0,1)的概率值,也便于处理同一时刻下多个不 同行为的发生。 图 3 分层推理流程图 Fig.3 Flow chart of multilayer inference 进行分层次推理时,需要训练出多组逻辑回归 模 型 以 适 应 不 同 的 推 理 层 次。 令 pX j k = [p x j k1 p x j k2 … p xk j pMj k ](k ∈ {1,2,…,Kj}) 为第 j 次推理时观测到的公有特征向量,即 p x j ki(i = 1,2, …,pM j k) 对应于 p f j ki 的观测值,第 j 次推理时的特征 对 行 为 的 贡 献 度 为 pW j zk = [ pw j z,k1 pw j z,k2 … pw j z,k p Mj k] (z = 1,2,…,cNj-1 ) , 其中 pw j z,i 即表示第 j 次推理时 p f j ki 对 an 的影响。 则 第 1 次到第 J-1 次推理时用到的逻辑回归模型为 P(ca = az | pX j k) = exp(pW j zk·pX j k) 1 + ∑ N-1 i = 1 exp(pW j ik·pX j k) ,z = 1,2,…,cNj-1 - 1 P(ca = az | pX j k) = 1 1 + ∑ N-1 i = 1 exp(pW j ik·pX j k) ,z =cNj-1 ì î í ï ï ï ï ï ï ï ï ï ï ï ï 对 于 第 j 层 逻 辑 回 归 模 型, 设 定 阈 值 Threshold j ,若 P(ca = az | pX j k) > Threshold j ,则 az 会被添加至cA j 。 对于第 J 次推理,需要判断cA J-1中 的每个成员是否属于 Acurr,因此需要对于所有的行 为都训练一个二项逻辑回归模型,即根据特征判断 该行为发生或者没有发生,对于行为 ca J m(m ∈ {1, 2,…,cNj-1 }) ,第 J 次推理时用到的特征向量 X J m 为 第 2 期 聂慧饶,等:基于语义分层的行为推理框架 ·181·
·182· 智能系统学报 第10卷 ,与,Xn的并集,其中,X为a的私有特征对 的公有特征集,针对!中的每个行为训练出 应的观测值,故对于a有 HMM模型,同时需要针对每个行为训练出相应的 HMM模型以用于第J次推理。在进行第j次推理 P(.a=.aIx)=_ xp(W·X) 1+exp(Wm·X) 时,利用已经观测的特征向量序列,可以计算出 中的每个行为输出该序列的概率,若所得概率值超 P(.a≠.d1X)=1+ep(w·X) 过阈值,则a,会被添加至N。 此时只需要将P(a=a Ix)与Threshold 同单帧推理时一样,在第J次推理时,对于 进行对比,即可判断a是否属于Ar。需要注 a(m∈{1,2,…,cN-1})所使用的特征向量序列 为公有特征向量序列与私有特征向量序列的并集。 意的是,所有的行为的二项逻辑回归的值的和并 没有归一化,所以在选取Threshold的值时,需要 4 实验验证 根据当前计算得到的各个P(a=am1Xm)的值 予以动态设置。 4.1实验环境 实验环境的设置主要用于模拟人体在室内的日 3.3基于时间序列的推理方法 常行为场景,在该场景当中,需要识别出吃饭、看电 基于时间序列的推理方法主要有隐马尔可夫模 视、吃水果、喝饮料、看书、喝水、使用电脑等7种不 型和动态贝叶斯网等,由于隐马尔可夫模型的训练 同的行为。视频数据的采集工作由分布在屋内的4 算法和测试算法都极为成熟,本文当中采用了隐马 套AV800综合采集卡以及4个CCD摄像机完成, 尔可夫作为基于时间序列的推理方法。隐马尔可夫 模型的优势在于推理时使用了时间序列,充分地利 其中集体分辨率最高可以达到720×576,帧率可以 达到25/s。此外,采集卡的硬件压缩功能可以直 用了上下文信息,但是其训练较逻辑回归复杂,无法 利用过多的时间帧(否则会因联合概率较小而无法 接输出压缩格式的视频流。 实验环境当中配备了圆桌、电视、冰箱、书架、办 予以计算)。并且隐马尔可夫的训练数据使用了相 公桌、茶几等家具,以及水果、饮料、食品等日常生活 同标签下的帧序列,即训练时所用的同一序列的帧 用品,前方提及的摄像机布置在房间的4个角落当 对应的行为是相同的,而在实际过程中,同一个序列 下的不同帧可能会出现不同的行为。 中,分别连接至数据采集服务器当中以捕获场景当 中发生的人体行为。实验环境布置如图4所示,其 此外,当前的隐马尔可夫训练算法大都只针 对一个离散观测量或者一个连续的随机向量的 平面图如图1所示。 应用场景,而的观测值中同时存在着多个离散观 测量和连续观测量。直观的做法是将多个离散 观测量聚合成为一个单独的离散观测量,但是这 种做法会使模型的参数迅速增加,例如,若在 HMM当中选取5个隐状态,同时有10个离散观 测量,每个离散观测量对应2个不同的取值,则 观测矩阵的参数个数为5×20=5120,但是若引 入朴素贝叶斯假设,即观测量之间是相互独立 的,那么观测矩阵的总参数量则降为5×2×10= 100,实际中特征维度可能会更高,若不采用朴素 贝叶斯假设,则由于训练样本个数较少,很难得 图4不同视角下的实验环境 到对模型参数合理的估计。因此,的在训练 Fig.4 Experiment environments under different views HMM模型时对于多维离散观测值引入了朴素贝 4.2实验数据集 叶斯假设。 在该数据集当中,共需要识别吃饭、看电视、吃 使用HMM进行行为理解时,每个行为都被认 水果、喝饮料、看书、喝水、使用电脑等7种不同的行 为是一个序列。训练HMM模型时,需要利用第j层 为。该数据集共有225551帧行为图像
pX J-1 m 与 sXm 的并集,其中 sXm 为 ca J m 的私有特征对 应的观测值,故对于 ca J m 有 P(ca =ca J m | X J m ) = exp(W J m·X J m ) 1 + exp(W J m·X J m ) P(ca ≠ca J m | X J m ) = 1 1 + exp(W J m·X J m ) ì î í ï ï ï ï ïï 此时只需要将 P( ca = ca J m | X J m ) 与 Threshold j 进行对比,即可判断 ca J m 是否属于 Acurr 。 需要注 意的是,所有的行为的二项逻辑回归的值的和并 没有归一化,所以在选取 Threshold j 的值时,需要 根据当前计算得到的各个 P( ca = ca J m | X J m ) 的值 予以动态设置。 3.3 基于时间序列的推理方法 基于时间序列的推理方法主要有隐马尔可夫模 型和动态贝叶斯网等,由于隐马尔可夫模型的训练 算法和测试算法都极为成熟,本文当中采用了隐马 尔可夫作为基于时间序列的推理方法。 隐马尔可夫 模型的优势在于推理时使用了时间序列,充分地利 用了上下文信息,但是其训练较逻辑回归复杂,无法 利用过多的时间帧(否则会因联合概率较小而无法 予以计算)。 并且隐马尔可夫的训练数据使用了相 同标签下的帧序列,即训练时所用的同一序列的帧 对应的行为是相同的,而在实际过程中,同一个序列 下的不同帧可能会出现不同的行为。 此外,当前的隐马尔可夫训练算法大都只针 对一个离散观测量或者一个连续的随机向量的 应用场景,而的观测值中同时存在着多个离散观 测量和连续观测量。 直观的做法是将多个离散 观测量聚合成为一个单独的离散观测量,但是这 种做法 会 使 模 型 的 参 数 迅 速 增 加, 例 如, 若 在 HMM 当中选取 5 个隐状态,同时有 10 个离散观 测量,每个离散观测量对应 2 个不同的取值,则 观测矩阵的参数个数为 5 × 2 10 = 5120,但是若引 入朴素贝叶斯假设,即观测量之间 是 相 互 独 立 的,那么观测矩阵的总参数量则降为 5 × 2 × 10 = 100,实际中特征维度可能会更高,若不采用朴素 贝叶斯假设,则由于训练样本个数较少,很难得 到对 模 型 参 数 合 理 的 估 计。 因 此, 的 在 训 练 HMM 模型时对于多维离散观测值引入了朴素贝 叶斯假设。 使用 HMM 进行行为理解时,每个行为都被认 为是一个序列。 训练 HMM 模型时,需要利用第 j 层 的公有特征集 pF j k 针对 cA j 中的每个行为训练出 HMM 模型,同时需要针对每个行为训练出相应的 HMM 模型以用于第 J 次推理。 在进行第 j 次推理 时,利用已经观测的特征向量序列,可以计算出cA j-1 中的每个行为输出该序列的概率,若所得概率值超 过阈值,则 az会被添加至cA j 。 同单帧推理时一样, 在第 J 次推理时, 对于 ca J m(m ∈ {1,2,…,cNj-1 }) 所使用的特征向量序列 为公有特征向量序列与私有特征向量序列的并集。 4 实验验证 4.1 实验环境 实验环境的设置主要用于模拟人体在室内的日 常行为场景,在该场景当中,需要识别出吃饭、看电 视、吃水果、喝饮料、看书、喝水、使用电脑等 7 种不 同的行为。 视频数据的采集工作由分布在屋内的 4 套 AV800 综合采集卡以及 4 个 CCD 摄像机完成, 其中集体分辨率最高可以达到 720×576,帧率可以 达到 25 f / s。 此外,采集卡的硬件压缩功能可以直 接输出压缩格式的视频流。 实验环境当中配备了圆桌、电视、冰箱、书架、办 公桌、茶几等家具,以及水果、饮料、食品等日常生活 用品,前方提及的摄像机布置在房间的 4 个角落当 中,分别连接至数据采集服务器当中以捕获场景当 中发生的人体行为。 实验环境布置如图 4 所示,其 平面图如图 1 所示。 图 4 不同视角下的实验环境 Fig.4 Experiment environments under different views 4.2 实验数据集 在该数据集当中,共需要识别吃饭、看电视、吃 水果、喝饮料、看书、喝水、使用电脑等 7 种不同的行 为。 该数据集共有 225 551 帧行为图像。 ·182· 智 能 系 统 学 报 第 10 卷