第11卷第10期 中国图象图形学报 Vol ll. No 10 2006年10月 Joumal of Image and graphics Oct,2006 人脸表情识别研究的新进展 刘晓旻谭华春章毓晋 (清华大学电子工程系,北京100084) 摘要人脸表情识别( fac ial exp reason recogniton,简称FR)作为智能化人机交互技术中的一个重要组成部分 近年来得到了广泛的关注,涌现出许多新方法。本文综述了国内外近4年人脸表情识别(FE)技术的最新发展 首先,介绍了FFR系统的组成:人脸检测表情特征提取和表情分类,并详细叙述了其中表情特征提取和表情分类 的方法。然后,对目前广泛应用的人脸表情数据库进行了介绍,并在此基础上对当前一些FER系统的性能进行了 比较分析。最后,对FER领域的研究现状和挑战给予了评述,对FER可能的发展方向进行了讨论。 关键词人脸表情识别表情特征提取表情分类人脸表情数据库 中图法分类号:TP39141文献标识码:A文章编号:1006-8961(2006)10-1359-10 New Research advances in Fac al Expression Recogn ition LU Xiom in, TAN Hua-chun, ZHANG Yu-jin (Deparm ent of Electron ic Engineering. Tsinghua Universit, Beijing 100084) Abstract As an mportant part of the technobgy for humanmachine interface, fac ial exp ressin recognition( FEr)have drawn much attenton recently and numerous methods have been poposed h this paper, we present the up b date levebpment of this area in recent years First, the three steps of the FER system are introduced: face detecton exp reasonal feature extracton and exp ressin classificaton Second, the methods of feature extracton and exp ressin classificaton are detailed in different categories Then, we also introduce the fac al exp ression databases which are widely used at present Based on these databases, a camparison of the perfomances of several FER systm s is presented At last, we demonstrate the state of the FER techn ique and the possible challenges, and p ovide some advice about the current of FER devebpment Keywords facial exp reason recogniton, exp ressinal feature extractin, exp ression classificaton, facial exp ressin 人脸表情识别(FER)所要研究的就是如何自 1引言 动、可靠、高效地利用人脸表情所传达的信息。 人们对表情识别的研究可以追溯到20世纪70 表情是人类用来表达情绪的一种基本方式,是年代,早期主要集中在从心理学和生物学方面进行 非语言交流中的一种有效手段。人们可通过表情准研究和分析。Dain121首先揭示了表情在不同性 确而微妙地表达自己的思想感情,也可通过表情辨别,不同种族的人群中的一致性。 Ekman和 认对方的态度和内心世界。关于表情传递信息的作 Frisen3!提出面部表情编码系统(HACS),用44个运 用心理学家 Mehrabian给出了一个公式 动单元(AU)来描述人脸表情变化,并定义了6种基 感情表露=7%的言词+38%的声音+55%的本情感类别:惊奇、恐惧、厌恶、愤怒、高兴、悲伤。这 面部表情。 系统得到了广泛的认同,并成为后来很多表情识 基金项目:教育部高等学校博士学科点专项科研基金项目(RFDP20020003011);国家自然科学基金项目(NNSF60573148) 收稿日期:2005-09-07;改回日期:2005-11 第一作者简介:刘晓旻(1981~),女。200年于清华大学电子工程系获硕士学位,现在美国攻读博士学位。主要研究方向为图像分析 Email liuxiaam in99@mails tsinghua edu 201994-2007ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
第 11卷 第 10期 2006年 10月 中国图象图形学报 Journal of Image and Graphics Vol. 11, No. 10 Oct. , 2006 基金项目 :教育部高等学校博士学科点专项科研基金项目 (RFDP220020003011) ;国家自然科学基金项目 (NNSF60573148) 收稿日期 : 2005209207;改回日期 : 2005211201 第一作者简介 :刘晓 (1981~ ) ,女。2006年于清华大学电子工程系获硕士学位 ,现在美国攻读博士学位。主要研究方向为图像分析。 E2mail: liuxiaomin99@mails. tsinghua. edu. cn 人脸表情识别研究的新进展 刘晓 谭华春 章毓晋 (清华大学电子工程系 ,北京 100084) 摘 要 人脸表情识别 (facial exp ression recognition,简称 FER)作为智能化人机交互技术中的一个重要组成部分 , 近年来得到了广泛的关注 ,涌现出许多新方法。本文综述了国内外近 4年人脸表情识别 ( FER)技术的最新发展。 首先 ,介绍了 FER系统的组成 :人脸检测、表情特征提取和表情分类 ,并详细叙述了其中表情特征提取和表情分类 的方法。然后 ,对目前广泛应用的人脸表情数据库进行了介绍 ,并在此基础上对当前一些 FER系统的性能进行了 比较分析。最后 ,对 FER领域的研究现状和挑战给予了评述 ,对 FER可能的发展方向进行了讨论。 关键词 人脸表情识别 表情特征提取 表情分类 人脸表情数据库 中图法分类号 : TP391. 41 文献标识码 : A 文章编号 : 100628961 (2006) 1021359210 New Research Advances in Fac ia l Expression Recogn ition L IU Xiao2m in, TAN Hua2chun, ZHANG Yu2jin (Departm ent of Electronic Engineering, Tsinghua University, B eijing 100084) Abstract A s an important part of the technology for human2machine interface, facial exp ression recognition ( FER) have drawn much attention recently and numerous methods have been p roposed. In this paper, we p resent the up to date development of this area in recent years. First, the three step s of the FER system are introduced: face detection, exp ressional feature extraction and exp ression classification. Second, the methods of feature extraction and exp ression classification are detailed in different categories. Then, we also introduce the facial exp ression databases which are widely used at p resent. Based on these databases, a comparison of the performances of several FER system s is p resented. A t last, we demonstrate the state of the FER technique and the possible challenges, and p rovide some advice about the current of FER development. Keywords facial exp ression recognition, exp ressional feature extraction, exp ression classification, facial exp ression database 1 引 言 表情是人类用来表达情绪的一种基本方式 ,是 非语言交流中的一种有效手段。人们可通过表情准 确而微妙地表达自己的思想感情 ,也可通过表情辨 认对方的态度和内心世界。关于表情传递信息的作 用 ,心理学家 Mehrabian [ 1 ]给出了一个公式 : 感情表露 = 7%的言词 + 38%的声音 + 55%的 面部表情。 人脸表情识别 (FER)所要研究的就是如何自 动、可靠、高效地利用人脸表情所传达的信息。 人们对表情识别的研究可以追溯到 20世纪 70 年代 ,早期主要集中在从心理学和生物学方面进行 研究和分析。Darwin [ 2 ]首先揭示了表情在不同性 别 , 不 同 种 族 的 人 群 中 的 一 致 性。 Ekman 和 Frisen [ 3 ]提出面部表情编码系统 (FACS) ,用 44个运 动单元 (AU)来描述人脸表情变化 ,并定义了 6种基 本情感类别 :惊奇、恐惧、厌恶、愤怒、高兴、悲伤。这 一系统得到了广泛的认同 ,并成为后来很多表情识
中国图象图形学报 别研究工作的基础。人脸表情识别有广泛的应用前 景例如在多模式人机交互界面MHCD中,表情2人脸表情识别的系统概述 与声音、视线、体态等结合起来可以获得更高效、更 人性化的人机交流。另外,在如面部神经瘫痪诊断 个人脸表情识别系统一般包括3个环节,即 人脸图像实时传输,人脸图像合成与动画,智能机器人脸检测、特征提取、表情分类,如图1所示。建立 人智能监控等多个领域,表情识别都有着广泛的一个FER系统,第1步需要对人脸进行检测与定 应用。 位,这一环节的研究实际上已成为一个独立的方向, 在已有的文献中, Pantic和Fae的综述分读者可见文献[6]第2步从人脸图像或图像序列 别从不同的角度,系统地总结了2002年之前的FER中提取能够表征输入表情本质的信息,在提取特征 技术和方法。本文主要针对2002年以后FER研究数据的过程中,为了避免维数危机,可能还需要特征 的进展,对诸多的研究工作和热点进行总结和归纳,降维、特征分解等进一步处理;第3步分析特征之间 为前述两篇综述提供一些新的补充,并使读者了解的关系,将输入的人脸表情分类到相应的类别,如 到FER技术目前的发展趋势与方向。 AU组合或基本情感类别。 人脸检测与定位 表情特征原始特征 和取特征分解 人脸表情分类 图1人脸表情识别系统 Fig 1 Facial exp ression recogniton system 分性。 3表情特征提取的方法 要得到满足这些条件的表情特征,特征提取的 过程可能需要数个步骤来完成。首先,利用某种形 表情特征提取是FR系统中最重要的部分,有式的信息来获得表情的原始特征,如特征形状与几 效的表情特征提取工作将使识别的性能大大提高。何关系,局部纹理,光流场等,这一步骤称为原始特 通过对大量文献的总结,可知好的表情特征提取结征获取。然而,这些原始特征一般都存在信息冗余 果应该具备以下几个条件 维数过高,区分性不够等问题。为了能够更有效地 (1)完整的表示出人脸表情的本质特征; 表征输入人脸表情的本质,需要对原始特征数据进 (2)去除噪声、光照及其他与表情无关的干扰行一些后处理,如特征降维和提取,特征分解等,以 信息 降低维数,去除干扰因素,得到对分类更为有利的特 (3)数据表示形式紧凑避免过高的维数; 征数据。一些原始特征获取,特征降维和特征分解 (4)不同类别表情的特征之间有较好的区的方法如表1所示 表1表情特征提取的3个步骤及方法例举 Tah 1 The three steps of expressiona I fea ture ex traction and exam pls of m ethods 原始特征生成 特征降维和提取 特征分解 几何特征:基准点17 混合特征:AAM2-3 7. HLAC6 外貌特征: gabor PCA9I LDA[I9. A[2I.CDA 排序PCA+LDA01 高阶奇异值分解 MPPCA(251 双线性分解[26 序列特征:光流[33,运动单元461 31原始特征生成的方法 Pantic在以前工作的基础上改进并完善了 3.1.1针对静态图像 种自动提取脸部器官和轮廓基准点的方法。采用 (1)基于几何特征的方法 多检测器的方法,从正面人脸提取19个特征点,从 201994-2007ChinaAcademicjOurnalElectronicPublishingHouse.alLrightsreservedhttp://www.cnki.net
1360 中国图象图形学报 第 11卷 别研究工作的基础。人脸表情识别有广泛的应用前 景 ,例如在多模式人机交互界面 (MMHCI)中 ,表情 与声音、视线、体态等结合起来可以获得更高效、更 人性化的人机交流。另外 ,在如面部神经瘫痪诊断 , 人脸图像实时传输 ,人脸图像合成与动画 ,智能机器 人 ,智能监控等多个领域 ,表情识别都有着广泛的 应用。 在已有的文献中 , Pantic [ 4 ]和 Fasel [ 5 ]的综述分 别从不同的角度 ,系统地总结了 2002年之前的 FER 技术和方法。本文主要针对 2002年以后 FER研究 的进展 ,对诸多的研究工作和热点进行总结和归纳 , 为前述两篇综述提供一些新的补充 ,并使读者了解 到 FER技术目前的发展趋势与方向。 2 人脸表情识别的系统概述 一个人脸表情识别系统一般包括 3个环节 ,即 人脸检测、特征提取、表情分类 ,如图 1所示。建立 一个 FER 系统 ,第 1步需要对人脸进行检测与定 位 ,这一环节的研究实际上已成为一个独立的方向 , 读者可见文献 [ 6 ];第 2步从人脸图像或图像序列 中提取能够表征输入表情本质的信息 ,在提取特征 数据的过程中 ,为了避免维数危机 ,可能还需要特征 降维、特征分解等进一步处理 ;第 3步分析特征之间 的关系 ,将输入的人脸表情分类到相应的类别 ,如 AU组合或基本情感类别。 图 1 人脸表情识别系统 Fig. 1 Facial exp ression recognition system 3 表情特征提取的方法 表情特征提取是 FER系统中最重要的部分 ,有 效的表情特征提取工作将使识别的性能大大提高。 通过对大量文献的总结 ,可知好的表情特征提取结 果应该具备以下几个条件 : (1)完整的表示出人脸表情的本质特征 ; (2)去除噪声、光照及其他与表情无关的干扰 信息 ; (3)数据表示形式紧凑 ,避免过高的维数 ; (4)不同类别表情的特征之间有较好的区 分性。 要得到满足这些条件的表情特征 ,特征提取的 过程可能需要数个步骤来完成。首先 ,利用某种形 式的信息来获得表情的原始特征 ,如特征形状与几 何关系 ,局部纹理 ,光流场等 ,这一步骤称为原始特 征获取。然而 ,这些原始特征一般都存在信息冗余 , 维数过高 ,区分性不够等问题。为了能够更有效地 表征输入人脸表情的本质 ,需要对原始特征数据进 行一些后处理 ,如特征降维和提取 ,特征分解等 ,以 降低维数 ,去除干扰因素 ,得到对分类更为有利的特 征数据。一些原始特征获取 ,特征降维和特征分解 的方法如表 1所示。 表 1 表情特征提取的 3个步骤及方法例举 Tab. 1 The three steps of expressiona l fea ture extraction and exam ples of m ethods 原始特征生成 特征降维和提取 特征分解 几何特征 :基准点 [ 7, 8 ] 外貌特征 : Gabor [ 13, 14, 48 ] , HLAC [ 16 ] , LBP [ 17 ] 混合特征 : AAM [ 24~26 ] 序列特征 :光流 [ 34, 35 ] ,运动单元 [ 46 ] PCA [ 9 ] ,LDA [ 19 ] , ICA [ 12 ] , CDA [ 39 ] 排序 PCA +LDA [ 40 ] MPPCA [ 25 ] 高阶奇异值分解 [ 24 ] 双线性分解 [ 26 ] 3. 1 原始特征生成的方法 3. 1. 1 针对静态图像 (1) 基于几何特征的方法 Pantic [ 7 ]在以前工作 [ 8 ]的基础上改进并完善了 一种自动提取脸部器官和轮廓基准点的方法。采用 多检测器的方法 ,从正面人脸提取 19个特征点 ,从
刘晓文等:人脸表情识别研究的新进展 1361 侧面人脸提取10个特征点。通过一致性检验为每缘方向的相似性组成所谓的不对称脸( asymmetry 个提取的点赋予一个确定性因子CF( certa inty face),并认为这一脸部的不对称性在表情识别中也 factor),比较CF来从多个检测器的信息中选择最精具有很强的区分能力。zhu120定义了包含脸部重要 确的检测结果。 特征的7个区域,然后对每个区域计算4种改进的 几何特征的识别效果对基准点提取的准确性要不变矩,并定义一个尺度因子a来调节和平衡各个 求较高,在图像质量低和背景复杂的情况下难以实区域的特征值强度。 现。同时几何特征的提取忽略了脸部其他部分的信 (3)基于混合特征的方法 息如皮肤的纹理变化等,因此在识别细微变化的表 几何特征能够简洁地表示出人脸宏观的结构变 情时区分性不够高。 化,而另一方面外貌特征侧重于提取局部的细微变 (2)基于外貌特征的方法 化,一些研究者将两者结合起来用混合的特征进行 外貌( appearance)特征泛指使用全部人脸图像表情识别。如文献[13J、[14中将几何特征与局 像素的特征,反映了人脸图像底层的信息。基于灰部点或局部区域的 Gabor小波系数结合起来作为表 度图像的方法最简单,由于灰度像素受到光照和噪情特征。 Zhang2提出用多种特征融合的方法进行 声影响较大,因此需要较好的预处理方法,同时结合表情识别,所使用的特征提取方法包括基于特征点 PCA和DCT变换等方法进行进一步提取9.01 的几何特征提取,法令纹( naso lab ial fold)检测,前额 外貌特征提取最主要的方法是基于局部特征的区域边缘检测,后两者均为脸部瞬时变化出现的特 方法,利用一组滤波器对图像进行滤波,结果可以反征,如图2所示。 映局部像素之间的关系(梯度、相关性、纹理等) 近来,基于 Gabor小波的方法被广泛应用于人脸表 情的特征提取",它能够检测多尺度、多方向的 纹理变化,同时受光照变化影响较小, Donato2曾 比较了几种方法识别脸部AU的性能,结果表明 Gabor CA优于其他的方法。Wen在一系列手工 标定的局部小区域提取平均 Gabor小波系数作为纹 理特征,同时引入了一种在人脸合成中使用的基于 比例图的方法来对纹理提取区域进行预处理,以降 低不同人脸差异和光照变化引起的人脸反照度不均 的影响。另外,种类似Ha小波的矩形特征也被 图2特征点的几何关系(方形区域表示皱纹) 应用于表情特征的提取,它可以对整幅图像进行 Fig 2 The geometrical relatonshp of feature points 快捷的计算,从而获得较好的实时效果。局部特征 (where the rec tangles rep resent the furIos and wrinkle) 提取方法还有基于边缘,高阶局部自相关(HAC) 局部二元模式等。 Shinohara46对人脸图像提取共 基于混合特征的一类重要方法是基于模型的方 35种主要的高阶局部自相关特征,同时与 Fisher加法。这类方法用模型的方式来描述人脸的结构,几 权映射的方法相结合,从而增强一些重要特征区域,何模型(点模型)也是一类简单的模型方法。活跃 削弱不重要区域。Feng使用局部二元模式外貌模型(AM)42是目前广泛应用的一种人脸特 (LBP)来提取脸部图像的纹理特征,对脸部区域分征提取的方法1-AAM方法结合形状和纹理信 块计算LBP直方图,并连结起来作为表情识别的特息建立对人脸的参数化描述,然后再用PCA进行降 征。Buci4.用非负矩阵分解和局部非负矩阵分维。 Chang使用Hu提出的活跃小波网络 解来提取图像特征,并得出局部非负矩阵分解的识(AWN)进行人脸的对准。与AAM中的纹理模型不 别结果优于PCA方法的结论 同,AWN使用 Gabor小波网络的表示方法来对纹理 其他可归为外貌特征的方法还有:基于脸部不的变化进行建模,这一方法对部分阻挡和一些光照 对称性的方法1,基于不变矩的方法0 的变化有较好的鲁棒性。相对于基于外貌特征的方 Mia1对左右两边人脸图像提取密度的差异和边法,基于模型的方法可以得到更为可靠的人脸特征 201994-2007ChinaaCademieJournalElectronicPublishingHouse.Allrightsreservedhttp:/www.cnki.net
第 10期 刘晓 等 :人脸表情识别研究的新进展 1361 侧面人脸提取 10个特征点。通过一致性检验为每 个提取的 点赋予一 个 确 定 性 因 子 CF ( certainty factor) ,比较 CF来从多个检测器的信息中选择最精 确的检测结果。 几何特征的识别效果对基准点提取的准确性要 求较高 ,在图像质量低和背景复杂的情况下难以实 现。同时几何特征的提取忽略了脸部其他部分的信 息如皮肤的纹理变化等 ,因此在识别细微变化的表 情时区分性不够高。 (2)基于外貌特征的方法 外貌 ( appearance)特征泛指使用全部人脸图像 像素的特征 ,反映了人脸图像底层的信息。基于灰 度图像的方法最简单 ,由于灰度像素受到光照和噪 声影响较大 ,因此需要较好的预处理方法 ,同时结合 PCA和 DCT变换等方法进行进一步提取 [ 9, 10 ]。 外貌特征提取最主要的方法是基于局部特征的 方法 ,利用一组滤波器对图像进行滤波 ,结果可以反 映局部像素之间的关系 (梯度、相关性、纹理等 )。 近来 ,基于 Gabor小波的方法被广泛应用于人脸表 情的特征提取 [ 11~14 ] ,它能够检测多尺度、多方向的 纹理变化 ,同时受光照变化影响较小 , Donato [ 12 ]曾 比较了几种方法识别脸部 AU 的性能 ,结果表明 Gabor、ICA优于其他的方法。W en [ 14 ]在一系列手工 标定的局部小区域提取平均 Gabor小波系数作为纹 理特征 ,同时引入了一种在人脸合成中使用的基于 比例图的方法来对纹理提取区域进行预处理 ,以降 低不同人脸差异和光照变化引起的人脸反照度不均 的影响。另外 ,一种类似 Harr小波的矩形特征也被 应用于表情特征的提取 [ 15 ] ,它可以对整幅图像进行 快捷的计算 ,从而获得较好的实时效果。局部特征 提取方法还有基于边缘 ,高阶局部自相关 (HLAC) , 局部二元模式等。Shinohara [ 16 ]对人脸图像提取共 35种主要的高阶局部自相关特征 ,同时与 Fisher加 权映射的方法相结合 ,从而增强一些重要特征区域 , 削弱 不 重 要 区 域。 Feng [ 17 ] 使 用 局 部 二 元 模 式 (LBP)来提取脸部图像的纹理特征 ,对脸部区域分 块计算 LBP直方图 ,并连结起来作为表情识别的特 征。Buciu [ 18 ]采用非负矩阵分解和局部非负矩阵分 解来提取图像特征 ,并得出局部非负矩阵分解的识 别结果优于 PCA方法的结论。 其他可归为外貌特征的方法还有 :基于脸部不 对称 性 的 方 法 [ 19 ] , 基 于 不 变 矩 的 方 法 [ 20, 21 ]。 M itra [ 19 ]对左右两边人脸图像提取密度的差异和边 缘方向的相似性组成所谓的不对称脸 ( asymmetry face) ,并认为这一脸部的不对称性在表情识别中也 具有很强的区分能力。Zhu [ 20 ]定义了包含脸部重要 特征的 7个区域 ,然后对每个区域计算 4种改进的 不变矩 ,并定义一个尺度因子 α来调节和平衡各个 区域的特征值强度。 (3)基于混合特征的方法 几何特征能够简洁地表示出人脸宏观的结构变 化 ,而另一方面外貌特征侧重于提取局部的细微变 化 ,一些研究者将两者结合起来 ,用混合的特征进行 表情识别。如文献 [ 13 ]、[ 14 ]中将几何特征与局 部点或局部区域的 Gabor小波系数结合起来作为表 情特征。Zhang [ 22 ]提出用多种特征融合的方法进行 表情识别 ,所使用的特征提取方法包括 :基于特征点 的几何特征提取 ,法令纹 ( nasolabial fold)检测 ,前额 区域边缘检测 ,后两者均为脸部瞬时变化出现的特 征 ,如图 2所示。 图 2 特征点的几何关系 (方形区域表示皱纹 ) Fig. 2 The geometrical relationship of feature points (where the rectangles rep resent the furrows and wrinkle) 基于混合特征的一类重要方法是基于模型的方 法。这类方法用模型的方式来描述人脸的结构 ,几 何模型 (点模型 )也是一类简单的模型方法。活跃 外貌模型 (AAM) [ 23 ]是目前广泛应用的一种人脸特 征提取的方法 [ 24~27 ]。AAM方法结合形状和纹理信 息建立对人脸的参数化描述 ,然后再用 PCA进行降 维。Chang [ 28 ] 使 用 Hu [ 29 ] 提 出 的 活 跃 小 波 网 络 (AWN)进行人脸的对准。与 AAM中的纹理模型不 同 ,AWN使用 Gabor小波网络的表示方法来对纹理 的变化进行建模 ,这一方法对部分阻挡和一些光照 的变化有较好的鲁棒性。相对于基于外貌特征的方 法 ,基于模型的方法可以得到更为可靠的人脸特征
1362 中国图象图形学报 参数,但同时它也有计算较为复杂,而且初始点获取响特征提取的结果。金辉等人在人脸面部物理 困难等缺点。 几何结构模型的基础上,提取面部表情特征区域,通 3.1.2针对图像序列 过光流估计计算其运动场,进而计算特征流向量,然 基于图像序列的表情特征提取有两类方法 后把一组图像序列的运动向量组成运动特征序列 类仅利用帧间信息进行特征的跟踪和定位,可称为对表情的运动进行分析 基于帧内特征的方法,另一类不仅需要跟踪和定位 ②基于模型的方法 而且还利用帧间信息来作为表情识别的特征,可称 这类方法采用模型来跟踪人脸,并根据跟踪得 为基于序列特征的方法 到的模型参数和一些前后帧的信息来表示人脸的运 (1)基于帧内特征的方法 动。Tao和 Huang提出一种基于 Bezier volume的 在帧内提取特征的方法与静态图像使用的方法跟踪系统,在第1帧用交互式的方法确定眼角和嘴 大致相同,因此主要讨论特征跟踪的方法 角等标志性特征的位置,然后调整网状的3维模型 基于特征点跟踪的方法 来匹配选定的特征位置。在跟踪之后,用一些定义 基于特征点的跟踪通常只将特征点选在灰度变好的脸部运动单元( mo tron unit来表示运动特征 化较大的区域,例如眼角点,嘴角点等。这些点便于这些运动单元不仅表示了人脸区域的运动有无,还 跟踪,从而可以进一步得到脸部特征的位移或形变表示了运动的方向和强度。应用这一模型及运动单 信息。 Zhang2分别结合 Kaman滤波和红外(R)元来提取特征的方法有文献[14]、[461、[54 设备定位瞳孔两种方法来决定预测的特征位置,然Gok山u3使用3维的可变形人脸模型来进行人脸 后在预测位置附近匹配两点之间 Gabor核的相似度跟踪,然后用得出的形状向量及其在帧间的差异来 以检测特征的位置。由于R设备的引入,该方法对作为表情识别的特征 大的头部运动也能得到鲁棒的跟踪结果。Boue132特征降维和提取的方法 手工选择12个特征点并进行跟踪然后用基于状态 由于特征表示方法尤其是外貌特征的空间维数 的特征选择方法来提取表情特征。 Pandas提出通常非常巨大,因此需要通过一些映射或变换将它 种基于活跃轮廓的跟踪方法,可以提取人脸的特们转换到低维的子空间来表示。这样不仅可以使特 征并转换为MPEG编码方案中的人脸动画参数征的维数明显降低,同时这些低维空间特征的有效 (FAPs)。 性也将得到提高。常用的特征降维及提取的方法有 ②基于模型跟踪的方法 主元分析(PCA),线性判别分析(LDA),CA等。这 不同于特征点的跟踪,基于模型的跟踪针对整些方法在进行特征提取时各有优势,如PCA提取了 个人脸。这里模型可以是2维或3维的,但大多数最有代表性的特征,可以有效地消除冗余,降低维 模型都需要较复杂的计算。 Braathen用3维模型数,但它没有考虑不同类别数据之间的区分性。而 跟踪自然场景中头部的转动,然后将人脸图像用3LDA则通过最大化数据的类间离散度和最小化类 维变形的方法转换到规范的姿势,从而更方便地进内离散度来选择合适的投影方向,侧重于寻找具有 行表情识别。 最大分辨力的方向。近来,关于特征降维和提取的 Huang3使用多分辨率的3维可变形人脸模型方法,也有一些新的研究。 来对人脸建模,并采用了多层次的跟踪方法。全局 Chen在LDA的基础上提出一种基于聚类的 形变的跟踪由底层的数千个节点来完成,对于局部判别分析,针对类内存在多种子类的情况,首先使用 的纹理变化,用非刚性形状配准方法来进行获取。模糊C均值的方法进行聚类,然后以分离不同类的 该方法适用于3维人脸深度扫描数据,可以对细微子类为目标,寻找最佳的投影方向。该方法对同 的表情细节进行提取和跟踪。 表情由于光照等变化产生类内多种聚类的情况,有 (2)基于序列特征的方法 较好的识别效果。 ①基于光流的方法 Aubusson10首先对特征用PCA方法进行分 光流反映了帧间运动的重要信息,在表情的动析,然后按照主元对某一识别任务的重要性将它们 态分析中有较多的应用。基于光流方法的缺进行排列,采用前向逐步选择的方法选择和保留最 点在于,光照不均和脸部非刚性运动等因素将会影有区分性的k个主元方向,最后使用LDA对排列后 201994-2007ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
1362 中国图象图形学报 第 11卷 参数 ,但同时它也有计算较为复杂 ,而且初始点获取 困难等缺点。 3. 1. 2 针对图像序列 基于图像序列的表情特征提取有两类方法 ,一 类仅利用帧间信息进行特征的跟踪和定位 ,可称为 基于帧内特征的方法 ,另一类不仅需要跟踪和定位 , 而且还利用帧间信息来作为表情识别的特征 ,可称 为基于序列特征的方法。 (1)基于帧内特征的方法 在帧内提取特征的方法与静态图像使用的方法 大致相同 ,因此主要讨论特征跟踪的方法。 ①基于特征点跟踪的方法 基于特征点的跟踪通常只将特征点选在灰度变 化较大的区域 ,例如眼角点 ,嘴角点等。这些点便于 跟踪 ,从而可以进一步得到脸部特征的位移或形变 信息。Zhang [ 22 ]分别结合 Kalman滤波和红外 ( IR) 设备定位瞳孔两种方法来决定预测的特征位置 ,然 后在预测位置附近匹配两点之间 Gabor核的相似度 以检测特征的位置。由于 IR设备的引入 ,该方法对 大的头部运动也能得到鲁棒的跟踪结果。Bourel [ 30 ] 手工选择 12个特征点并进行跟踪 ,然后用基于状态 的特征选择方法来提取表情特征。 Pardàs [ 31 ]提出 一种基于活跃轮廓的跟踪方法 ,可以提取人脸的特 征并转换为 MPEG编码方案中的人脸动画参数 (FAPs)。 ②基于模型跟踪的方法 不同于特征点的跟踪 ,基于模型的跟踪针对整 个人脸。这里模型可以是 2维或 3维的 ,但大多数 模型都需要较复杂的计算。Braathen [ 32 ]用 3维模型 跟踪自然场景中头部的转动 ,然后将人脸图像用 3 维变形的方法转换到规范的姿势 ,从而更方便地进 行表情识别。 Huang [ 33 ]使用多分辨率的 3维可变形人脸模型 来对人脸建模 ,并采用了多层次的跟踪方法。全局 形变的跟踪由底层的数千个节点来完成 ,对于局部 的纹理变化 ,用非刚性形状配准方法来进行获取。 该方法适用于 3维人脸深度扫描数据 ,可以对细微 的表情细节进行提取和跟踪。 (2)基于序列特征的方法 ①基于光流的方法 光流反映了帧间运动的重要信息 ,在表情的动 态分析中有较多的应用 [ 34~36 ]。基于光流方法的缺 点在于 ,光照不均和脸部非刚性运动等因素将会影 响特征提取的结果。金辉等人 [ 34 ]在人脸面部物理 2 几何结构模型的基础上 ,提取面部表情特征区域 ,通 过光流估计计算其运动场 ,进而计算特征流向量 ,然 后把一组图像序列的运动向量组成运动特征序列 , 对表情的运动进行分析。 ②基于模型的方法 这类方法采用模型来跟踪人脸 ,并根据跟踪得 到的模型参数和一些前后帧的信息来表示人脸的运 动。Tao和 Huang [ 37 ]提出一种基于 BezierVolume的 跟踪系统 ,在第 1帧用交互式的方法确定眼角和嘴 角等标志性特征的位置 ,然后调整网状的 3维模型 来匹配选定的特征位置。在跟踪之后 ,用一些定义 好的脸部运动单元 (motion unit)来表示运动特征。 这些运动单元不仅表示了人脸区域的运动有无 ,还 表示了运动的方向和强度。应用这一模型及运动单 元来提取特征的方法有文献 [ 14 ]、[ 46 ]、[ 54 ]。 Gokturk [ 38 ]使用 3维的可变形人脸模型来进行人脸 跟踪 ,然后用得出的形状向量及其在帧间的差异来 作为表情识别的特征。 3. 2 特征降维和提取的方法 由于特征表示方法尤其是外貌特征的空间维数 通常非常巨大 ,因此需要通过一些映射或变换将它 们转换到低维的子空间来表示。这样不仅可以使特 征的维数明显降低 ,同时这些低维空间特征的有效 性也将得到提高。常用的特征降维及提取的方法有 主元分析 (PCA) ,线性判别分析 (LDA) , ICA等。这 些方法在进行特征提取时各有优势 ,如 PCA提取了 最有代表性的特征 ,可以有效地消除冗余 ,降低维 数 ,但它没有考虑不同类别数据之间的区分性。而 LDA则通过最大化数据的类间离散度和最小化类 内离散度来选择合适的投影方向 ,侧重于寻找具有 最大分辨力的方向。近来 ,关于特征降维和提取的 方法 ,也有一些新的研究。 Chen [ 39 ]在 LDA的基础上提出一种基于聚类的 判别分析 ,针对类内存在多种子类的情况 ,首先使用 模糊 C均值的方法进行聚类 ,然后以分离不同类的 子类为目标 ,寻找最佳的投影方向。该方法对同一 表情由于光照等变化产生类内多种聚类的情况 ,有 较好的识别效果。 Dubussion [ 40 ]首先对特征用 PCA 方法进行分 析 ,然后按照主元对某一识别任务的重要性将它们 进行排列 ,采用前向逐步选择的方法选择和保留最 有区分性的 k个主元方向 ,最后使用 LDA对排列后
刘晓文等:人脸表情识别研究的新进展 的子空间进行计算,产生C-1维C是分类的类别个 数)的判别子空间进行分类。该方法称为排序 特征子空间= PCA+LDA方法,可以对不同的识别任务建立最优 的子空间。 表情子空间 Zalewsk31l引入了混合概率PCA的方法,与传 统的PCA方法不同,概率PCA为PCA定义了一个 个体 概率模型,对于主元方向以外的信息并不是直接丢 弃,而是作为高斯噪声进行估计,通过最大似然解方 法来估计模型参数而得到最佳概率模型。该方法可 初始张量 个体子空间 以解决较大姿态变化带来的特征空间中非线性的分 布,并可以结合贝叶斯判别方法进行表情识别 33特征分解的方法 人脸图像包含了丰富的信息,对不同的识别任 图3脸部表情分解到人脸子空间表情子空间和特征子空间 务来说,所利用的信息也各不相同。人脸检测寻找 Fig 3 Facial exp lesson decomposition b person subspace. exp reason subspace, feature subspace 的是人脸图像共有的一致性,人脸识别需要利用表 示人脸个体差异的信息,而表情识别则需要表示各应的表情分量,计算测试样本表情分量与该训练样 种表情之间差异的信息,对一种识别任务有利的信本表情分量的相似性(如余弦距离或欧式距离),对 息有可能反而对其他识别任务造成干扰。近来 所有训练个体重复这一过程,最终将测试人脸分类 种新的解决思路是把人脸不同的因素如表情因素和到最相近的表情类别 个体因素分离开来,使得识别能够在相应的子空间 中进行,避免其他因素的干扰 4表情分类方法 A bboud3提出用双线性模型的方法来进行人 脸的外貌分解,首先使用AAM的方法获取人脸的 表情分类指定义一组类别,并设计相应的分类 特征参数,然后通过双线性分解模型的方法将人脸机制对表情进行识别,归入相应类别。如按照脸部 特征参数分解为与个体无关的表情分量以及与个体动作分类(HACS),将脸部的动作分类到44个AUs 相关的线性映射的乘积。实验结果表明,该方法在( acton units);或按照感情分类,将表情分类到 训练样本数较少的情况下识别结果优于LDA方法。 Ekman和 Friesen定义的6种基本感情。根据是否 Wang2将高阶奇异值分解(HosD)的方法用利用时间信息来进行分析,人脸表情分类的方法可 于脸部表情的分解。与双线性方法不同,HOSD是分为基于空间分析的方法和空时结合的方法两类。 种多因素的分析方法,在人脸识别和运动分析中41空间分析方法 都有应用。该方法将不同人、不同表情的图像用 41.1基于专家规则( Expert rules)的方法 个3阶的张量来表示,3阶分别表示个体、表情和特 这类方法从人的观察角度出发来制定一些规 征(AAM提取特征)。对张量用 HOSVD方法进则,对特征提取得出的参数,判断它符合哪一类规 行分解,得到个体子空间表情子空间和特征子空则将其归入相应的类别。Pant8用AU编码 间如图3所示。训练时从包含7种表情的图像集来描述输入的表情,然后与每一种表情类别的AU 合中得到人的个体子空间和表情子空间模型。这类编码描述进行比较,将其分类到最相近的一类基本 方法由于分解了人脸各种不同的因素,不仅可以较表情中。使用这类方法的还有文献[41l[42]。基 好地应用于表情识别,也可以方便地进行人脸表情于专家规则的方法可以更精确地描述人脸表情,从 的合成,甚至增加新的因素来满足不同光照和不同而更好地识别混合表情,同时由于它对表情进行了 角度的合成要求。 编码,因此便于进行人脸表情的合成。 基于特征分解的方法在分类过程中需要对已知412基于机器学习的方法 表情类别的样本库进行遍历搜索。首先假设测试样 (1)人工神经网 本的个体因素来自第1个训练的个体,分解得到相 人工神经网络在静态图像的人脸表情识别中有 201994-2007ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
第 10期 刘晓 等 :人脸表情识别研究的新进展 1363 的子空间进行计算 ,产生 C21维 (C是分类的类别个 数 ) 的判别子空间进行分类。该方法称为排序 PCA +LDA方法 ,可以对不同的识别任务建立最优 的子空间。 Zalewski [ 25 ]引入了混合概率 PCA的方法 ,与传 统的 PCA方法不同 ,概率 PCA为 PCA 定义了一个 概率模型 ,对于主元方向以外的信息并不是直接丢 弃 ,而是作为高斯噪声进行估计 ,通过最大似然解方 法来估计模型参数而得到最佳概率模型。该方法可 以解决较大姿态变化带来的特征空间中非线性的分 布 ,并可以结合贝叶斯判别方法进行表情识别。 3. 3 特征分解的方法 人脸图像包含了丰富的信息 ,对不同的识别任 务来说 ,所利用的信息也各不相同。人脸检测寻找 的是人脸图像共有的一致性 ,人脸识别需要利用表 示人脸个体差异的信息 ,而表情识别则需要表示各 种表情之间差异的信息 ,对一种识别任务有利的信 息有可能反而对其他识别任务造成干扰。近来 ,一 种新的解决思路是把人脸不同的因素如表情因素和 个体因素分离开来 ,使得识别能够在相应的子空间 中进行 ,避免其他因素的干扰。 Abboud [ 26 ]提出用双线性模型的方法来进行人 脸的外貌分解 ,首先使用 AAM 的方法获取人脸的 特征参数 ,然后通过双线性分解模型的方法将人脸 特征参数分解为与个体无关的表情分量以及与个体 相关的线性映射的乘积。实验结果表明 ,该方法在 训练样本数较少的情况下识别结果优于 LDA方法。 W ang [ 24 ]将高阶奇异值分解 (HOSVD)的方法用 于脸部表情的分解。与双线性方法不同 , HOSVD是 一种多因素的分析方法 ,在人脸识别和运动分析中 都有应用。该方法将不同人、不同表情的图像用一 个 3阶的张量来表示 , 3阶分别表示个体、表情和特 征 (用 AAM提取特征 )。对张量用 HOSVD方法进 行分解 ,得到个体子空间、表情子空间和特征子空 间 ,如图 3所示。训练时从包含 7种表情的图像集 合中得到人的个体子空间和表情子空间模型。这类 方法由于分解了人脸各种不同的因素 ,不仅可以较 好地应用于表情识别 ,也可以方便地进行人脸表情 的合成 ,甚至增加新的因素来满足不同光照和不同 角度的合成要求。 基于特征分解的方法在分类过程中需要对已知 表情类别的样本库进行遍历搜索。首先假设测试样 本的个体因素来自第 1个训练的个体 ,分解得到相 图 3 脸部表情分解到人脸子空间、表情子空间和特征子空间 Fig. 3 Facial exp ression decomposition to person subspace, exp ression subspace, feature subspace 应的表情分量 ,计算测试样本表情分量与该训练样 本表情分量的相似性 (如余弦距离或欧式距离 ) ,对 所有训练个体重复这一过程 ,最终将测试人脸分类 到最相近的表情类别。 4 表情分类方法 表情分类指定义一组类别 ,并设计相应的分类 机制对表情进行识别 ,归入相应类别。如按照脸部 动作分类 (FACS) ,将脸部的动作分类到 44个 AU s ( action units) ; 或按照感情分类 , 将表情分类到 Ekman和 Friesen定义的 6种基本感情。根据是否 利用时间信息来进行分析 ,人脸表情分类的方法可 分为基于空间分析的方法和空时结合的方法两类。 4. 1 空间分析方法 4. 1. 1 基于专家规则 (Expert rules)的方法 这类方法从人的观察角度出发来制定一些规 则 ,对特征提取得出的参数 ,判断它符合哪一类规 则 ,将其归入相应的类别。Pantic [ 7, 8 ]利用 AU 编码 来描述输入的表情 ,然后与每一种表情类别的 AU 编码描述进行比较 ,将其分类到最相近的一类基本 表情中。使用这类方法的还有文献 [ 41 ]、[ 42 ]。基 于专家规则的方法可以更精确地描述人脸表情 ,从 而更好地识别混合表情 ,同时由于它对表情进行了 编码 ,因此便于进行人脸表情的合成。 4. 1. 2 基于机器学习的方法 (1)人工神经网 人工神经网络在静态图像的人脸表情识别中有