计算机学报 Vol. 32 No. 5 2009年5月 CHINESE JOURNAL OF COMPU TERS May 2009 基于视频的人脸识别研究进展 章毓晋” (清华大学信息科学与技术国家实验室北京100084) 2)(清华大学电子工程系北京100084) 摘要近年来基于视频的人脸识别己成为人脸识别领域最为活跃的研究方向之一如何充分利用视频中人脸的 时间和空间信息克服视频中人脸分辨率低,尺度变化范围大,光照姿态变化比较剧烈以及时常发生遮挡等困难是 研究的重点文中对近期(主要近5年)基于视频的人脸识别研究进行了详细的介绍和讨论,在对相关方法分类的 基础上,分析了各类方法中典型技术的优缺点,并概况介绍了常用的视频人脸数据库和实验结果,最后展望了基于 视频人脸识别未来的发展方向和趋势 关键词模式识别;人脸识别;基于视频的人脸识别;进展 中图法分类号TP391 DOI号:10.3724/SP.J.1016.2009.00878 Sta te-of-the- Art on video based face recognition YAN Yan",2) ZHANG YuJ National Laboratory for Information Science and Technology, Tsinghua University, Beijing 100084) 2(Department of Electromic Engineering, Tsinghua University, Beijing 100084) Abstract Recently, video- based face reco gnition has become one of the hottest topics in the do- main of face recognition. How to fully utilize both spatial and temporal information in video to overcome the difficulties existing in the video- based face reco gnition, such as low resolution of face images in video, large variations of face scale, radical changes of illumination and pose as well as occasionally occlusion of different parts of faces, is the focus. The paper reviews most ex- isting typical methods for video- based face recognition(especially for the last 5 years)and analy- ses their respective pros and cons. Two co mmonly used video face data bases and some experime tal results are given. The prospects for future develop ment and suggestions for further research works are put forward in the end Key words pattern reco gnition; face recognition; video- based face recognition; progress 个领域也有着广泛的应用 1引言 圣过多年研究,人脸识别技术已取得了长足的进 步和发展随着视频监控、信息安全、访问控制等应用 人脸识别具有非常重大的理论意义和应用价领域的发展需求,基于视频的人脸识别已成为人脸识 值人脸识别的研究对于图像处理、模式识别、计算别领域最为活跃的研究方向之一4.如何充分利用 机视觉、计算机图形学等领域的发展具有重大的推视频中人脸的时间和空间信息克服视频中人脸分辨 动作用,同时在生物特征认证、视频监控、安全等各率低,尺度变化范围大,光照姿态变化剧烈以及时常 收稿日期2000903;最终修改稿收到日期:2009-04-06.本课题得到国家自然科学基金(60872084)和教育部高等学校博士学科点专项 科研基金( SREDP2006000102)资助严严,男,1984年生,博士,主要研究领域为人脸识别等章毓晋(通信作者),男,1954年生,博 士,教授,博士生导师,主要研究领域为图像工程(图像处理、图像分析、图像理解及其技术应用). Email: zhangye@ee. tsinghua. edu S1994-2009ChinaAcademicJOumaleLectronicpUblishingHouseAllrightsreservedhttp://www.cnki.net
第 32 卷 第 5 期 2009 年 5 月 计 算 机 学 报 CHIN ESE J OURNAL OF COMPU TERS Vol. 32 No. 5 May 2009 收稿日期 :2006209203 ;最终修改稿收到日期 :2009204206. 本课题得到国家自然科学基金(60872084) 和教育部高等学校博士学科点专项 科研基金(SRFDP220060003102) 资助. 严 严 ,男 ,1984 年生 ,博士 ,主要研究领域为人脸识别等. 章毓晋(通信作者) ,男 ,1954 年生 ,博 士 ,教授 ,博士生导师 ,主要研究领域为图像工程(图像处理、图像分析、图像理解及其技术应用) . E2mail : zhangyj @ee. tsinghua. edu. cn. 基于视频的人脸识别研究进展 严 严 1) ,2) 章毓晋 1) ,2) 1) (清华大学信息科学与技术国家实验室 北京 100084) 2) (清华大学电子工程系 北京 100084) 摘 要 近年来基于视频的人脸识别已成为人脸识别领域最为活跃的研究方向之一. 如何充分利用视频中人脸的 时间和空间信息克服视频中人脸分辨率低 ,尺度变化范围大 ,光照、姿态变化比较剧烈以及时常发生遮挡等困难是 研究的重点. 文中对近期(主要近 5 年) 基于视频的人脸识别研究进行了详细的介绍和讨论 ,在对相关方法分类的 基础上 ,分析了各类方法中典型技术的优缺点 ,并概况介绍了常用的视频人脸数据库和实验结果 ,最后展望了基于 视频人脸识别未来的发展方向和趋势. 关键词 模式识别 ;人脸识别 ;基于视频的人脸识别 ;进展 中图法分类号 TP391 DOI号 : 10. 3724/ SP.J. 1016. 2009. 00878 State2of2the2Art on Video2Based Face Recognition YAN Yan 1) ,2) ZHAN G Yu2Jin 1) ,2) 1) ( N ational L aboratory f or I nf ormation S cience and Technolog y , Tsinghua Universit y , Beijing 100084) 2) ( Department of Electronic Engineering , Tsinghua Universit y , Bei jing 100084) Abstract Recently , video2based face recognition has become one of the hottest topics in t he do2 main of face recognition. How to f ully utilize bot h spatial and temporal information in video to overcome the difficulties existing in t he video2based face recognition , such as low resolution of face images in video , large variations of face scale , radical changes of illumination and pose as well as occasionally occlusion of different parts of faces , is t he focus. The paper reviews most ex2 isting typical methods for video2based face recognition (especially for t he last 5 years) and analy2 ses t heir respective pros and cons. Two commonly used video face databases and some experimen2 tal results are given. The prospects for f ut ure development and suggestions for f urt her research works are p ut forward in the end. Keywords pattern recognition ; face recognition ; video2based face recognition ; progress 1 引 言 人脸识别具有非常重大的理论意义和应用价 值. 人脸识别的研究对于图像处理、模式识别、计算 机视觉、计算机图形学等领域的发展具有重大的推 动作用 ,同时在生物特征认证、视频监控、安全等各 个领域也有着广泛的应用. 经过多年研究 ,人脸识别技术已取得了长足的进 步和发展. 随着视频监控、信息安全、访问控制等应用 领域的发展需求 ,基于视频的人脸识别已成为人脸识 别领域最为活跃的研究方向之一[124 ] . 如何充分利用 视频中人脸的时间和空间信息克服视频中人脸分辨 率低 ,尺度变化范围大 ,光照、姿态变化剧烈以及时常
严等:基于视频的人脸识别研究进展 发生遮挡等困难是研究的重点.国内外众多的大学和“视频视频”人脸识别可以利用的信息最多.视频中 研究机构,如美国的MIT1、CMU、UIUC9、可以利用的信息包括:多幅同一个人的人脸图 Maryland大学H、英国的剑桥大学1、日本的像,视频中人脸在时间和空间上的连续性,利用视频 Toshi ba公司1和国内的中国科学院自动化生成的三维(3D)人脸模型等.需要强调的是本文这 所2都对基于视频的人脸识别进行了广泛而深入样分类的目的是为了能够对整个人脸识别领域的研 的研究鉴于目前现有的人脸识别国内外综述文献究现状有一个宏观上的认识,并区分不同情况下的 主要针对基于静止图像的人脸识别研究,因此有人脸识别.事实上不同情况下人脸识别采用的技术 必要对现阶段基于视频的人脸识别研究情况进行分可以是相同的,例如对所有人脸视频序列的处理是 析和总结,期望能够更好地指导未来的研究工作.按照某种规则(如大小、姿态清晰度等)提取一张人 脸图像,则上面的情况都可以采用基于静止图像的 2人脸识别概述 人脸识别技术 本文首先对现阶段基于视频的人脸识别研究现 个自动的基于视频的人脸识别系统包括了人状进行了详细的分析和讨论,接着介绍了常用的视 脸检测模块、人脸跟踪模块、人脸特征提取模块和人频人脸数据库和实验结果最后展望了未来的发展方 脸识别模块2.关于人脸检测、人脸跟踪和人脸特向本文假设已经得到图像或者视频中需识别人脸的 征提取的研究进展可以参考综述文献[-3]本文重位置对静止图像中人脸的定位可参见文献[2y24] 点介绍基于视频的人脸识别研究进展 对视频中人脸的定位和分割可参见文献[25 人脸识别问题可以定义成:输入(查询)场景中 的静止图像或者视频使用人脸数据库识别或验证3基于视频的人脸识别 场景中的一个人或者多个人21.基于静止图像的人 脸识别通常是指输入(查询)一幅静止的图像,使用 根据上一节的讨论,下面把基于视频的人脸识 人脸数据库进行识别或验证图像中的人脸而基于别分成“视频图像(多幅图像)”人脸识别和“视频 视频的人脸识别是指输入(查询)一段视频,使用人视频”人脸识别两种情况分别给予综述 脸数据库进行识别或验证视频中的人脸如不考虑3.1“视频图像(多幅图像)”人脸识别 视频的时间连续信息,问题也可以变成采用多幅图 “视频-图像(多幅图像)”人脸识别是指采用人 像(时间上不一定连续)作为输入(查询)进行识别或脸视频作为输入(查询)利用静止图像人脸数据库进 验证因此按照上面的分析,根据输入(查询)和人脸行识别或验证由于现有的大部分人脸数据库都是 数据库的不同,人脸识别可以分成如表1所示的静止图像人脸数据库,如何充分利用视频中的人脸 4种情况 信息更好地进行人脸识别是现阶段迫切需要解决的 表1输入(查询)和数据库不同情况下的人脸识别 识别方式 解决这类问题的传统做法128可以分成两大 数据库中图像(多幅图像)数据库中视频 类:一类方法对输入视频中的人脸进行跟踪,寻找满 输入(査询)图像图像-图像(多幅图像)图像视频 命入(査询)视频。视频-图像(多幅图像)视频视频 足一定规则(如大小、姿态清晰度等)的人脸图像,然 后利用基于静止图像的人脸识别方法.这类方法的 表中“图像图像(多幅图像)”人脸识别就是传缺点是规则很难定义,并且没有最大限度地利用人 统的基于静止图像的人脸识别.而“图像视频”脸视频中的时间和空间连续信息.另一类方法利用 人脸识别是指利用人脸图像作为输入采用视频人脸视频中的空间信息进行人脸识别通过对输入视频 数据库进行识别或验证.通常的应用领域是基于人中每一幅人脸或者若干幅人脸采用基于静止图像的 脸的视频信息检索.本文重点介绍的基于视频的人人脸识别方法3,利用各种联合规则(如多数投 脸识别主要是指后面两种情况,即“视频-图像(多幅票或者概率/距离累加等方法)再进行最终的识别 图像)”人脸识别和“视频视频”人脸识别.“视频图这类方法的缺点是联合规则常有相当的随机性 像(多幅图像)”人脸识别是指输入(查询)一段人脸 近年来,一些研究者开始利用视频中人脸的时 视频,利用静止图像人脸数据库进行识别或验证.间和空间连续信息进行识别文献[10]讨论了在贝 “视频视频”人脸识别是指输入和数据库都利用视叶斯理论的框架下统一解决人脸识别和跟踪问题, 频进行人脸识别或验证相对于前面3种情况,采用时间序列模型刻画人脸的动态变化,把身份变 C1994-2009ChinaAcademicJournalElectronicPublishingHouseAllrightsreservedhttp://www.cnki.net
发生遮挡等困难是研究的重点. 国内外众多的大学和 研究机构 ,如美国的 MIT [ 5 ] 、CMU [627 ] 、U IUC [829 ] 、 Maryland 大学[10212 ] 、英国的剑桥大学[13215 ] 、日本的 Toshiba 公司[16218 ] 和国内的中国科 学院自动 化 所[19221 ]都对基于视频的人脸识别进行了广泛而深入 的研究. 鉴于目前现有的人脸识别国内外综述文献 主要针对基于静止图像的人脸识别研究[ 123 ] ,因此有 必要对现阶段基于视频的人脸识别研究情况进行分 析和总结 ,期望能够更好地指导未来的研究工作. 2 人脸识别概述 一个自动的基于视频的人脸识别系统包括了人 脸检测模块、人脸跟踪模块、人脸特征提取模块和人 脸识别模块[22 ] . 关于人脸检测、人脸跟踪和人脸特 征提取的研究进展可以参考综述文献[ 123 ]. 本文重 点介绍基于视频的人脸识别研究进展. 人脸识别问题可以定义成 : 输入 (查询) 场景中 的静止图像或者视频 ,使用人脸数据库识别或验证 场景中的一个人或者多个人[ 122 ] . 基于静止图像的人 脸识别通常是指输入 (查询) 一幅静止的图像 ,使用 人脸数据库进行识别或验证图像中的人脸. 而基于 视频的人脸识别是指输入 (查询) 一段视频 ,使用人 脸数据库进行识别或验证视频中的人脸. 如不考虑 视频的时间连续信息 ,问题也可以变成采用多幅图 像(时间上不一定连续) 作为输入(查询) 进行识别或 验证. 因此按照上面的分析 ,根据输入(查询) 和人脸 数据库的不同 ,人脸识别可以分成如表 1 所示的 4 种情况. 表 1 输入(查询)和数据库不同情况下的人脸识别 识别方式 数据库中图像(多幅图像) 数据库中视频 输入(查询) 图像 图像2图像(多幅图像) 图像2视频 输入(查询) 视频 视频2图像(多幅图像) 视频2视频 表中“图像2图像 (多幅图像) ”人脸识别就是传 统的基于静止图像的人脸识别[123 ] . 而“图像2视频” 人脸识别是指利用人脸图像作为输入采用视频人脸 数据库进行识别或验证. 通常的应用领域是基于人 脸的视频信息检索. 本文重点介绍的基于视频的人 脸识别主要是指后面两种情况 ,即“视频2图像(多幅 图像) ”人脸识别和“视频2视频”人脸识别.“视频2图 像(多幅图像) ”人脸识别是指输入 (查询) 一段人脸 视频 ,利用静止图像人脸数据库进行识别或验证. “视频2视频”人脸识别是指输入和数据库都利用视 频进行人脸识别或验证. 相对于前面 3 种情况 , “视频2视频”人脸识别可以利用的信息最多. 视频中 可以利用的信息包括[4 ] : 多幅同一个人的人脸图 像 ,视频中人脸在时间和空间上的连续性 ,利用视频 生成的三维(3D) 人脸模型等. 需要强调的是本文这 样分类的目的是为了能够对整个人脸识别领域的研 究现状有一个宏观上的认识 ,并区分不同情况下的 人脸识别. 事实上不同情况下人脸识别采用的技术 可以是相同的 ,例如对所有人脸视频序列的处理是 按照某种规则(如大小、姿态、清晰度等) 提取一张人 脸图像 ,则上面的情况都可以采用基于静止图像的 人脸识别技术. 本文首先对现阶段基于视频的人脸识别研究现 状进行了详细的分析和讨论 ,接着介绍了常用的视 频人脸数据库和实验结果 ,最后展望了未来的发展方 向.本文假设已经得到图像或者视频中需识别人脸的 位置.对静止图像中人脸的定位可参见文献[ 23224 ] , 对视频中人脸的定位和分割可参见文献[25 ]. 3 基于视频的人脸识别 根据上一节的讨论 ,下面把基于视频的人脸识 别分成“视频2图像 (多幅图像) ”人脸识别和“视频2 视频”人脸识别两种情况分别给予综述. 3. 1 “视频2图像(多幅图像) ”人脸识别 “视频2图像 (多幅图像) ”人脸识别是指采用人 脸视频作为输入(查询) 利用静止图像人脸数据库进 行识别或验证. 由于现有的大部分人脸数据库都是 静止图像人脸数据库 ,如何充分利用视频中的人脸 信息更好地进行人脸识别是现阶段迫切需要解决的 问题. 解决这类问题的传统做法[26228 ] 可以分成两大 类 :一类方法对输入视频中的人脸进行跟踪 ,寻找满 足一定规则(如大小、姿态、清晰度等)的人脸图像 ,然 后利用基于静止图像的人脸识别方法. 这类方法的 缺点是规则很难定义 ,并且没有最大限度地利用人 脸视频中的时间和空间连续信息. 另一类方法利用 视频中的空间信息进行人脸识别. 通过对输入视频 中每一幅人脸或者若干幅人脸采用基于静止图像的 人脸识别方法[123 ] ,利用各种联合规则[ 29 ] (如多数投 票或者概率/ 距离累加等方法) 再进行最终的识别. 这类方法的缺点是联合规则常有相当的随机性[4 ] . 近年来 ,一些研究者开始利用视频中人脸的时 间和空间连续信息进行识别. 文献[ 10 ]讨论了在贝 叶斯理论的框架下统一解决人脸识别和跟踪问题 , 采用时间序列模型刻画人脸的动态变化 ,把身份变 5 期 严 严等 :基于视频的人脸识别研究进展 879
880 量和运动矢量作为状态变量从而引进时间和空间的 上述方法中都采用贝叶斯理论引进了时间信 信息;利用序贯重要度采样( Sequential Importance息,极大地提高了识别率并且采用序贯重要度采样 Sampling,SIS)的方法有效估计出身份变量和运动克服非高斯分布和非线性系统带来的难以估计概率 矢量的联合后验概率分布,通过边缘化提取出身份密度的问题.但是估计概率密度需要大量的粒子,导 变量的概率分布.实验结果表明了该算法的有效性.致其计算量比较大 不过当姿态变化时识别率只有57%之所以出现姿3.2“视频视频”人脸识别 态变化时识别率低的原因是对时间连续性的利用体 ‘视频视频”人脸识别是指输入和数据库中的 现在人脸外观一致上,而随着光照或姿态的变化会人脸均是以视频的形式存在大量的文献对如何同 导致外观的明显不同因此文献[1进一步提出了时利用输入和数据库中的人脸视频进行了深入的研 自适应外观变化模型并且采用自适应运动模型更准究现有文献中对视频中人脸信息的描述方式总结 确地处理姿态的变化,对运动模型中噪声的方差和起来有下面几种 采样算法中的粒子数根据计算得到外观模型的误差 (1)利用一幅代表性的图像得到的特征(矢量 进行更新,采用鲁棒统计学( ro bust statistics)处理表示),如主成分分析(PCA)降维后的矢量等 脸部遮挡问题.利用基于贝叶斯人脸识别方法的 (2)利用所有图像得到的特征(矩阵表示),如 似然函数进行权重更新使得整个算法更加有效 特征空间示例( exemplar,)等 文献[3-32]通过对输入视频中人脸的脸部特 (3)利用概率密度函数刻画视频中的人脸分 征或外观的跟踪进行人脸验证基本思想是,如果是布,如高斯模型等 正确的输入(对应数据库中要验证的人脸),则跟踪 4)利用动态模型刻画视频中人脸随时间的动 的轨迹基本一致;而如果是不正确的输入,则跟踪态变化,如隐马尔可夫模型等 轨迹没有规律性相应的数学模型就是考虑所得到 (5)利用流形( manifold)刻画视频中的人脸分 的运动矢量分布,如果呈现尖峰(一致的运动参数)布,如分段线性PCA子空间等 则认为是正确的人脸.如果没有呈现尖峰,而是类似 上述各种描述方式(矢量矩阵、概率密度、动态 均匀分布,则认为是错误的人脸 模型、流形)之间可能的度量如表2所示 表2描述方式之间的度量 输入 量(y(数据库)矩阵亻ⅹ(数据库)概率密度(∫数据库)动态模型(D(数据库)流形(M(数据 矢量(x frx D(x M(X 矩阵(X I(X. X d(X. x M(X 概率密度(f fIx f(X d(. f 动态模型(D d(D, D) d(D, M) 表2中d代表两个模型之间的距离或相似度,基于视频的人脸验证方法,采用形状和归一化纹理 f(X,M(y代表概率/距离累加或多数投票,D(X的联合外观模型( Active Appearance Model,AAM) 代表各帧后验概率 来表示人脸,通过加入类别信息的改进线性鉴别分 下面按照对输入描述方式的不同,分成矢量矩析( Linear Discriminant Analysis,LDA)分离出身 阵、概率、动态模型、流形5个小节分别给予介绍 份变量( identity)和其他变化因素(姿态、光照和表 3.21矢量 情).采用卡尔曼滤波器( Kalman filter)对身份变量 利用矢量作为输入描述方式的基本思想是利用进行跟踪得到的稳定值就是身份稳定估计量.人脸 视频得到一个反映输入人脸视频特性(如均值人脸验证就可以通过对输入人脸视频进行跟踪得到的估 图像、最好的正面图像等)的特征(矢量表示),和数计量和数据库得到的身份估计量进行比较看是否大 据库中的人脸视频描述方式进行匹配.数据库中人于某个阈值来实现.与基于静止图像的人脸验证方 脸视频的描述方式可以是矢量、矩阵、概率、动态模法相比,采用基于视频的人脸验证能利用更多的信 型`流形等 息,效果更好.算法采用ASM( Active Shape Model) 文献[33]对数据库中的每类人脸建立一个进行人脸定位可以避免误配准带来的影响但是一 PCA子空间,利用与各个人脸子空间的距离对输入旦定位不准,则对后继的参数跟踪会产生很大的误 视频中的所有人脸进行标注文献[34]介绍了一种差,导致识别率下降.并且对于达到稳定估计值需要 c1994-2009ChinaAcademicJourmalElectronicPublishingHouseAllrightsreservedhttp://www.cnki.net
量和运动矢量作为状态变量从而引进时间和空间的 信息 ;利用序贯重要度采样 (Sequential Importance Sampling ,SIS) 的方法有效估计出身份变量和运动 矢量的联合后验概率分布 ,通过边缘化提取出身份 变量的概率分布. 实验结果表明了该算法的有效性. 不过当姿态变化时识别率只有 57 %. 之所以出现姿 态变化时识别率低的原因是对时间连续性的利用体 现在人脸外观一致上 ,而随着光照或姿态的变化会 导致外观的明显不同. 因此文献[ 11 ]进一步提出了 自适应外观变化模型并且采用自适应运动模型更准 确地处理姿态的变化 ,对运动模型中噪声的方差和 采样算法中的粒子数根据计算得到外观模型的误差 进行更新 ,采用鲁棒统计学 (robust statistics) 处理 脸部遮挡问题. 利用基于贝叶斯人脸识别[30 ] 方法的 似然函数进行权重更新使得整个算法更加有效. 文献[31232 ]通过对输入视频中人脸的脸部特 征或外观的跟踪进行人脸验证. 基本思想是 ,如果是 正确的输入(对应数据库中要验证的人脸) ,则跟踪 的轨迹基本一致 ; 而如果是不正确的输入 ,则跟踪 轨迹没有规律性. 相应的数学模型就是考虑所得到 的运动矢量分布 ,如果呈现尖峰 (一致的运动参数) 则认为是正确的人脸. 如果没有呈现尖峰 ,而是类似 均匀分布 ,则认为是错误的人脸. 上述方法中都采用贝叶斯理论引进了时间信 息 ,极大地提高了识别率. 并且采用序贯重要度采样 克服非高斯分布和非线性系统带来的难以估计概率 密度的问题. 但是估计概率密度需要大量的粒子 ,导 致其计算量比较大. 3. 2 “视频2视频”人脸识别 “视频2视频”人脸识别是指输入和数据库中的 人脸均是以视频的形式存在. 大量的文献对如何同 时利用输入和数据库中的人脸视频进行了深入的研 究. 现有文献中对视频中人脸信息的描述方式总结 起来有下面几种 : (1) 利用一幅代表性的图像得到的特征 (矢量 表示) ,如主成分分析(PCA) 降维后的矢量等 ; (2) 利用所有图像得到的特征 (矩阵表示) ,如 特征空间、示例(exemplar) 等 ; (3) 利用概率密度函数刻画视频中的人脸分 布 ,如高斯模型等 ; (4) 利用动态模型刻画视频中人脸随时间的动 态变化 ,如隐马尔可夫模型等 ; (5) 利用流形 (manifold) 刻画视频中的人脸分 布 ,如分段线性 PCA 子空间等. 上述各种描述方式(矢量、矩阵、概率密度、动态 模型、流形) 之间可能的度量如表 2 所示. 表 2 描述方式之间的度量 输入 度量函数 矢量( x) (数据库) 矩阵( X) (数据库) 概率密度( f ) (数据库) 动态模型( D) (数据库) 流形( M) (数据库) 矢量( x) d( x , x) d( x , X) f ( x) D( x) M ( x) 矩阵( X) d( X, x) d( X, X) f ( X) D( X) M ( X) 概率密度( f ) f ( x) f ( X) d( f , f ) \ \ 动态模型( D) D( x) D( X) \ d( D , D) d( D , M) 流形( M) M ( x) M ( X) \ d( M , D) d( M , M) 表 2 中 d 代表两个模型之间的距离或相似度 , f ( X) , M ( X) 代表概率/ 距离累加或多数投票 , D ( X) 代表各帧后验概率. 下面按照对输入描述方式的不同 ,分成矢量、矩 阵、概率、动态模型、流形 5 个小节分别给予介绍. 31211 矢 量 利用矢量作为输入描述方式的基本思想是利用 视频得到一个反映输入人脸视频特性 (如均值人脸 图像、最好的正面图像等) 的特征 (矢量表示) ,和数 据库中的人脸视频描述方式进行匹配. 数据库中人 脸视频的描述方式可以是矢量、矩阵、概率、动态模 型、流形等. 文献 [ 33 ] 对数据库中的每类人脸建立一个 PCA 子空间 ,利用与各个人脸子空间的距离对输入 视频中的所有人脸进行标注. 文献[ 34 ]介绍了一种 基于视频的人脸验证方法 ,采用形状和归一化纹理 的联合外观模型(Active Appearance Model ,AAM) 来表示人脸 ,通过加入类别信息的改进线性鉴别分 析(Linear Discriminant Analysis ,LDA) 分离出身 份变量(identity) 和其他变化因素 (姿态、光照和表 情) . 采用卡尔曼滤波器 ( Kalman filter) 对身份变量 进行跟踪得到的稳定值就是身份稳定估计量. 人脸 验证就可以通过对输入人脸视频进行跟踪得到的估 计量和数据库得到的身份估计量进行比较看是否大 于某个阈值来实现. 与基于静止图像的人脸验证方 法相比 ,采用基于视频的人脸验证能利用更多的信 息 ,效果更好. 算法采用 ASM (Active Shape Model) 进行人脸定位可以避免误配准带来的影响. 但是一 旦定位不准 ,则对后继的参数跟踪会产生很大的误 差 ,导致识别率下降. 并且对于达到稳定估计值需要 880 计 算 机 学 报 2009 年
严等:基于视频的人脸识别研究进展 881 的视频长度无法计算和估计另一个借助视觉约束 文献[39]利用聚类的方法建立局部参数模型 的人脸跟踪和识别方法可见文献[35] 对数据库中的每个人脸建立多个局部流形首先对 3.2.2矩阵 数据库中的每段人脸视频经过LDA进行线性降 采用矩阵作为输入描述方式进行人脸识别的算维,通过采取 ISOMAP( Isometric feature Map 法可以分成两类,一类是利用得到的特征(矩阵表ping)提取各点的测地距离( geodesic distance)作 示)逐个与数据库中的人脸描述方式进行比较(相当为人脸之间的距离,从而可以更准确地刻画各点在 于每次取出矩阵的一行或者一列),然后利用多数投流形空间中的位置关系,然后采用HAC( Hierarch 票或者概率(距离)累加最大的方法进行识别.另一 cal Agglomerative Clustering)聚类方法得到K个 类是把得到的特征(矩阵表示)看成一个整体和数据示例,对每一示例采用类似文献[41的方法对每个 库中的人脸描述方式进行比较相对于前面一种方局部模型建立双子空间( dual subspace)概率模型 法,后者采用矩阵作为整体更能利用视频的空间连使用概率测度作为相似性度量,采用多数投票进行 续信息.数据库中人脸视频的描述方式可以是矢量、识别文献[6对每段人脸视频建立一个特征空间并 矩阵、概率、动态模型`流形等 把视频中人脸的变化看成一个非平稳的随机过程 文献[36]采用总体PCA方法进行降维,在低维(AR模型),采用逐步更新特征空间的方法并且引 空间中采用混合高斯模型( Gaussian Mixture model,进了权重的概念,对新的样本权重大,对以前的样本 GMM)来表示数据库中每个人脸通过计算输入视权重小该文中针对每个人脸建立两个特征空间,包 频中每一帧人脸的后验概率,采用多数投票和概率括训练集中的特征空间和识别后不断更新建立的新 累加最大的方法得到最终结果.文献[37]对数据库的特征空间来解决过慢学习的问题文献[4243利 的每类人脸建立多个匹配模板,并根据视频中的动用数据库中的人脸视频得到三维模型生成查询人脸 态的信息(如人脸姿态、运动模糊等)对多个模板进视频条件下的光照和姿态变化,然后逐一进行比对, 行自适应的融合文献[16]对输入的人脸序列和数用距离累计最大的方法得到识别结果 据库中的人脸序列分别建立一个PCA特征子空间,3.2.3概率 两个特征子空间之间的距离由它们之间的夹角确 采用概率作为输入描述形式的基本思想是把视 定为了进一步去除光照姿态、表情等的影响,把子频中人脸的动态变化看成是满足一定的概率分布的 空间重新投影到限制子空间( constraint subspace)高维随机变量.一般对数据库中视频的描述方式也 中,限制子空间只包含对识别有用的成分(身是概率方式,通过比较概率密度函数的相似性来度 份)1.为了解决限制子空间中需要大量样本的问量人脸之间相似性 题,进一步利用整体学习( ensemble learning)的方 文献[13].用GMM模型学习不同姿态和光 法训练出M个限制子空间,通过投影到这M个限照条件下的人脸分布,对输入人脸视频和数据库中 制子空间的距离加权和作为人脸之间距离的度的人脸视频都利用GMM模型进行建模,采用KL 量1.该类算法的主要缺点在于没有考虑每一类人散度( Kull back- Leibler divergence作为人脸之间相 脸的整体概率分布,没有利用每一类的均值和特征似性度量文献[5]把人脸识别问题看成是一个假设 值,在投影到限制子空间时可能会产生一定的问题,检验问题,证明了如果人脸视频中每一帧之间是相 并且参数的设定和空间维数都需要通过经验给出.互独立的,则得到的最优准则是KL散度.假设每 由于人脸在姿态光照、表情变化时呈现非线性个人脸服从高斯分布,采用KL散度作为相似性度 分布,文献[38在线性空间中通过核的方法映射到量但是由于假设是单高斯分布,因此无法刻画由于 高维的非线性空间(核 Hil bert空间),在高维空间光照或者是姿态变化导致人脸呈现流形的情况,并且 中的夹角(核主成分夹角)作为矩阵的相似性度量,KL散度本身是一种非对称的度量方式文献[4 并且利用正定的核函数就可以和SvM( Support用基于核函数方法把低维空间映射到高维空间,这 Vector machine)结合起来提高分类的性能.文献样就可以在高维空间中利用低维空间中的线性方法 [1920首先通过LDA进行线性降维,然后对每个(如PCA)来解决一般的复杂的非线性问题,采用 人的人脸视频通过矢量量化技术或者K均值聚类RAD( Resistor Average Distance)作为人脸相似性 形成K个类别,每个类别用聚类中心和聚类的权重度量.为了解决配准误差所带来的识别率下降的问 来表示最后采用EMD( Earth mover' s Distance)题,利用了多幅图像和 RANSAC( Random Sample 距离作为相似性度量进行人脸识别 Consensus)算法来解决.另外文献[44]利用了核的 C1994-2009ChinaAcademicJOunalElectronicPublishingHouseAllrightsreservedhttp://www.cnki.net
的视频长度无法计算和估计. 另一个借助视觉约束 的人脸跟踪和识别方法可见文献[35 ]. 3. 2. 2 矩 阵 采用矩阵作为输入描述方式进行人脸识别的算 法可以分成两类 ,一类是利用得到的特征 (矩阵表 示) 逐个与数据库中的人脸描述方式进行比较(相当 于每次取出矩阵的一行或者一列) ,然后利用多数投 票或者概率(距离) 累加最大的方法进行识别. 另一 类是把得到的特征(矩阵表示) 看成一个整体和数据 库中的人脸描述方式进行比较. 相对于前面一种方 法 ,后者采用矩阵作为整体更能利用视频的空间连 续信息. 数据库中人脸视频的描述方式可以是矢量、 矩阵、概率、动态模型、流形等. 文献[36 ]采用总体 PCA 方法进行降维 ,在低维 空间中采用混合高斯模型( Gaussian Mixture Model , GMM) 来表示数据库中每个人脸. 通过计算输入视 频中每一帧人脸的后验概率 ,采用多数投票和概率 累加最大的方法得到最终结果. 文献[ 37 ]对数据库 的每类人脸建立多个匹配模板 ,并根据视频中的动 态的信息(如人脸姿态、运动模糊等) 对多个模板进 行自适应的融合. 文献[ 16 ]对输入的人脸序列和数 据库中的人脸序列分别建立一个 PCA 特征子空间 , 两个特征子空间之间的距离由它们之间的夹角确 定. 为了进一步去除光照、姿态、表情等的影响 ,把子 空间重新投影到限制子空间 (constraint subspace) 中 , 限制子空 间只包含 对识别有 用的成 分 (身 份) [17 ] . 为了解决限制子空间中需要大量样本的问 题 ,进一步利用整体学习 (ensemble learning) 的方 法训练出 M 个限制子空间 ,通过投影到这 M 个限 制子空间的距离加权和作为人脸之间距离的度 量[18 ] . 该类算法的主要缺点在于没有考虑每一类人 脸的整体概率分布 ,没有利用每一类的均值和特征 值 ,在投影到限制子空间时可能会产生一定的问题 , 并且参数的设定和空间维数都需要通过经验给出. 由于人脸在姿态、光照、表情变化时呈现非线性 分布 ,文献[ 38 ]在线性空间中通过核的方法映射到 高维的非线性空间 (核 Hilbert 空间) ,在高维空间 中的夹角(核主成分夹角) 作为矩阵的相似性度量 , 并且利用正定的核函数就可以和 SVM (Support Vector Machine) 结合起来提高分类的性能. 文献 [19220 ]首先通过 LDA 进行线性降维 ,然后对每个 人的人脸视频通过矢量量化技术或者 K 均值聚类 形成 K 个类别 ,每个类别用聚类中心和聚类的权重 来表示. 最后采用 EMD ( Eart h Mover’s Distance) 距离作为相似性度量进行人脸识别. 文献[ 39 ]利用聚类的方法建立局部参数模型 , 对数据库中的每个人脸建立多个局部流形. 首先对 数据库中的每段人脸视频经过 LDA 进行线性降 维 ,通 过 采 取 ISOMA P ( Isometric feat ure Map2 ping) [ 40 ]提取各点的测地距离(geodesic distance) 作 为人脸之间的距离 ,从而可以更准确地刻画各点在 流形空间中的位置关系 ,然后采用 HAC( Hierarchi2 cal Agglomerative Clustering) 聚类方法得到 K 个 示例 ,对每一示例采用类似文献[ 41 ]的方法对每个 局部模型建立双子空间 ( dual subspace) 概率模型 , 使用概率测度作为相似性度量 ,采用多数投票进行 识别. 文献[ 6 ]对每段人脸视频建立一个特征空间并 把视频中人脸的变化看成一个非平稳的随机过程 (AR 模型) ,采用逐步更新特征空间的方法并且引 进了权重的概念 ,对新的样本权重大 ,对以前的样本 权重小. 该文中针对每个人脸建立两个特征空间 ,包 括训练集中的特征空间和识别后不断更新建立的新 的特征空间来解决过慢学习的问题. 文献[ 42243 ]利 用数据库中的人脸视频得到三维模型生成查询人脸 视频条件下的光照和姿态变化 ,然后逐一进行比对 , 采用距离累计最大的方法得到识别结果. 3. 2. 3 概 率 采用概率作为输入描述形式的基本思想是把视 频中人脸的动态变化看成是满足一定的概率分布的 高维随机变量. 一般对数据库中视频的描述方式也 是概率方式 ,通过比较概率密度函数的相似性来度 量人脸之间相似性. 文献[ 13 ]采用 GMM 模型学习不同姿态和光 照条件下的人脸分布 ,对输入人脸视频和数据库中 的人脸视频都利用 GMM 模型进行建模 ,采用 K2L 散度( Kullback2Leibler divergence) 作为人脸之间相 似性度量. 文献[ 5 ]把人脸识别问题看成是一个假设 检验问题 ,证明了如果人脸视频中每一帧之间是相 互独立的 ,则得到的最优准则是 K2L 散度. 假设每 个人脸服从高斯分布 ,采用 K2L 散度作为相似性度 量.但是由于假设是单高斯分布 ,因此无法刻画由于 光照或者是姿态变化导致人脸呈现流形的情况 ,并且 K2L 散度本身是一种非对称的度量方式. 文献[14 ]采 用基于核函数方法把低维空间映射到高维空间 ,这 样就可以在高维空间中利用低维空间中的线性方法 (如 PCA) 来解决一般的复杂的非线性问题 ,采用 RAD (Resistor2Average Distance) 作为人脸相似性 度量. 为了解决配准误差所带来的识别率下降的问 题 ,利用了多幅图像和 RANSAC ( Random Sample Consensus) 算法来解决. 另外文献[ 44 ]利用了核的 5 期 严 严等 :基于视频的人脸识别研究进展 881
方法,把原来的矢量空间映射到高维非线性空间很好地处理人脸的大规模旋转时的识别和跟踪问 RKHS( Reproducing Kernel Hilbert Space)中计算题.文献[21首先对所有的人脸利用LLE( Locally 概率分布之间的距离 Linear Embedding)降维后建立整体分段线性模型, 3.2.4动态模型 根据到各个分段子流形的距离采用贝叶斯推理的方 无论是矢量、矩阵和概率都没有利用时间连续法计算最大后验概率.在文献[45]中作者通过实验 的信息,所以可以自然地推广到多幅人脸图像(时间结果指出,利用时空结构的HMM大于一定长度 上不必连续)作为输入时的人脸识别问题.而动态模时要优于基于静止图像的多数投票方法,但是当视 型则利用了人脸的时间和空间连续变化的信息,能频的长度过短时则不一定这说明时间长短对动态 够更好地刻画人脸的动态变化特性数据库通常的模型的识别率会有一定影响 描述方式可以是矩阵、动态模型、流形 3.2.5流形 文献[10]中采用31节中介绍的概率模型,通 人脸在不同的光照、姿态变化下会构成一个的 过自动选择人脸视频中的示例(在线K均值聚类),低维空间的流形.所以利用流形作为输入描述 把人脸示例的索引也作为状态变量,采用SIS的方可以更好地描述人脸的分布.一般对数据库中的人 法估计出联合概率密度分布,最后通过边缘化求出脸采用同样的描述方法比较输入和数据库中流形 身份变量的分布进行人脸识别文献[71中对数据库的相似性作为度量 中的每段人脸视频采用PCA变换建立了特征子空 文献[4749]使用流形来解决基于视频的人脸 间,在特征子空间中建立一个自适应隐马尔可夫模型识别问题,首先建立了一个多视角动态人脸模型,包 ( Hidden markov model,HMM),识别阶段就可以计含了一个3D模型,一个和形状姿态无关的纹理模 算每个识别序列的后验概率作为相似性度量,并且当型,一个仿射变化模型.其基本思想是基于分析的合 满足一定条件时对HMM模型进行更新文献[12]把成,通过最小化损失函数,求解出模型的参数在视 运动人脸建模成一个ARMA( Auto- Regressive and频序列中该问题可以进一步简化,利用 Kalman滤 Moving average)模型(用姿态作为状态量,采用外波求解出形状和纹理.人脸纹理通过KDA( Kernel 观作为观测量),采用ARMA子空间之间的夹角作 Discriminant Analysis)降维后对单个人脸序列建立 为相似性度量 个分段的线性流形(特征矢量随着姿态的变化) 文献[8-9]和文献[10]的想法类似,认为应该把接着就可以通过比较轨迹的匹配程度进行人脸识 跟踪和识别结合起来,减少跟踪的误配准对识别的别但是要进行3D模型的估计需要大量的多视角 影响对不同姿态下的人脸构造一个低维分段线性图像,计算复杂度较大 流形为了引进时间信息,采用贝叶斯推理的方法 有文献中的典型算法总结如表3所示 建立了不同姿态之间的转移矩阵,该文的算法能够 表3典型的“视频视频”人脸识别的方法 度量方法 典型文 PCA特征子空间 重构误差d(x,X 文献/33J LDA降维后跟踪得到身份稳定估计量 欧式距离d(x,y 混合高斯模型 多数投票/概率累加f(X PCA特征子空间 子空间夹角dx,y 文献/16-18 核 Hilbert空 核主成分角d(X,X 文献/37J 矢量量化/K均值聚类得到示例 emd d(X. x 文献/19-20J 每个人脸由多个局部模型组成 每个局部模型建立双子空间概率模型 多数投票f(X 文献/38 两个PCA特征子空间 多数投票d(X.y 文献6J 3D模型得到的合成人脸图像 距离累加d(X,y 文献/42J 概率 混合高斯模型 KL测度d(f,f 文献137 单高斯模型 KL测度d(, 文献/5 概率 核PCA建立的单高斯模型 RAD测度d(f,f 文献/14J 动态模型 在线K均值聚类得到示例 最大后验概率D(y 文献/10 动态模型 隐马尔可夫(HMM模型 最大后验概率d(D,D) 文献/7 动态模型 自回归滑动平均(ARMA模型 ARMA子空间夹角d(D,D 动态模型 PCA子空间内分段线性流 最大后验概率d(D.M 文献/8-97 动态模型 LLE降维后分段线性流形 最大后验概率dD,M 文献/21 流形 KDA降维后分段线性流形 轨迹匹配dMM 文献/47-491 91994-2009chinaAcademicJournalElectronicPublishingHouseAllrightsreservedhttp://www.cnki.net
方法 ,把原来的矢量空间映射到高维非线性空间 R KHS(Rep roducing Kernel Hilbert Space) 中计算 概率分布之间的距离. 3. 2. 4 动态模型 无论是矢量、矩阵和概率都没有利用时间连续 的信息 ,所以可以自然地推广到多幅人脸图像(时间 上不必连续) 作为输入时的人脸识别问题. 而动态模 型则利用了人脸的时间和空间连续变化的信息 ,能 够更好地刻画人脸的动态变化特性. 数据库通常的 描述方式可以是矩阵、动态模型、流形. 文献[ 10 ]中采用 311 节中介绍的概率模型 ,通 过自动选择人脸视频中的示例(在线 K 均值聚类) , 把人脸示例的索引也作为状态变量 ,采用 SIS 的方 法估计出联合概率密度分布 ,最后通过边缘化求出 身份变量的分布进行人脸识别. 文献[7 ]中对数据库 中的每段人脸视频采用 PCA 变换建立了特征子空 间 ,在特征子空间中建立一个自适应隐马尔可夫模型 ( Hidden Markov Model , HMM) ,识别阶段就可以计 算每个识别序列的后验概率作为相似性度量 ,并且当 满足一定条件时对 HMM 模型进行更新. 文献[12 ]把 运动人脸建模成一个 ARMA (Auto2Regressive and Moving Average) 模型(用姿态作为状态量 ,采用外 观作为观测量) ,采用 ARMA 子空间之间的夹角作 为相似性度量. 文献[ 829 ]和文献[10 ]的想法类似 ,认为应该把 跟踪和识别结合起来 ,减少跟踪的误配准对识别的 影响. 对不同姿态下的人脸构造一个低维分段线性 流形. 为了引进时间信息 ,采用贝叶斯推理的方法 , 建立了不同姿态之间的转移矩阵 ,该文的算法能够 很好地处理人脸的大规模旋转时的识别和跟踪问 题. 文献[ 21 ]首先对所有的人脸利用 LL E (Locally Linear Embedding) 降维后建立整体分段线性模型 , 根据到各个分段子流形的距离采用贝叶斯推理的方 法计算最大后验概率. 在文献[ 45 ]中作者通过实验 结果指出 ,利用时空结构的 HMM [7 ] 大于一定长度 时要优于基于静止图像的多数投票方法 ,但是当视 频的长度过短时则不一定. 这说明时间长短对动态 模型的识别率会有一定影响. 3. 2. 5 流 形 人脸在不同的光照、姿态变化下会构成一个的 低维空间的流形[39 ,46 ] . 所以利用流形作为输入描述 可以更好地描述人脸的分布. 一般对数据库中的人 脸采用同样的描述方法. 比较输入和数据库中流形 的相似性作为度量. 文献[ 47249 ]使用流形来解决基于视频的人脸 识别问题 ,首先建立了一个多视角动态人脸模型 ,包 含了一个 3D 模型 ,一个和形状姿态无关的纹理模 型 ,一个仿射变化模型. 其基本思想是基于分析的合 成 ,通过最小化损失函数 ,求解出模型的参数. 在视 频序列中该问题可以进一步简化 ,利用 Kalman 滤 波求解出形状和纹理. 人脸纹理通过 KDA ( Kernel Discriminant Analysis) 降维后对单个人脸序列建立 一个分段的线性流形 (特征矢量随着姿态的变化) . 接着就可以通过比较轨迹的匹配程度进行人脸识 别. 但是要进行 3D 模型的估计需要大量的多视角 图像 ,计算复杂度较大. 现有文献中的典型算法总结如表 3 所示. 表 3 典型的“视频2视频”人脸识别的方法 输入描述 数据库中人脸的描述 度量方法 典型文献 矢量 PCA 特征子空间 重构误差 d( x , X) 文献[33 ] 矢量 LDA 降维后跟踪得到身份稳定估计量 欧式距离 d( x , x) 文献[34 ] 矩阵 混合高斯模型 多数投票/ 概率累加 f ( X) 文献[35 ] 矩阵 PCA 特征子空间 子空间夹角 d( X, X) 文献[16218 ] 矩阵 核 Hilbert 空间 核主成分角 d( X, X) 文献[37 ] 矩阵 矢量量化/ K2均值聚类得到示例 EMD d( X, X) 文献[19220 ] 矩阵 每个人脸由多个局部模型组成 每个局部模型建立双子空间概率模型 多数投票 f ( X) 文献[38 ] 矩阵 两个 PCA 特征子空间 多数投票 d( X, X) 文献[6 ] 矩阵 3D 模型得到的合成人脸图像 距离累加 d( X, X) 文献[42 ] 概率 混合高斯模型 K2L 测度 d ( f , f ) 文献[13 ] 概率 单高斯模型 K2L 测度 d ( f , f ) 文献[5 ] 概率 核 PCA 建立的单高斯模型 RAD 测度 d( f , f ) 文献[14 ] 动态模型 在线 K 均值聚类得到示例 最大后验概率 D( X) 文献[10 ] 动态模型 隐马尔可夫( HMM) 模型 最大后验概率 d( D , D) 文献[7 ] 动态模型 自回归滑动平均(ARMA) 模型 ARMA 子空间夹角 d( D , D) 文献[12 ] 动态模型 PCA 子空间内分段线性流形 最大后验概率 d( D , M) 文献[829 ] 动态模型 LL E 降维后分段线性流形 最大后验概率 d( D , M) 文献[21 ] 流形 KDA 降维后分段线性流形 轨迹匹配 d( M , M) 文献[47249 ] 882 计 算 机 学 报 2009 年