工程科学学报,第39卷,第11期:1727-1734,2017年11月 Chinese Journal of Engineering,Vol.39,No.11:1727-1734,November 2017 DOI:10.13374/j.issn2095-9389.2017.11.016 http //journals.ustb.edu.cn 基于光流方向信息熵统计的微表情捕捉 李丹”,解仑)区,卢婷”,韩晶”,胡波”,王志良”,任福继》 1)北京科技大学计算机与通信工程学院,北京1000832)合肥工业大学计算机与信息学院,合肥230009 ☒通信作者,Email:xielun@ustb.edu.cn 摘要以光流法为依据,提出了一种基于光流方向信息熵(entropy of oriented optical flow,EOF)统计的方法捕捉微表情关键 帧.首先,采用改进的Hom-Schunck光流法提取视频流中相邻两帧图像的微表情运动特征;其次,采用阈值分析法筛选出投 影速度模值较大的光流向量:之后,采用图像信总熵统计光流变化角度,进而得到视频序列的方向信息熵向量,通过对熵向量 的分析,实现微表情关键帧捕捉:最后,本实验采用芬兰奥卢大学的SMIC微表情数据库和中国科学院心理研究所傅小兰的 CASME微表情数据库作为实验样本,通过与传统的帧差法比较,证明了本文提出的算法优于帧差法,能够较好地表现出微表 情变化趋势,为微表情识别提供基础。 关键词微表情:HS光流:方向信息熵:帧差法:关键帧捕捉 分类号TP751.1 Capture of microexpressions based on the entropy of oriented optical flow ⅡDan》,XELn',LU Ting',,HAN Jing',HlBo”,WANG Zhi-liang',REN Fuj 1)School of Computer and Communication Engineering,University of Science and Technology Beijing,Beijing 100083,China 2)School of Computer and Information,Hefei University of Technology,Hefei 230009,China Corresponding author,E-mail:xielun@ustb.edu.cn ABSTRACT This paper proposes an algorithm that is effective in detecting the key frame of microexpression based on the entropy of oriented optical flow.Initially,this paper used an improved Homn-Schunck optical flow to extract the motion features of adjacent frames.Then,the threshold algorithm was used to filter the optical flow vectors with high-projective modulus.To capture the key frame of microexpression,the paper used information entropy to count the direction of optical flow vectors and analyzed the changing of microexpressions using an entropy vector of video sequences.Finally,the algorithm in this paper was verified with microexpression database SMIC (Oulu University)and CASME (the Director of the Institute of Psychology at the Chinese Academy of Sciences,Fu Xiaolan).Compared with traditional frame differences,experiments show that the algorithm is good not only in expressing the trend of the microexpression but also in providing the basis for microexpression recognition. KEY WORDS microexpression;Horn-Schunck optical flow:oriented optical flow:frame difference;key-frame capture 表情作为一种表达自身情感状态的面部行为,在1/5s0.早在1969年,Ekman和Friesen在抑郁症患者 生物特征识别领域得到了广泛的关注:随着研究的不的访谈中发现了微表情的存在,奠定了微表情研究的 断深入,人们发现了一种被普遍忽略的面部行为一 基础四.之后,Porter和ten Brinke首次公开发表了对 微表情。微表情作为一种不易被察觉的表情,常常在 微表情表达的实证研究报告,报告中指出,通过测试被 个体试图压制自我时表达出真实的情感状态,它的出 试者对图片库做出的真实或者虚假的表情反应,从而 现是无意识的、不能自控的,持续时间仅仅为1/25s到 质疑微表情的有效性田.近年来,微表情研究受到了 收稿日期:2016-12-15 基金项目:国家自然科学基金资助项目(61672093,61432004):国家重点研发计划重点专项课题资助项目(2016YFB1001404)
工程科学学报,第 39 卷,第 11 期: 1727--1734,2017 年 11 月 Chinese Journal of Engineering,Vol. 39,No. 11: 1727--1734,November 2017 DOI: 10. 13374 /j. issn2095--9389. 2017. 11. 016 http: / /journals. ustb. edu. cn 基于光流方向信息熵统计的微表情捕捉 李 丹1) ,解 仑1) ,卢 婷1) ,韩 晶1) ,胡 波1) ,王志良1) ,任福继2) 1) 北京科技大学计算机与通信工程学院,北京 100083 2) 合肥工业大学计算机与信息学院,合肥 230009 通信作者,E-mail: xielun@ ustb. edu. cn 摘 要 以光流法为依据,提出了一种基于光流方向信息熵( entropy of oriented optical flow,EOF) 统计的方法捕捉微表情关键 帧. 首先,采用改进的 Horn--Schunck 光流法提取视频流中相邻两帧图像的微表情运动特征; 其次,采用阈值分析法筛选出投 影速度模值较大的光流向量; 之后,采用图像信息熵统计光流变化角度,进而得到视频序列的方向信息熵向量,通过对熵向量 的分析,实现微表情关键帧捕捉; 最后,本实验采用芬兰奥卢大学的 SMIC 微表情数据库和中国科学院心理研究所傅小兰的 CASME 微表情数据库作为实验样本,通过与传统的帧差法比较,证明了本文提出的算法优于帧差法,能够较好地表现出微表 情变化趋势,为微表情识别提供基础. 关键词 微表情; H--S 光流; 方向信息熵; 帧差法; 关键帧捕捉 分类号 TP751. 1 Capture of microexpressions based on the entropy of oriented optical flow LI Dan1) ,XIE Lun1) ,LU Ting1) ,HAN Jing1) ,HU Bo1) ,WANG Zhi-liang1) ,REN Fu-ji2) 1) School of Computer and Communication Engineering,University of Science and Technology Beijing,Beijing 100083,China 2) School of Computer and Information,Hefei University of Technology,Hefei 230009,China Corresponding author,E-mail: xielun@ ustb. edu. cn ABSTRACT This paper proposes an algorithm that is effective in detecting the key frame of microexpression based on the entropy of oriented optical flow. Initially,this paper used an improved Horn--Schunck optical flow to extract the motion features of adjacent frames. Then,the threshold algorithm was used to filter the optical flow vectors with high-projective modulus. To capture the key frame of microexpression,the paper used information entropy to count the direction of optical flow vectors and analyzed the changing of microexpressions using an entropy vector of video sequences. Finally,the algorithm in this paper was verified with microexpression database SMIC ( Oulu University) and CASME ( the Director of the Institute of Psychology at the Chinese Academy of Sciences,Fu Xiaolan) . Compared with traditional frame differences,experiments show that the algorithm is good not only in expressing the trend of the microexpression but also in providing the basis for microexpression recognition. KEY WORDS microexpression; Horn--Schunck optical flow; oriented optical flow; frame difference; key-frame capture 收稿日期: 2016--12--15 基金项目: 国家自然科学基金资助项目( 61672093,61432004) ; 国家重点研发计划重点专项课题资助项目( 2016YFB1001404) 表情作为一种表达自身情感状态的面部行为,在 生物特征识别领域得到了广泛的关注. 随着研究的不 断深入,人们发现了一种被普遍忽略的面部行为——— 微表情. 微表情作为一种不易被察觉的表情,常常在 个体试图压制自我时表达出真实的情感状态,它的出 现是无意识的、不能自控的,持续时间仅仅为 1 /25 s 到 1 /5 s[1]. 早在 1969 年,Ekman 和 Friesen 在抑郁症患者 的访谈中发现了微表情的存在,奠定了微表情研究的 基础[2]. 之后,Porter 和 ten Brinke 首次公开发表了对 微表情表达的实证研究报告,报告中指出,通过测试被 试者对图片库做出的真实或者虚假的表情反应,从而 质疑微表情的有效性[3]. 近年来,微表情研究受到了
·1728 工程科学学报,第39卷,第11期 国内外研究人员的广泛关注,例如芬兰奥卢大学的赵 化关键帧 国英团队利用光流向量的时空一体化检测微表情特 2 征0:日本筑波大学的Polikovsky团队采用3D梯度直 光流法及图像信息熵统计法 方图直观的描述人脸面部运动,检测微表情特征,并论 2.1改进的光流法 证了相邻帧之间的变化趋势及其对微表情研究的影 光流表征了三维空间中运动物体表面的点在成像 响:日本早稻田大学的Yao等基于FACS和面部特 平面上投影的瞬时速度,它依据相邻两帧之间像素点 征点追踪学习检测(tracking learning detection)获得微 在时间域上的变化,找到上一帧与当前帧的对应关系, 表情特征网,均取得了较好的结果.国内对微表情研 进而得到相邻两帧之间像素点的运动信息回 究起步较晚,中国科学院傅小兰教授团队于2010年开 光流的计算方法可以分为三类:基于特征匹配的 始研究微表情,之后自主研发了基于静态特征的微表 方法、基于频域的方法和基于梯度的方法.对于较 情识别系统.除此之外,张量子空间判别法圆、基于 大目标的运动,基于特征匹配的方法具有较高的鲁棒 局部二值模式的正交平面算子网等均被相关团队用来 性,但是该方法计算的光流稀疏,难以进行特征提取. 提取微表情特征,效果显著 基于频域的方法虽然能够得到较高精度的初始光流, 微表情的分析主要分为三个步骤:捕捉、特征提取 但是计算较为复杂并且难以评价其可靠性.基于梯度 以及分类.因此,准确的微表情捕捉是提取表情特征、 的方法依据时空梯度函数计算每一个像素点的光流矢 实现表情分类并进一步探究人类真实情感状态的基 量,此方法计算较为简单且效果显著.因此,本文采用 础.本文首先采用光流法提取视频中相邻两帧图像之 基于梯度的方法获取连续视频帧中微表情的光流 间的微表情运动特征:其次结合阈值分析法过滤光流 特征. 在二维坐标系中投影模值较小的运动向量;之后,依据 光流法的计算过程中有三个假设条件四: 分析结果,采用方向信息熵统计的方法分析光流向量 I.假设相邻两帧图像之间灰度恒定: 的角度变化信息;最后,通过与帧间差法的对比,表明 Ⅱ.假设相邻两帧图像的时间间隔趋于零,运动物 了本实验算法能够更好的捕捉微表情发生过程,具有 体改变量微小: 较好的实用性. Ⅲ.假设在相同区域内,像素点运动相同 因此,在光照变化较为恒定,且无较大噪声干扰的 1基于帧差法的微表情捕捉 情况下,视频图像序列中!时刻的灰度图像I(x,y,t) 对于高速视频流中相邻的两帧图像,可假设相邻 在+△t时间内的变化量可由式(3)表示: 位置的像素灰度值保持不变,当运动区域发生变化,相 I(x+△x,y+△y,t+△l)=I(x,y,t). (3) 应位置的灰度也会随之变化,因此,可采用相邻两帧图 式中,△x、△y、△:为xy、l上的改变量.将式(3)左边 像之间像素灰度值的差分检测运动目标 采用泰勒展开式展开得: 设F为包含有W帧的微表情视频序列F=,∫, I(x+△x,y+△y,t+△)= …fm},f为视频序列中第k帧图像,其中k=1,2,…, 1(xy,)+△x+A (4) W.通过第k帧图像与第k-1帧图像的灰度差,计算 4* 41+. 相邻两帧图像之间的欧氏距离d-,公式如下: 将式(4)代入式(3)中并忽略高阶项可得: di -f-)2 (5) (1 ++=0 ax 式中,M×N为图像分辨率. 当△x、△y、△:趋近于零时可近似为dx、dy、dl,因 设定一个阈值T,如果与f的欧氏距离超过阈 此,将它们代入上式可得到式(6): 值T,则认为有目标运动,即为关键帧:若小于阈值 ls+业+=0. (6) T,则认为目标静止为非关键帧,即: ax dt ay dt at 设光流矢量q=(,)T,其中u表示像素点光流 「dk-i≥T,k=2,3,…,W,f一关键帧: (2) 矢量在x方向上的分量的模值,表示像素点光流矢 d1<T,k=2,3,…,W,一非关键帧 采用帧间差分法捕捉微表情,首先对每一帧图 量在y方向上的分量的模值,另u=华=出=副 d山ws 像做灰度处理,得到帧集合F=,,…,「}.之 后,将相邻两帧图像之间所有像素点逐一做差,从而 ,代入上式(6)可得化简结果如下: 得到视频流中两两图像帧之间的欧氏距离集合D= Iu+Iv+1=0. (7) {d,d2,…,d。-1}.设集合D中所有元素的均值为阈 式中,I,I,,可通过图像中相邻像素点的灰度值进行 值T,对D中的数值进行正向排序,最终得到表情变 估算,如下式(8)所示:
工程科学学报,第 39 卷,第 11 期 国内外研究人员的广泛关注,例如芬兰奥卢大学的赵 国英团队利用光流向量的时空一体化检测微表情特 征[4]; 日本筑波大学的 Polikovsky 团队采用 3D 梯度直 方图直观的描述人脸面部运动,检测微表情特征,并论 证了相邻帧之间的变化趋势及其对微表情研究的影 响[5]; 日本早稻田大学的 Yao 等基于 FACS 和面部特 征点追踪学习检测( tracking learning detection) 获得微 表情特征[6],均取得了较好的结果. 国内对微表情研 究起步较晚,中国科学院傅小兰教授团队于 2010 年开 始研究微表情,之后自主研发了基于静态特征的微表 情识别系统[7]. 除此之外,张量子空间判别法[8]、基于 局部二值模式的正交平面算子[9]等均被相关团队用来 提取微表情特征,效果显著. 微表情的分析主要分为三个步骤: 捕捉、特征提取 以及分类. 因此,准确的微表情捕捉是提取表情特征、 实现表情分类并进一步探究人类真实情感状态的基 础. 本文首先采用光流法提取视频中相邻两帧图像之 间的微表情运动特征; 其次结合阈值分析法过滤光流 在二维坐标系中投影模值较小的运动向量; 之后,依据 分析结果,采用方向信息熵统计的方法分析光流向量 的角度变化信息; 最后,通过与帧间差法的对比,表明 了本实验算法能够更好的捕捉微表情发生过程,具有 较好的实用性. 1 基于帧差法的微表情捕捉 对于高速视频流中相邻的两帧图像,可假设相邻 位置的像素灰度值保持不变,当运动区域发生变化,相 应位置的灰度也会随之变化,因此,可采用相邻两帧图 像之间像素灰度值的差分检测运动目标. 设 F 为包含有 W 帧的微表情视频序列 F = { f1,f2, …,fW } ,fk 为视频序列中第 k 帧图像,其中 k = 1,2,…, W. 通过第 k 帧图像与第 k - 1 帧图像的灰度差,计算 相邻两帧图像之间的欧氏距离 dk - 1,公式如下: dk - 1 = ∑ M ×N k = 1 ( fk - fk -1 ) 槡 2 . ( 1) 式中,M × N 为图像分辨率. 设定一个阈值 T,如果 fk 与 fk - 1的欧氏距离超过阈 值 T,则认为有目标运动,fk 即为关键帧; 若小于阈值 T,则认为目标静止,fk 为非关键帧,即: dk - 1≥T,k = 2,3,…,W,fk—关键帧; dk - 1 < T,k = 2,3,…,W,f { k—非关键帧. ( 2) 采用帧间差分法捕捉微表情,首先 对 每 一 帧 图 像做灰 度 处 理,得 到 帧 集 合 F = { f1,f2,…,fW } . 之 后,将相邻两帧图像之间所有像素点逐一做差,从而 得到视频流中两两图像帧之间的欧氏距离集合 D = { d1,d2,…,dW - 1 } . 设集合 D 中所有元素的均值为阈 值 T,对 D 中的数值进行正向排序,最终得到表情变 化关键帧. 2 光流法及图像信息熵统计法 2. 1 改进的光流法 光流表征了三维空间中运动物体表面的点在成像 平面上投影的瞬时速度,它依据相邻两帧之间像素点 在时间域上的变化,找到上一帧与当前帧的对应关系, 进而得到相邻两帧之间像素点的运动信息[10]. 光流的计算方法可以分为三类: 基于特征匹配的 方法、基于频域的方法和基于梯度的方法[11]. 对于较 大目标的运动,基于特征匹配的方法具有较高的鲁棒 性,但是该方法计算的光流稀疏,难以进行特征提取. 基于频域的方法虽然能够得到较高精度的初始光流, 但是计算较为复杂并且难以评价其可靠性. 基于梯度 的方法依据时空梯度函数计算每一个像素点的光流矢 量,此方法计算较为简单且效果显著. 因此,本文采用 基于梯度的方法获取连续视频帧中微表情的光流 特征. 光流法的计算过程中有三个假设条件[12]: Ⅰ. 假设相邻两帧图像之间灰度恒定; Ⅱ. 假设相邻两帧图像的时间间隔趋于零,运动物 体改变量微小; Ⅲ. 假设在相同区域内,像素点运动相同. 因此,在光照变化较为恒定,且无较大噪声干扰的 情况下,视频图像序列中 t 时刻的灰度图像 I( x,y,t) 在 t + Δt 时间内的变化量可由式( 3) 表示: I( x + Δx,y + Δy,t + Δt) = I( x,y,t) . ( 3) 式中,Δx、Δy 、Δt 为 x、y、t 上的改变量 . 将式( 3) 左边 采用泰勒展开式展开得: I( x + Δx,y + Δy,t + Δt) = I( x,y,t) + I x Δx + I y Δy + I t Δt + … ( 4) 将式( 4) 代入式( 3) 中并忽略高阶项可得: I x Δx + I y Δy + I t Δt = 0. ( 5) 当 Δx、Δy、Δt 趋近于零时可近似为 dx、dy、dt,因 此,将它们代入上式可得到式( 6) : I x dx dt + I y dy dt + I t = 0. ( 6) 设光流矢量 q = ( u,v) T ,其中 u 表示像素点光流 矢量在 x 方向上的分量的模值,v 表示像素点光流矢 量在 y 方向上的分量的模值,另 u = dx dt 、v = dy dt 、Ix = I x 、 Iy = I y 、t = I t ,代入上式( 6) 可得化简结果如下: Ixu + Iy v + It = 0. ( 7) 式中,Ix、Iy、It 可通过图像中相邻像素点的灰度值进行 估算,如下式( 8) 所示: · 8271 ·
李丹等:基于光流方向信息熵统计的微表情捕捉 ·1729· (lw-L)+(Lilt-1y)+(w1-1i)+(lyl1-1i) (8) 以上分析可知,每个光流矢量均包含横向和纵向分量, 3基于光流方向信息熵统计的微表情关键 然而仅由公式(7)无法确定解集,这就造成了孔径问 题.因此,本小结引入H-S全局平滑约束方程计 帧捕捉 算光流失量.假设图像中像素点的光流分量的梯度变 由以上分析可知,光流可以表征相邻两帧视频序 化非常微小,即等式(9): 列之间各个像素点的速度方向及大小.在微表情发生 过程中,一般经历面部肌肉收紧一保持一释放三个阶 (9) 段,故而表情的变化导致了光流矢量指向各个方向. 对于表情变化较小的帧,速度方向比较单一,而表情变 化较大的帧,速度方向信息丰富,以左嘴角为例,光流 式中,V、V,分别表示光流矢量分量的梯度变化量. 实验结果如图1所示 通过求解式(9)的最小值估计图像在x、y方向上的速 度u、,从而提高了算法的收敛性 当处理多帧图像序列时,采用高斯迭代法计算光 流矢量,如下式(10): Iu+1,0+l, X2+P+P (10) 式中,初始光流向量为零向量,为迭代次数,入为权重 系数,噪声越强,权重系数越大.本小结选用广=20, 入=25作为计算参数估计光流矢量. 图1左嘴角的光流实验结果 Fig.I Experimental results of optical flow at the left corner of mouth 2.2图像信息熵统计 信息熵是表征信息量大小的量度,一个事件不确 基于此,本文选取光流方向特征分析微表情变化 定性越大,信息量越多,其熵就越大设离散型随机变 趋势,并结合方向信息熵统计的方法捕捉微表情关键 量x的集合X={x,x2,…,x,…},那离散型随机变量 帧,即光流方向信息熵(entropy of oriented optical flow, X的信息熵定义为: EOF)统计. )=-(log (11) 对于一个W帧的视频图像序列,分辨率为M×N, 首先对视频图像的每一帧进行灰度处理,之后通过改 其中,b为常量.对于一个连续的视频,在计算机中的 进的光流法得到连续视频图像序列之间各像素点的光 存储方式是在时间上被离散化的,那么图像所传递的 流矢量q=(u,)T,并采用式(14)将其转化为极坐标 信息量可以用图像的信息熵来表示.对于一个有1级 (r,0)形式 灰度的图像来说,假设第i级灰度出现的概率为P:,那 么当P:接近于1时,信息的不确定度就很小,相反当P: fu=rcos 0, r=√m+, (14) 接近于0时,图像传送的不确定度就越大.根据信息 v=rsin 6. 6=arctan- 论原理,设定某个像素级所带的信息量为: 其次,选取合适的阈值过滤投影模值较小的光流矢 I(i)=log (1/p)=-log (p:). (12) 量,即图2中处于阴影部分以内的值.本实验运动方 那么,这幅图像所带的平均信息熵(信息熵)为: 向角度0∈0°,360°],将360°均分为n等分,分别为 第1个角度区间至第n个角度区间,那么每一份的角 H=Σpg1p)=-名ng.(IB) 度范图为(0.360(+D)其中i=01,2 特殊的p:=0时,P:log(1/p:)=0. n-1,如图2所示. 由文献5]可知,信息嫡可被认为是反应图像信 息量大小的量度,熵值越大说明图像中含有的信息越 设为运动方向处在(0,0:+1)之间 多,更能够反映出图像的主要特征.相应的,熵值越 的像素点的数目,那么每一个角度范围所带有的信息 小,包含的信息内容越少,越难反映出图像特征 量为1,定义如式(15):
李 丹等: 基于光流方向信息熵统计的微表情捕捉 Ix Iy I z = 1 4 ( Ix + 1,y,t - Ix,y,t ) + ( Ix + 1,y + 1,t - Ix,y + 1,t ) + ( Ix + 1,y,t + 1 - Ix,y,t + 1 ) + ( Ix + 1,y + 1,t + 1 - Ix,y + 1,t + 1 ) ( Ix,y + 1,t - Ix,y,t ) + ( Ix + 1,y + 1,t - Ix + 1,y,t ) + ( Ix,y + 1,t + 1 - Ix,y,t + 1 ) + ( Ix + 1,y + 1,t + 1 - Ix + 1,y,t + 1 ) ( Ix,y,t + 1 - Ix,y,t ) + ( Ix + 1,y,t + 1 - Ix + 1,y,t ) + ( Ix,y + 1,t + 1 - Ix,y + 1,t ) + ( Ix + 1,y + 1,t + 1 - Ix + 1,y + 1,t ) . ( 8) 以上分析可知,每个光流矢量均包含横向和纵向分量, 然而仅由公式( 7) 无法确定解集,这就造成了孔径问 题[13--14]. 因此,本小结引入 H--S 全局平滑约束方程计 算光流失量. 假设图像中像素点的光流分量的梯度变 化非常微小,即等式( 9) : | Δ u | 2 ( = u ) x 2 ( + u ) y 2 = 0, | Δ v| 2 ( = v ) x 2 ( + v ) y 2 { = 0. ( 9) 式中, Δ u、 Δ v 分别表示光流矢量分量的梯度变化量. 通过求解式( 9) 的最小值估计图像在 x、y 方向上的速 度 u、v,从而提高了算法的收敛性. 当处理多帧图像序列时,采用高斯迭代法计算光 流矢量,如下式( 10) : u( j + 1) v [ ( j + 1) ] = u( j) v [ ( j) ] - Ixu( j) + Iy v ( j) + It λ2 + I 2 x + I 2 y Ix [ I ] y . ( 10) 式中,初始光流向量为零向量,j 为迭代次数,λ 为权重 系数,噪声越强,权重系数越大. 本小结选用 j = 20, λ = 25作为计算参数估计光流矢量. 2. 2 图像信息熵统计 信息熵是表征信息量大小的量度,一个事件不确 定性越大,信息量越多,其熵就越大. 设离散型随机变 量 xi 的集合 X = { x1,x2,…,xi,…} ,那离散型随机变量 X 的信息熵定义为: H( X) = - ∑xi ∈X p( xi ) logp( xi ) b . ( 11) 其中,b 为常量. 对于一个连续的视频,在计算机中的 存储方式是在时间上被离散化的,那么图像所传递的 信息量可以用图像的信息熵来表示. 对于一个有 l 级 灰度的图像来说,假设第 i 级灰度出现的概率为 pi,那 么当 pi 接近于 1 时,信息的不确定度就很小,相反当 pi 接近于 0 时,图像传送的不确定度就越大. 根据信息 论原理,设定某个像素级所带的信息量为: I( i) = log ( 1 / pi ) = - log ( pi ) . ( 12) 那么,这幅图像所带的平均信息熵( 信息熵) 为: H = ∑ l i = 1 pi log ( 1 / pi ) = - ∑ l i = 1 pi log ( pi ) . ( 13) 特殊的 pi = 0 时,pi log ( 1 / pi ) = 0. 由文献[15]可知,信息熵可被认为是反应图像信 息量大小的量度,熵值越大说明图像中含有的信息越 多,更能够反映出图像的主要特征. 相应的,熵值越 小,包含的信息内容越少,越难反映出图像特征. 3 基于光流方向信息熵统计的微表情关键 帧捕捉 由以上分析可知,光流可以表征相邻两帧视频序 列之间各个像素点的速度方向及大小. 在微表情发生 过程中,一般经历面部肌肉收紧--保持--释放三个阶 段,故而表情的变化导致了光流矢量指向各个方向. 对于表情变化较小的帧,速度方向比较单一,而表情变 化较大的帧,速度方向信息丰富,以左嘴角为例,光流 实验结果如图 1 所示. 图 1 左嘴角的光流实验结果 Fig. 1 Experimental results of optical flow at the left corner of mouth 基于此,本文选取光流方向特征分析微表情变化 趋势,并结合方向信息熵统计的方法捕捉微表情关键 帧,即光流方向信息熵( entropy of oriented optical flow, EOF) 统计. 对于一个 W 帧的视频图像序列,分辨率为 M × N, 首先对视频图像的每一帧进行灰度处理,之后通过改 进的光流法得到连续视频图像序列之间各像素点的光 流矢量 q = ( u,v) T ,并采用式( 14) 将其转化为极坐标 ( r,θ) 形式. u = rcos θ, {v = rsin θ → . r = u2 槡 + v 2 , θ = arctan v u { . ( 14) 其次,选取合适的阈值过滤投影模值 r 较小的光流矢 量,即图 2 中处于阴影部分以内的 r 值. 本实验运动方 向角度 θ∈[0°,360°],将 360°均分为 n 等分,分别为 第 1 个角度区间至第 n 个角度区间,那么每一份的角 度范围为 ( 360° n i, 360° n ( i + 1 ) ) ,其中 i = 0,1,2,…, n - 1,如图 2 所示. 设 mi 为运动方向处在 ( 360° n i, 360° n ( i + 1 ) ) 之间 的像素点的数目,那么每一个角度范围所带有的信息 量为 Ii,定义如式( 15) : · 9271 ·
·1730 工程科学学报,第39卷,第11期 数据库均将微表情分为积极(positive)、消极(nega- 3 ive)、惊讶(surprise)三类,这三类中各类视频数据分 别为70、51、43段,样本序列如图3所示.该视频帧 0,0e+ 序列是采用25帧每秒的摄像头采集的消极状态下的 团: 连续微表情图像.除此之外,该数据库还包括了100 帧每秒的摄像头采集的表情样本.CASME数据库包 + 含35个受试者(13个女性,22个男性)的195段微表 情视频,要求受试者抑制自己的表情,微表情的整个过 n-1 程由一个60帧每秒的摄像机拍摄,并对微表情样本进 n-3 n-2 行了AUs编码,包括开始(onset)、顶点(apex)、和释放 offset). 图2光流方向信息划分示意图 本实验的算法流程图如图4所示.可知,本实验 Fig.2 Sketch map of optical-flow-direction information 首先读入连续的两帧图像,对其灰度处理之后,采用 H一S光流法提取每一帧图像序列的光流特征.对于运 m: I;=log(1/p:),P:MxN (15) 动强度较小的区域,r和日的变化较小甚至不发生变 将每一个角度范围的信息量加权求和得到图像整 化,因此为了增强算法的实时性,本实验采用阈值分析 体的方向信息熵,则第k帧的方向信息熵H定义如式 法筛选出「值较大的像素点,把它们作为方向信息熵 (16): 统计实验的备用点.经大量实验发现当r阈值)= 0.03时,能得到变化较为明显的光流矢量,从而减少 =以=( (16) 了方向信息熵统计的复杂度 通过检测每一帧视频图像的整体方向信息熵的大 由于微表情变化只是发生在面部局部区域,大量 小,得到视频序列的方向信息熵向量H=H,H,,H, 的像素点在微表情发生过程中并没有发生运动,也就 …,H],其中W为视频图像序列帧数,由于方向信息 是说在光流场中速度方向角度为零,如图5所示,因此 熵是依据像素点运动变化获得的,所以首帧没有方向 本实验从样本数据中剔除这些角度变化为零的点.特 信息熵 殊的,本实验把u>0、=0的点(即只在X轴发生变 随着微表情的变化从一个平稳的状态逐渐达到一 化)归为第一个角度区间. 个峰值状态,光流矢量角度逐渐增大,相邻两帧图像的 本实验选取W=10,7=0.03对光流矢量进行方 方向信息熵逐渐增大:当表情处于保持状态时,相邻两 向信息熵统计,选取SMIC一NIR数据库第SI4组数据 帧图像之间像素点几乎没有发生变化,方向信息熵值 的消极、积极、惊讶三种状态帧序列为例进行仿真分 逐渐下降:当表情从最大状态逐渐恢复到平稳状态过 析,结果如图6~图8所示. 程中,相邻两帧之间的光流向量的角度逐渐增大,方向 由图6可知,从第2帧到第3帧之间,微表情处 信息熵逐渐增大.分析方向信息熵帧序列H=[H2, 于逐渐收紧阶段,只是发生了较小幅度的变化,随着 H,H,…,H]可知,当H中存在拐点或极值点时,相 表情变化逐渐增大,相邻两帧图像之间方向信息熵 邻极值点之间的表情帧为微表情关键帧. 随之增加,在第3帧和第4帧之间出现表情角度变化 达到最大值,表明了第3帧与第4帧之间开始发生较 4实验结果与分析 大的表情变化,之后面部角度变化幅度逐渐降低,在 为了验证光流方向信息熵统计捕捉微表情关键帧 第7帧的方向信息嫡达到最小值,随着表情状态的 的算法有效性,结合芬兰奥卢大学的SMIC微表情数 逐渐恢复,角度变化程度又逐渐增大,方向信息熵统 据库和中国科学院心理研究所傅小兰的CASME微表 计值逐渐增大,也就是说微表情在7帧之间出现强 情数据库,本实验在Matlab平台下进行仿真,其中 度最大 SMC数据库包含16个受试者的164段微表情视频, 对于积极样本数据,仿真结果如图7所示.从图 图3消极微表情图像序列 Fig.3 Negative microexpression-image sequence
工程科学学报,第 39 卷,第 11 期 图 2 光流方向信息划分示意图 Fig. 2 Sketch map of optical-flow-direction information Ii = log( 1 / pi ) ,pi = mi M × N . ( 15) 将每一个角度范围的信息量加权求和得到图像整 体的方向信息熵,则第 k 帧的方向信息熵 Hk 定义如式 ( 16) : Hk = ∑ n i = 1 piIi = ∑ n i = 1 mi M × N ( log M × N m ) i . ( 16) 通过检测每一帧视频图像的整体方向信息熵的大 小,得到视频序列的方向信息熵向量 H =[H2,H3,H4, …,HW],其中 W 为视频图像序列帧数,由于方向信息 熵是依据像素点运动变化获得的,所以首帧没有方向 信息熵. 随着微表情的变化从一个平稳的状态逐渐达到一 个峰值状态,光流矢量角度逐渐增大,相邻两帧图像的 方向信息熵逐渐增大; 当表情处于保持状态时,相邻两 帧图像之间像素点几乎没有发生变化,方向信息熵值 逐渐下降; 当表情从最大状态逐渐恢复到平稳状态过 程中,相邻两帧之间的光流向量的角度逐渐增大,方向 信息熵逐渐增大. 分析方向信息熵帧序列 H =[H2, H3,H4,…,HW]可知,当 H 中存在拐点或极值点时,相 邻极值点之间的表情帧为微表情关键帧. 图 3 消极微表情图像序列 Fig. 3 Negative microexpression-image sequence 4 实验结果与分析 为了验证光流方向信息熵统计捕捉微表情关键帧 的算法有效性,结合芬兰奥卢大学的 SMIC 微表情数 据库和中国科学院心理研究所傅小兰的 CASME 微表 情数 据 库,本 实 验 在 Matlab 平 台 下 进 行 仿 真,其 中 SMIC 数据库包含 16 个受试者的 164 段微表情视频, 数据库 均 将 微 表 情 分 为 积 极( positive) 、消 极( negative) 、惊讶( surprise) 三类,这三类中各类视频数据分 别为 70、51、43 段,样本序列如图 3 所示[16]. 该视频帧 序列是采用 25 帧每秒的摄像头采集的消极状态下的 连续微表情图像. 除此之外,该数据库还包括了 100 帧每秒的摄像头采集的表情样本. CASME 数据库包 含 35 个受试者( 13 个女性,22 个男性) 的 195 段微表 情视频,要求受试者抑制自己的表情,微表情的整个过 程由一个 60 帧每秒的摄像机拍摄,并对微表情样本进 行了 AUs 编码,包括开始( onset) 、顶点( apex) 、和释放 ( offset) . 本实验的算法流程图如图 4 所示. 可知,本实验 首先读入连续的两帧图像,对其灰度处理之后,采用 H--S 光流法提取每一帧图像序列的光流特征. 对于运 动强度较小的区域,r 和 θ 的变化较小甚至不发生变 化,因此为了增强算法的实时性,本实验采用阈值分析 法筛选出 r 值较大的像素点,把它们作为方向信息熵 统计实验的备用点. 经大量实验发现当 r 阈值 η = 0. 03 时,能得到变化较为明显的光流矢量,从而减少 了方向信息熵统计的复杂度. 由于微表情变化只是发生在面部局部区域,大量 的像素点在微表情发生过程中并没有发生运动,也就 是说在光流场中速度方向角度为零,如图 5 所示,因此 本实验从样本数据中剔除这些角度变化为零的点. 特 殊的,本实验把 u > 0、v = 0 的点( 即只在 X 轴发生变 化) 归为第一个角度区间. 本实验选取 W = 10,η = 0. 03 对光流矢量进行方 向信息熵统计,选取 SMIC--NIR 数据库第 S14 组数据 的消极、积极、惊讶三种状态帧序列为例进行仿真分 析,结果如图 6 ~ 图 8 所示. 由图 6 可知,从第 2 帧到第 3 帧之间,微表情处 于逐渐收紧阶段,只是发生了较小幅度的变化,随着 表情变化逐渐增大,相邻两帧图像之间方向信息熵 随之增加,在第 3 帧和第 4 帧之间出现表情角度变化 达到最大值,表明了第 3 帧与第 4 帧之间开始发生较 大的表情变化,之后面部角度变化幅度逐渐降低,在 第 7 帧的方向信息熵达到最小值,随着表情状态的 逐渐恢复,角度变化程度又逐渐增大,方向信息熵统 计值逐渐增大,也就是说微表情在 7 帧之间出现强 度最大. 对于积极样本数据,仿真结果如图 7 所示. 从图 · 0371 ·
李丹等:基于光流方向信息熵统计的微表情捕捉 ·1731· 开始 读入视颇序列 F=f,f…, 存储嫡值同时 否 是否处理完 存储嫡值向量 k=k+1 、所有顿 H=(H.H,Hol 将第顿转化为 将第+1顿转化 灰度图像 为灰度图像 分析熵值向量 图像方向信息熵统计 H-S光流计算 获得微表情关键帧 计算各扇区信总量 光流矢量图 将360° 结束 过滤光流向量模值 等分为n个扇区 小于0.03的干扰向量 图4实验算法流程图 Fig.4 Flow chart of experimental algorithm 2.43 4000 3000 2.40收缩人 保持 恢复 2000 原 2.37 W-10,=0.03 1000 234 07561890 2.31 角度区间 2345678910 领序列号 2.25 图5光流矢量角度统计图 6 Fig.5 Statistical chart of oriented optical flow 帧序号 图7选取SMIC-NIR数据库积极微表情帧EOF 2.50 Fig.7 EOF of positive microexpression frame with SMIC-NIR data base 2.47收缩 保持 恢复 段逐渐恢复,E0F发生突变:第8~10帧微表情结束, 2.44 W=10.7=0.03 而E0F随之平稳.由以上分析可知,微表情处于6~7 2.41 帧时强度最大 由图8可知,微表情收缩阶段发生在第2~5帧, 2.38 在第6帧时,微表情发生较大变化,E0F值突然增大, 2352 随之微表情处于保持状态.该实验数据并没有恢复状 56 7 89 10 帧序号 态,仅出现微表情变化幅度较大的帧为第6帧 图6选取SMIC-NIR数据库消极微表情帧EOF 对SMIC-NIR表情库中所有样本进行测试,统计 Fig.6 EOF of negative microexpression frame with SMIC-NIR data 结果如表1. base 表1SMIC-NR数据库实验结果 中可知,在第2帧到3帧期间,微表情处于收缩阶段, Table 1 Experimental results of SMIC-NIR data base 角度逐渐增大,EOF值增大:第3帧到第7帧期间,微 样本序列片段序列帧数正确数漏检数正识率/% 表情发生微小波动,那么光流矢量角度发生微小波动, 消极 子 261 223 88.00 对应EOF值逐渐降低并保持微小波动,也就是说微表 积极 品 252 20 4 83.33 情处于保持状态;在第7~8帧之间,微表情从保持阶 惊讶 22 170 14 8 63.63
李 丹等: 基于光流方向信息熵统计的微表情捕捉 图 4 实验算法流程图 Fig. 4 Flow chart of experimental algorithm 图 5 光流矢量角度统计图 Fig. 5 Statistical chart of oriented optical flow 图 6 选取 SMIC--NIR 数据库消极微表情帧 EOF Fig. 6 EOF of negative microexpression frame with SMIC--NIR data base 中可知,在第 2 帧到 3 帧期间,微表情处于收缩阶段, 角度逐渐增大,EOF 值增大; 第 3 帧到第 7 帧期间,微 表情发生微小波动,那么光流矢量角度发生微小波动, 对应 EOF 值逐渐降低并保持微小波动,也就是说微表 情处于保持状态; 在第 7 ~ 8 帧之间,微表情从保持阶 图 7 选取 SMIC--NIR 数据库积极微表情帧 EOF Fig. 7 EOF of positive microexpression frame with SMIC--NIR data base 段逐渐恢复,EOF 发生突变; 第 8 ~ 10 帧微表情结束, 而 EOF 随之平稳. 由以上分析可知,微表情处于 6 ~ 7 帧时强度最大. 由图 8 可知,微表情收缩阶段发生在第 2 ~ 5 帧, 在第 6 帧时,微表情发生较大变化,EOF 值突然增大, 随之微表情处于保持状态. 该实验数据并没有恢复状 态,仅出现微表情变化幅度较大的帧为第 6 帧. 对 SMIC--NIR 表情库中所有样本进行测试,统计 结果如表 1. 表 1 SMIC--NIR 数据库实验结果 Table 1 Experimental results of SMIC--NIR data base 样本 序列片段 序列帧数 正确数 漏检数 正识率/% 消极 25 261 22 3 88. 00 积极 24 252 20 4 83. 33 惊讶 22 170 14 8 63. 63 · 1371 ·