工程科学学报 Chinese Journal of Engineering 基于S-LRCN的微表情识别算法 李学翰胡四泉石志国张明 Micro-expression recognition algorithm based on separate long-term recurrent convolutional network LI Xue-han,HU Si-quan,SHI Zhi-guo,ZHANG Ming 引用本文: 李学翰,胡四泉,石志国,张明.基于S-LRCN的微表情识别算法[J.工程科学学报,2022,44(1):104-113.doi: 10.13374j.issn2095-9389.2020.06.15.006 LI Xue-han,HU Si-quan,SHI Zhi-guo,ZHANG Ming.Micro-expression recognition algorithm based on separate long-term recurrent convolutional network [J].Chinese Journal of Engineering,2022,44(1):104-113.doi:10.13374/j.issn2095- 9389.2020.06.15.006 在线阅读View online:https::/doi.org10.13374j.issn2095-9389.2020.06.15.006 您可能感兴趣的其他文章 Articles you may be interested in 基于卷积神经网络的反无人机系统声音识别方法 Sound recognition method of an anti-UAV system based on a convolutional neural network 工程科学学报.2020,42(11):1516 https:/doi.org/10.13374.issn2095-9389.2020.06.30.008 基于光流方向信息嫡统计的微表情捕捉 Capture of microexpressions based on the entropy of oriented optical flow 工程科学学报.2017,3911):1727htps:1doi.org/10.13374.issn2095-9389.2017.11.016 基于BiLSTM的公共安全事件触发词识别 Public security event trigger identification based on Bidirectional LSTM 工程科学学报.2019,41(9:外1201 https:/1doi.org10.13374j.issn2095-9389.2019.09.012 基于数控机床设备故障领域的命名实体识别 Named entity recognition based on equipment and fault field of CNC machine tools 工程科学学报.2020,42(4:476 https:/1doi.org10.13374j.issn2095-9389.2019.09.17.002 基于DL-T及迁移学习的语音识别研究 Research on automatic speech recognition based on a DLT and transfer learning 工程科学学报.2021,43(3):433htps:/oi.org10.13374.issn2095-9389.2020.01.12.001 基于深度学习的高效火车号识别 Efficient wagon number recognition based on deep learning 工程科学学报.2020,42(11:1525 https:/doi.org10.13374.issn2095-9389.2019.12.05.001
基于S-LRCN的微表情识别算法 李学翰 胡四泉 石志国 张明 Micro-expression recognition algorithm based on separate long-term recurrent convolutional network LI Xue-han, HU Si-quan, SHI Zhi-guo, ZHANG Ming 引用本文: 李学翰, 胡四泉, 石志国, 张明. 基于S-LRCN的微表情识别算法[J]. 工程科学学报, 2022, 44(1): 104-113. doi: 10.13374/j.issn2095-9389.2020.06.15.006 LI Xue-han, HU Si-quan, SHI Zhi-guo, ZHANG Ming. Micro-expression recognition algorithm based on separate long-term recurrent convolutional network [J]. Chinese Journal of Engineering, 2022, 44(1): 104-113. doi: 10.13374/j.issn2095- 9389.2020.06.15.006 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.06.15.006 您可能感兴趣的其他文章 Articles you may be interested in 基于卷积神经网络的反无人机系统声音识别方法 Sound recognition method of an anti-UAV system based on a convolutional neural network 工程科学学报. 2020, 42(11): 1516 https://doi.org/10.13374/j.issn2095-9389.2020.06.30.008 基于光流方向信息熵统计的微表情捕捉 Capture of microexpressions based on the entropy of oriented optical flow 工程科学学报. 2017, 39(11): 1727 https://doi.org/10.13374/j.issn2095-9389.2017.11.016 基于BiLSTM的公共安全事件触发词识别 Public security event trigger identification based on Bidirectional LSTM 工程科学学报. 2019, 41(9): 1201 https://doi.org/10.13374/j.issn2095-9389.2019.09.012 基于数控机床设备故障领域的命名实体识别 Named entity recognition based on equipment and fault field of CNC machine tools 工程科学学报. 2020, 42(4): 476 https://doi.org/10.13374/j.issn2095-9389.2019.09.17.002 基于DL-T及迁移学习的语音识别研究 Research on automatic speech recognition based on a DLT and transfer learning 工程科学学报. 2021, 43(3): 433 https://doi.org/10.13374/j.issn2095-9389.2020.01.12.001 基于深度学习的高效火车号识别 Efficient wagon number recognition based on deep learning 工程科学学报. 2020, 42(11): 1525 https://doi.org/10.13374/j.issn2095-9389.2019.12.05.001
工程科学学报.第44卷.第1期:104-113.2022年1月 Chinese Journal of Engineering,Vol.44,No.1:104-113,January 2022 https://doi.org/10.13374/j.issn2095-9389.2020.06.15.006;http://cje.ustb.edu.cn 基于S-LRCN的微表情识别算法 李学翰),胡四泉2)四,石志国12,),张明 1)北京科技大学计算机与通信工程学院,北京1000832)北京科技大学顺德研究生院.佛山5283993)北京市大数据中心,北京100101 4)电子科技大学通信与信息工程学院,成都611731 ☒通信作者,E-mail:husiquan@ustb.edu.cn 摘要基于面部动态表情序列,针对静态表情缺少时间信息等问题,将空间特征与时间特征融合,利用神经网络在图像分 类领域良好的特征,对需要进行细节分析的表情序列进行处理,提出基于分离式长期循环卷积网络(Separate long-term recurrent convolutional networks,S-LRCN)的微表情识别方法.首先选取微表情数据集提取面部图像序列,引入迁移学习的方 法,通过预训练的卷积神经网络模型提取表情帧的空间特征,降低网络训练中过拟合的危险,并将视频序列的提取特征输入 长短期记忆网络(Long short--team memory,LSTM)处理时域特征.最后建立学习者表情序列小型数据库,将该方法用于辅助 教学评价. 关键词微表情识别:时空特征:长期递归卷积网络:长短期记忆网络:教学评价 分类号TP391.4 Micro-expression recognition algorithm based on separate long-term recurrent convolutional network LI Xue-han,HU Si-quan2,SHI Zhi-guo 2),ZHANG Ming 1)School of Computer and Communication Engineering.University of Science and Technology Beijing,Beijing 00083,China 2)Shunde Graduate School,University of Science and Technology Beijing,Foshan 528399,China 3)Beijing Big Data Center,Beijing 100101,China 4)School of Information and Communication Engineering,University of Electronic Science and Technology of China,Chengdu 611731,China Corresponding author,E-mail:husiquan@ustb.edu.cn ABSTRACT With the rapid development of machine learning and deep neural network and the popularization of intelligent devices, face recognition technology has rapidly developed.At present,the accuracy of face recognition has exceeded that of the human eyes. Moreover,the software and hardware conditions of large-scale popularization are available,and the application fields are widely distributed.As an important part of face recognition technology,facial expression recognition has been a widely studied subject in the fields of artificial intelligence,security,automation,medical treatment,and driving in recent years.Expression recognition,an active research area in human-computer interaction,involves informatics and psychology and has good research prospect in teaching evaluation.Micro-expression,which has great research significance,is a kind of short-lived facial expression that humans unconsciously make when trying to hide some emotion.Different from the general static facial expression recognition,to realize micro-expression recognition,besides extracting the spatial feature information of facial expression deformation in the image,the temporal-motion information of the continuous image sequence also needs to be considered.In this study,given that static expression features lack temporal information,so that the subtle changes in expression cannot be fully reflected,facial dynamic expression sequences were used 收稿日期:2020-06-15 基金项目:国家自然科学基金资助项目(61977005):四川省科技计划资助项目(2018 GZDZX0034):北京科技大学顺德研究生院科技创新 专项资助项目(BK19CF003):北京市科技计划资助项目(Z201100004220010)
基于 S-LRCN 的微表情识别算法 李学翰1),胡四泉1,2) 苣,石志国1,2,3),张 明4) 1) 北京科技大学计算机与通信工程学院,北京 100083 2) 北京科技大学顺德研究生院,佛山 528399 3) 北京市大数据中心,北京 100101 4) 电子科技大学通信与信息工程学院,成都 611731 苣通信作者, E-mail: husiquan@ustb.edu.cn 摘 要 基于面部动态表情序列,针对静态表情缺少时间信息等问题,将空间特征与时间特征融合,利用神经网络在图像分 类领域良好的特征,对需要进行细节分析的表情序列进行处理,提出基于分离式长期循环卷积网络 (Separate long-term recurrent convolutional networks, S-LRCN) 的微表情识别方法. 首先选取微表情数据集提取面部图像序列,引入迁移学习的方 法,通过预训练的卷积神经网络模型提取表情帧的空间特征,降低网络训练中过拟合的危险,并将视频序列的提取特征输入 长短期记忆网络 (Long short-team memory, LSTM) 处理时域特征. 最后建立学习者表情序列小型数据库,将该方法用于辅助 教学评价. 关键词 微表情识别;时空特征;长期递归卷积网络;长短期记忆网络;教学评价 分类号 TP391.4 Micro-expression recognition algorithm based on separate long-term recurrent convolutional network LI Xue-han1) ,HU Si-quan1,2) 苣 ,SHI Zhi-guo1,2,3) ,ZHANG Ming4) 1) School of Computer and Communication Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Shunde Graduate School, University of Science and Technology Beijing, Foshan 528399, China 3) Beijing Big Data Center, Beijing 100101, China 4) School of Information and Communication Engineering, University of Electronic Science and Technology of China, Chengdu 611731, China 苣 Corresponding author, E-mail: husiquan@ustb.edu.cn ABSTRACT With the rapid development of machine learning and deep neural network and the popularization of intelligent devices, face recognition technology has rapidly developed. At present, the accuracy of face recognition has exceeded that of the human eyes. Moreover, the software and hardware conditions of large-scale popularization are available, and the application fields are widely distributed. As an important part of face recognition technology, facial expression recognition has been a widely studied subject in the fields of artificial intelligence, security, automation, medical treatment, and driving in recent years. Expression recognition, an active research area in human –computer interaction, involves informatics and psychology and has good research prospect in teaching evaluation. Micro-expression, which has great research significance, is a kind of short-lived facial expression that humans unconsciously make when trying to hide some emotion. Different from the general static facial expression recognition, to realize micro-expression recognition, besides extracting the spatial feature information of facial expression deformation in the image, the temporal-motion information of the continuous image sequence also needs to be considered. In this study, given that static expression features lack temporal information, so that the subtle changes in expression cannot be fully reflected, facial dynamic expression sequences were used 收稿日期: 2020−06−15 基金项目: 国家自然科学基金资助项目(61977005);四川省科技计划资助项目(2018GZDZX0034);北京科技大学顺德研究生院科技创新 专项资助项目(BK19CF003);北京市科技计划资助项目(Z201100004220010) 工程科学学报,第 44 卷,第 1 期:104−113,2022 年 1 月 Chinese Journal of Engineering, Vol. 44, No. 1: 104−113, January 2022 https://doi.org/10.13374/j.issn2095-9389.2020.06.15.006; http://cje.ustb.edu.cn
李学翰等:基于S-LRCN的微表情识别算法 ·105· to fuse spatial features and temporal features,and neural networks were used to provide good features in the field of image classification. Expression sequences were processed,and a micro-expression recognition method based on separate long-term recurrent convolutional network(S-LRCN)was proposed.First,the micro-expression data set was selected to extract the facial image sequence,and the transfer learning method was introduced to extract the spatial features of the expression frame through the pre-trained convolution neural network model,to reduce the risk of overfitting in the network training,and the extracted features of the video sequence were inputted into long short-term memory (LSTM)to process the temporal-domain features.Finally,a small database of learners'expression sequences was established,and the method was used to assist teaching evaluation. KEY WORDS micro-expression recognition;spatial-temporal features;LRCN:;LSTM;education evaluation 人脸表情反映了人类的真实情绪,心理学家 用场景,将教学评价与表情分析结合,通过采集学 Albert Mehrabian指出“情感表达=7%语言+38%声 生面部表情来分析其学习状态,本文采用分心 音+55%面部表情”.面部表情作为情感和心理 (Distraction)、专注(Focus)、疲劳(Tired)3种分类方 的研究载体,在人类情感判断中具有重要的地位 式建立小型数据库,最后通过改进的S-LRCN方法 根据Ekman的基本情绪理论,表情包含了大量的 对3种状态分类 情感语义,一般分为高兴、厌恶、愤怒、悲伤、恐 1 惧、和惊讶6种但是,情感通常是连续的、时序 相关工作 上下文相关的,具有不同的强弱表达关系,基本的 1.1表情识别 情绪理论仍然具有一定的局限性,与普通表情不 Ekman等图于1976年提出了面部表情编码系 同,微表情是在主观情绪影响下产生的一种自发 统(Facial action coding system,FACS).FACS将人 式表情微表情具有持续时间短(1/25~1/3s)、 脸区域划分成44个运动单元(Action unit,.AU).并 动作幅度小等特点,给微表情识别带来了很大的 将不同的AU进行组合形成FACS码,每一种 难度. FACS码对应着一种面部表情.并在此基础上,经 在以往的微表情识别中通过特征提取的方法 过对大量表情图片的分析,开发出了面部情感编 对微表情进行分析,但是由于底层特征由人工提 码系统(Emotion FACS)9MIT实验室训练稀疏码 取等原因造成特征提取不足,导致微表情识别准 本进行微表情的情感分析,通过利用微小时间运 确率低阿.近年来,深度学习算法表现出强大的优 动模式的稀疏性,短时间段内在面部和身体区域 势,尤其是在图像特征提取方面表现突出,准确率 上提取局部时空特征,从数据中学习微表情码 远超于传统的特征提取方法6因此采用深度学习 本,并以稀疏方式对特征进行编码,在AVEC 算法来对微表情进行更有效的特征提取以提高识 2012数据集上的实验表明,这种方式具有很好的 别效果.此外,传统方法受限于计算能力和表情视 性能. 频数据的规模,通常使用静态表情或者单表情进 1.2表情特征提取 行分析,忽略了表情周期性的问题.表情的产生是 表情特征的提取方法分为基于静态图像与基 一个随时间变化的过程,动态表情更自然地表达 于动态图像两类.其中基于动态特征的提取主要 了表情变化,而单帧的表情并不能反映表情的整 集中在人脸的形变和面部区域的肌肉运动上,基 体信息,所以基于动态表情序列进行分析更有助 于动态特征提取的代表方法有光流法山、运动模 于微表情的识别 型、几何法和特征点跟踪方法等 本文基于动态多表情序列,将空间特征和空间 Polikovsky等I通过3D直方图的方法,通过 时间相结合,提出一种分离式长期循环卷积网络 关联帧之间的梯度关系进行微表情检测识别 (Separate long-term recurrent convolutional networks, Shreve等]通过光流法使用应变模式处理长视 S-LRCN)模型,首先将卷积神经网络用于深层特 频,通过在人脸部划分几个特定子区域(如嘴部,眼 征视觉提取器来提取图像中的微表情静态特征可, 睛)分割面部表情,进而识别微表情.Pfister等l4 并将从视频序列中提取的特征提供给由长短期记 使用三维正交平面局部二值法(Local binary patterns 忆网络(Long short-team memory,.LSTM)单元组成 from three orthogonal planes,LBP-TOP)算法提取微 的双向循环神经网络,得到时序的输出,来提高微 表情图像序列的特征,该方法通过二维到三维的 表情识别的准确率.并且研究表情序列的实际使 扩展提取时域和空域方向上的动态局部纹理特征
to fuse spatial features and temporal features, and neural networks were used to provide good features in the field of image classification. Expression sequences were processed, and a micro-expression recognition method based on separate long-term recurrent convolutional network (S-LRCN) was proposed. First, the micro-expression data set was selected to extract the facial image sequence, and the transfer learning method was introduced to extract the spatial features of the expression frame through the pre-trained convolution neural network model, to reduce the risk of overfitting in the network training, and the extracted features of the video sequence were inputted into long short-term memory (LSTM) to process the temporal-domain features. Finally, a small database of learners ’ expression sequences was established, and the method was used to assist teaching evaluation. KEY WORDS micro-expression recognition;spatial-temporal features;LRCN;LSTM;education evaluation 人脸表情反映了人类的真实情绪,心理学家 Albert Mehrabian 指出“情感表达=7% 语言+38% 声 音+55% 面部表情” [1] . 面部表情作为情感和心理 的研究载体,在人类情感判断中具有重要的地位. 根据 Ekman 的基本情绪理论,表情包含了大量的 情感语义,一般分为高兴、厌恶、愤怒、悲伤、恐 惧、和惊讶 6 种[2] . 但是,情感通常是连续的、时序 上下文相关的,具有不同的强弱表达关系,基本的 情绪理论仍然具有一定的局限性. 与普通表情不 同,微表情是在主观情绪影响下产生的一种自发 式表情[3] . 微表情具有持续时间短 (1/25~1/3 s)、 动作幅度小等特点[4] ,给微表情识别带来了很大的 难度. 在以往的微表情识别中通过特征提取的方法 对微表情进行分析,但是由于底层特征由人工提 取等原因造成特征提取不足,导致微表情识别准 确率低[5] . 近年来,深度学习算法表现出强大的优 势,尤其是在图像特征提取方面表现突出,准确率 远超于传统的特征提取方法[6] . 因此采用深度学习 算法来对微表情进行更有效的特征提取以提高识 别效果. 此外,传统方法受限于计算能力和表情视 频数据的规模,通常使用静态表情或者单表情进 行分析,忽略了表情周期性的问题. 表情的产生是 一个随时间变化的过程,动态表情更自然地表达 了表情变化,而单帧的表情并不能反映表情的整 体信息,所以基于动态表情序列进行分析更有助 于微表情的识别. 本文基于动态多表情序列,将空间特征和空间 时间相结合,提出一种分离式长期循环卷积网络 (Separate long-term recurrent convolutional networks, S-LRCN) 模型,首先将卷积神经网络用于深层特 征视觉提取器来提取图像中的微表情静态特征[7] , 并将从视频序列中提取的特征提供给由长短期记 忆网络 (Long short-team memory, LSTM) 单元组成 的双向循环神经网络,得到时序的输出,来提高微 表情识别的准确率. 并且研究表情序列的实际使 用场景,将教学评价与表情分析结合,通过采集学 生面部表情来分析其学习状态 ,本文采用分心 (Distraction)、专注 (Focus)、疲劳 (Tired) 3 种分类方 式建立小型数据库,最后通过改进的 S-LRCN 方法 对 3 种状态分类. 1 相关工作 1.1 表情识别 Ekman 等[8] 于 1976 年提出了面部表情编码系 统 (Facial action coding system,FACS). FACS 将人 脸区域划分成 44 个运动单元 (Action unit,AU),并 将 不 同 的 AU 进 行 组 合 形 成 FACS 码 , 每 一 种 FACS 码对应着一种面部表情. 并在此基础上,经 过对大量表情图片的分析,开发出了面部情感编 码系统 (Emotion FACS)[9] . MIT 实验室训练稀疏码 本进行微表情的情感分析,通过利用微小时间运 动模式的稀疏性,短时间段内在面部和身体区域 上提取局部时空特征[10] ,从数据中学习微表情码 本 ,并以稀疏方式对特征进行编码 , 在 AVEC 2012 数据集上的实验表明,这种方式具有很好的 性能. 1.2 表情特征提取 表情特征的提取方法分为基于静态图像与基 于动态图像两类. 其中基于动态特征的提取主要 集中在人脸的形变和面部区域的肌肉运动上,基 于动态特征提取的代表方法有光流法[11]、运动模 型、几何法和特征点跟踪方法等. Polikovsky 等[12] 通过 3D 直方图的方法,通过 关联帧之间的梯度关系进行微表情检测识别. Shreve 等[13] 通过光流法使用应变模式处理长视 频,通过在人脸部划分几个特定子区域 (如嘴部,眼 睛) 分割面部表情,进而识别微表情. Pfister 等[14] 使用三维正交平面局部二值法 (Local binary patterns from three orthogonal planes, LBP-TOP) 算法提取微 表情图像序列的特征,该方法通过二维到三维的 扩展提取时域和空域方向上的动态局部纹理特征 李学翰等: 基于 S-LRCN 的微表情识别算法 · 105 ·
106 工程科学学报,第44卷,第1期 进行识别.梁静等建立CASME数据库,应用 据集样本量过小,训练中容易产生过拟合现象,影 Gabor滤波提取微表情序列的特征值,并使用平滑 响网络的识别准确率.Kim等四使用卷积神经网 式自适应增强算法结合支持向量机的方法 络对处于不同表情状态的微表情的空间特征进行 (Support vector machines based on gentle adaptive 编码,将具有表达状态约束的空间特征转移到微 boosting,.GentleS VM)建立分类器进行分类识别. 表情的时间特征,使用LSTM网络对微表达式不 Wang等s提出利用6交点局部二值方法(Local 同状态的时间特征进行编码.Khor等四提出一种 binary patterns with six intersection points,LBP-SIP) 丰富的长期递归卷积网络,对数据集提取光流特 对微表情进行识别,该方法减少了LBP-TOP方法 征以丰富每个时间步或给定时间长度的输入,该 中特征的维度,提高了微表情特征提取的效率. 网络通过包括提取空间深层特征和表征时间变化 在基于时空域运动信息描述的微表情识别方 的动态时序模型.Verburg与Menkovskil2通过在 面,Liong等7通过利用面部光学应变构造光学应 微表情图像序列的光流特征上使用递归神经网 变特征和光学应变加权特征来检测和识别微表 络,提取定向光流直方图(Histogram of oriented 情.Le Ngo等us采用欧拉影像放大分析图像频域 optical flow,HOOF)特征来编码所选面部区域的时 中的相位以及时域中的幅值,放大微表情的运动 间变化,然后将其传递给由LSTM模块以进行检 信息,消除无关的微表情面部动态,并利用LBP 测任务 TOP算法进行特征提取.Xu等咧提出了一种面部 2微表情识别方法 动态映射(Facial dynamics map,FDM)的方法来表 征微表情序列,该方法通过计算微表情序列的光 微表情识别通过人脸检测算法从复杂场景 流信息然后进行在光流域上的精准对齐 下获取人脸位置,检测并分割出人脸轮廓以对其 1.3深度学习与微表情识别 进行微表情的特征提取,并建立识别分类模型, 区别于传统的机器学习算法,深度学习突出 其基本步骤包括:(1)人脸表情图像、表情序列的 了特征学习的重要性,通过逐层的特征映射,将原 获取与处理;(2)从人脸表情序列中提取微表情 数据空间的特征映射到一个新的特征空间中,使 特征,去除特征之间的冗余以降低特征维度:(3) 得分类和预测更加容易.深度学习可以利用数据 基于长期递归网络,微表情特征作为时序模型的 提取符合要求的特征,克服了人工特征不可扩展 输人,用于学习时变输出序列的动态过程;(4)建 的缺陷.Patel等2o在微表情识别中引入深度学习 立动态预测模型,对人脸微表情分类识别.如图1 的方法,通过特征选择提取微表情特征,但由于数 所示 Feature extraction Video LBP、EOH、CNN、HOG Segmentation Detection pretreatment LBP.TOP、LPO-TOP、 LGBP.TOP、EOH+MHH Micro-expression tagging Result Static prediction model Dynamic prediction model: SVR,CNN、PLS LSTM-RNN、GMM-HMM、 LSTM-RNNOA、CNN+RNN RVM LSTM-DRNN 图1 动态表情识别流程 Fig.1 Dynamic expression-recognition process 本文方法基于长期循环卷积网络(Long-term 神经网络(Convolutional neural networks,.CNN)和 recurrent convolutional networks,LRCN)W架构,并 LSTM的部分微调,提出S-LRCN的方法,结合卷 对该模型进行改进使其更适应微表情视频片段的 积神经网络和长期递归网络,通过两个独立的模 识别,面对微表情数据集通常存在数据量小的问 块获取空间域特征,并对时间域特征分类,首先使 题,采用迁移学习的方式避免网络过拟合,将卷积 用预训练的CNN模型提取每一张微表情图片帧
进行识别. 梁静等[15] 建立 CASME 数据库,应用 Gabor 滤波提取微表情序列的特征值,并使用平滑 式 自 适 应 增 强 算 法 结 合 支 持 向 量 机 的 方 法 (Support vector machines based on gentle adaptive boosting, GentleSVM) 建立分类器进行分类识别. Wang 等[16] 提出利用 6 交点局部二值方法 (Local binary patterns with six intersection points, LBP-SIP) 对微表情进行识别,该方法减少了 LBP-TOP 方法 中特征的维度,提高了微表情特征提取的效率. 在基于时空域运动信息描述的微表情识别方 面,Liong 等[17] 通过利用面部光学应变构造光学应 变特征和光学应变加权特征来检测和识别微表 情. Le Ngo 等[18] 采用欧拉影像放大分析图像频域 中的相位以及时域中的幅值,放大微表情的运动 信息,消除无关的微表情面部动态,并利用 LBPTOP 算法进行特征提取. Xu 等[19] 提出了一种面部 动态映射 (Facial dynamics map, FDM) 的方法来表 征微表情序列,该方法通过计算微表情序列的光 流信息然后进行在光流域上的精准对齐. 1.3 深度学习与微表情识别 区别于传统的机器学习算法,深度学习突出 了特征学习的重要性,通过逐层的特征映射,将原 数据空间的特征映射到一个新的特征空间中,使 得分类和预测更加容易. 深度学习可以利用数据 提取符合要求的特征,克服了人工特征不可扩展 的缺陷. Patel 等[20] 在微表情识别中引入深度学习 的方法,通过特征选择提取微表情特征,但由于数 据集样本量过小,训练中容易产生过拟合现象,影 响网络的识别准确率. Kim 等[21] 使用卷积神经网 络对处于不同表情状态的微表情的空间特征进行 编码,将具有表达状态约束的空间特征转移到微 表情的时间特征,使用 LSTM 网络对微表达式不 同状态的时间特征进行编码. Khor 等[22] 提出一种 丰富的长期递归卷积网络,对数据集提取光流特 征以丰富每个时间步或给定时间长度的输入,该 网络通过包括提取空间深层特征和表征时间变化 的动态时序模型. Verburg 与 Menkovski[23] 通过在 微表情图像序列的光流特征上使用递归神经网 络 ,提取定向光流直方 图 (Histogram of oriented optical flow, HOOF) 特征来编码所选面部区域的时 间变化,然后将其传递给由 LSTM 模块以进行检 测任务. 2 微表情识别方法 微表情识别通过人脸检测算法从复杂场景 下获取人脸位置,检测并分割出人脸轮廓以对其 进行微表情的特征提取,并建立识别分类模型, 其基本步骤包括:(1)人脸表情图像、表情序列的 获取与处理;(2)从人脸表情序列中提取微表情 特征,去除特征之间的冗余以降低特征维度;(3) 基于长期递归网络,微表情特征作为时序模型的 输入,用于学习时变输出序列的动态过程;(4)建 立动态预测模型,对人脸微表情分类识别. 如图 1 所示. Segmentation Detection pretreatment Micro-expression tagging Feature extraction LBP、EOH、CNN、HOG、 LBP-TOP、LPO-TOP、 LGBP-TOP、EOH+MHH Dynamic prediction model: LSTM-RNN、GMM-HMM、 LSTM-RNNOA、CNN+RNN、 LSTM-DRNN Static prediction model: SVR、CNN、PLS、 RVM Result Disgust Happiness Others Repression Surprise Video 图 1 动态表情识别流程 Fig.1 Dynamic expression-recognition process 本文方法基于长期循环卷积网络 (Long-term recurrent convolutional networks, LRCN)[7] 架构 ,并 对该模型进行改进使其更适应微表情视频片段的 识别,面对微表情数据集通常存在数据量小的问 题,采用迁移学习的方式避免网络过拟合,将卷积 神经网 络 (Convolutional neural networks, CNN) 和 LSTM 的部分微调,提出 S-LRCN 的方法,结合卷 积神经网络和长期递归网络,通过两个独立的模 块获取空间域特征,并对时间域特征分类,首先使 用预训练的 CNN 模型提取每一张微表情图片帧 · 106 · 工程科学学报,第 44 卷,第 1 期
李学翰等:基于S-LRCN的微表情识别算法 107 的特征向量组成特征序列,然后将具备时序关联 向视觉的行为活动预测,以任意长度T的视频作为 的特征序列输入到LSTM网络中,并得到时序的 输入,预测行为对应标签 输出.通过这种方法,可以对CNN网络的结构及 2.固定输入,顺序输出:x→y1,2,…,T小.面 输出微调,使其分类的准确率更高,并且有利于在 向图像描述问题,以固定图像作为输入,输出任意 小规模数据集上的学习 长度的描述标签 2.1LRCN网络 3.顺序输入和输出:[x1,x2,…,x]→y1y2,…,T] LRCN是一种结合传统CNN网络和LSTM的 面向视频描述,输入和输出都是顺序的 循环卷积结构),该网络同时具备处理时序视频输 通过实验结果,LRCN是一种结合空间和时间 入或单帧图片的能力,同时也具备输出单值预测 深度的模型,可以应用于涉及不同维度输入和输 或序列预测的能力,同时适用于大规模的可视学 出的各种视觉任务,在视频序列分析中具有很好 习,LRCN模型将长期递归网络与卷积神经网络直 的效果 接连接,以同时进行卷积感知和时间动态学习. 2.2S-LRCN网络 该模型结合深度分层视觉特征提取模型可以 由于微表情是关于视频的帧序列,实现微表 学习识别和序列化时空动态任务,包括序列数据 情空间域与时间域的特征提取显得尤为重要,所 (输入、输出)视频,描述等,如图2所示.时刻,通 以基于LRCN“双重深度”序列模型在行为识别中 过参数化的特征变换将传递给每一个视觉输入 的优势,将LRCN用于微表情序列分类,提出一种 ,(单一图像或视频帧)来产生一个固定长度的矢 S-LRCN模型.该方法包含3个部分:预处理,微表 量l∈R表示,其中,Rd表示d维的实数集,建立视 情特征提取和特征序列分类,其中预处理包括面 频输人序列的特征空间表示[1,l2,…,1,然后输入 部裁剪对齐,提取面部关键区域24:特征提取包括 到序列模型中 图片帧预训练面向人脸的CNN模型,建立特征 Visual Input Sequence 集;序列分类将视频序列的特征集提供给由LSTM Output features learning 网络,然后分类给定序列是否包含相关的微变化 该方法具有以下优点: CNN LSTM L.基于LRCN,结构简单,需要较少的输人预 Frames CNN 处理和手工特性设计,减少中间环节: 2.适合用于微表情数据集数据量不足的情 况,通过迁移学习提取面部微观特征,避免训练过 CNN LSTM 程中过拟合; 3.训练过程可视化,便于修改模型,对参数及 图2LRCN结构 特征调优 Fig.2 LRCN structure S-LRCN在训练过程中包括两个环节,其中CNN 在通常形式下,由序列模型将输入x和前一个 用作特征提取器提取表情帧的图像特征,LSTM用 时间步的隐藏状态h-映射到输出z,和更新后的隐 作时序分类器分析特征在时间维度上的关联性 藏状态h,依次计算h1=fw(x1,ho,h2=fw(r2,hI), 2.2.1CNN作为特征提取器 最后得到h,其中W为权值参数.在时间步t预测分 CNN作为一种深度学习模型,更适用于提取 布Py)的最后一步是在顺序模型的输出z上取一 图像的基础特征并降低模型复杂度,因此采用 个softmax逻辑回归函数,将一个向量映射为一个 CNN来提取微表情序列的特征向量,在不同环境 概率分布,产生一个可能的每步时间空间C的分 下的适应性更强,特征表现力更好.对于微表情识 布,表示有C种结果,y,=c表示第c类结果的概率, 别而言,数据集样本量很小,在网络训练中会出现 W为第c类权重向量: 过拟合的现象,直接从微表情数据训练CNN模型 eWez 是不可行的,为了减少在微表情数据集上训练深 P(y,=c)=softmax(Wz,)= (1) ∑ceceW..a 度学习网络时的过度拟合,使用基于对象和人脸 其中,LRCN针对3种主要的视觉问题(行为识别、 的CNN模型进行迁移学习,使用特征选择来提取 图像描述和视频描述),实例化的学习任务如下: 与任务相关的深层特征 1.顺序输入,固定输出:[x1,x2,…,xT]→y.面 Wang等阿在微表情识别中基于迁移学习使
的特征向量组成特征序列,然后将具备时序关联 的特征序列输入到 LSTM 网络中,并得到时序的 输出. 通过这种方法,可以对 CNN 网络的结构及 输出微调,使其分类的准确率更高,并且有利于在 小规模数据集上的学习. 2.1 LRCN 网络 LRCN 是一种结合传统 CNN 网络和 LSTM 的 循环卷积结构[7] ,该网络同时具备处理时序视频输 入或单帧图片的能力,同时也具备输出单值预测 或序列预测的能力,同时适用于大规模的可视学 习,LRCN 模型将长期递归网络与卷积神经网络直 接连接,以同时进行卷积感知和时间动态学习. t vt lt ∈ R d R d d [l1, l2,··· , l3] 该模型结合深度分层视觉特征提取模型可以 学习识别和序列化时空动态任务,包括序列数据 (输入、输出)视频,描述等,如图 2 所示. 时刻,通 过参数化的特征变换将传递给每一个视觉输入 (单一图像或视频帧)来产生一个固定长度的矢 量 表示,其中, 表示 维的实数集,建立视 频输入序列的特征空间表示 ,然后输入 到序列模型中. Frames frame CNN CNN … … … CNN LSTM LSTM LSTM Input Visual features Sequence learning Output y1 y2 yT 图 2 LRCN 结构 Fig.2 LRCN structure xt ht−1 zt ht h1 = fW (x1,h0) h2 = fW (x2,h1) ht W t P(yt) zt softmax yt = c Wc 在通常形式下,由序列模型将输入 和前一个 时间步的隐藏状态 映射到输出 和更新后的隐 藏状态 ,依次计算 , , 最后得到 ,其中 为权值参数. 在时间步 预测分 布 的最后一步是在顺序模型的输出 上取一 个 逻辑回归函数,将一个向量映射为一个 概率分布,产生一个可能的每步时间空间 C 的分 布,表示有 C 种结果, 表示第 c 类结果的概率, 为第 c 类权重向量: P(yt = c) = softmax(Wc zt) = e Wc zt ∑ c∈C eWc zt (1) 其中,LRCN 针对 3 种主要的视觉问题(行为识别、 图像描述和视频描述),实例化的学习任务如下: 1. 顺序输入,固定输出: [x1, x2,··· , xT ] → y. 面 向视觉的行为活动预测,以任意长度 T 的视频作为 输入,预测行为对应标签. x → [ y1, y2,··· , yT ] 2. 固定输入,顺序输出: . 面 向图像描述问题,以固定图像作为输入,输出任意 长度的描述标签. [x1, x2,··· , xT ] → [ y1, y2,··· , yT ] 3. 顺序输入和输出: . 面向视频描述,输入和输出都是顺序的. 通过实验结果,LRCN 是一种结合空间和时间 深度的模型,可以应用于涉及不同维度输入和输 出的各种视觉任务,在视频序列分析中具有很好 的效果. 2.2 S-LRCN 网络 由于微表情是关于视频的帧序列,实现微表 情空间域与时间域的特征提取显得尤为重要,所 以基于 LRCN“双重深度”序列模型在行为识别中 的优势,将 LRCN 用于微表情序列分类,提出一种 S-LRCN 模型. 该方法包含 3 个部分:预处理,微表 情特征提取和特征序列分类,其中预处理包括面 部裁剪对齐,提取面部关键区域[24] ;特征提取包括 图片帧预训练面向人脸的 CNN 模型,建立特征 集;序列分类将视频序列的特征集提供给由 LSTM 网络,然后分类给定序列是否包含相关的微变化. 该方法具有以下优点: 1. 基于 LRCN,结构简单,需要较少的输入预 处理和手工特性设计,减少中间环节; 2. 适合用于微表情数据集数据量不足的情 况,通过迁移学习提取面部微观特征,避免训练过 程中过拟合; 3. 训练过程可视化,便于修改模型,对参数及 特征调优. S-LRCN 在训练过程中包括两个环节,其中 CNN 用作特征提取器提取表情帧的图像特征,LSTM 用 作时序分类器分析特征在时间维度上的关联性. 2.2.1 CNN 作为特征提取器 CNN 作为一种深度学习模型,更适用于提取 图像的基础特征并降低模型复杂度 ,因此采用 CNN 来提取微表情序列的特征向量,在不同环境 下的适应性更强,特征表现力更好. 对于微表情识 别而言,数据集样本量很小,在网络训练中会出现 过拟合的现象,直接从微表情数据训练 CNN 模型 是不可行的,为了减少在微表情数据集上训练深 度学习网络时的过度拟合,使用基于对象和人脸 的 CNN 模型进行迁移学习,使用特征选择来提取 与任务相关的深层特征. Wang 等[25] 在微表情识别中基于迁移学习使 李学翰等: 基于 S-LRCN 的微表情识别算法 · 107 ·