第16卷第3期 智能系统学报 Vol.16 No.3 2021年5月 CAAI Transactions on Intelligent Systems May 2021 D0L:10.11992tis.202008034 基于迁移学习的无监督跨域人脸表情识别 莫宏伟,傅智杰 (哈尔滨工程大学自动化学院,黑龙江哈尔滨150001) 摘要:本文主要研究了基于迁移学习的无监督跨域人脸表情识别。在过去的几年里,提出的许多方法在人脸 表情识别方面取得了令人满意的识别效果。但这些方法通常认为训练和测试数据来自同一个数据集,因此其 具有相同的分布。而在实际应用中,这一假设通常并不成立,特别当训练集和测试集来自不同的数据集时,即 跨域人脸表情识别问题。为了解决这一问题,本文提出将一种基于联合分布对齐的迁移学习方法(domain align learning)应用于跨域人脸表情识别.该方法通过找到一个特征变换,将源域和目标域数据映射到一个公共子空 间中,在该子空间中联合对齐边缘分布和条件分布来减小域之间的分布差异,然后对变换后的特征进行训练得 到一个域适应分类器来预测目标域样本标签。为了验证提出算法的有效性,在CK+、Oulu-CASIA NIR和Oulu CASIA VIS这3个不同的数据库上做了大量实验,实验结果证明所提算法在跨域表情识别上是有效性的。 关键词:表情识别;无监督;跨域;迁移学习;特征变换:联合对齐;公共子空间:域适应 中图分类号:TP181文献标志码:A文章编号:1673-4785(2021)03-0397-10 中文引用格式:莫宏伟,傅智杰.基于迁移学习的无监督跨域人脸表情识别.智能系统学报,2021,16(3):397-406. 英文引用格式:MO Hongwei,FU Zhijie.Unsupervised cross-domain expression recognition based on transfer learning.CAAI transactions on intelligent systems,2021,16(3):397-406. Unsupervised cross-domain expression recognition based on transfer learning MO Hongwei,FU Zhijie (Automation College,Harbin Engineering University,Harbin 150001,China) Abstract:This paper primarily studies unsupervised cross-domain facial expression recognition based on transfer learn- ing.In recent years,many proposed methods have achieved satisfactory results in facial expression recognition. However,these methods usually assume that the training and test data come from the same data set and therefore have the same distribution.In practical applications,this assumption is usually untrue,especially when the training and test sets come from different data sets,also known as the cross-domain facial expression recognition problem.To solve this problem,we propose a migration learning method(domain align learning)based on joint distributed alignment for cross- domain facial expression recognition.By determining a feature transform,the source and target domain data are mapped onto a common subspace,wherein edge distribution and conditional distribution are aligned jointly to reduce the distri- bution difference between domains,and then a domain adaptive classifier is obtained by training the transformed fea- tures to predict the target domain sample label.To verify the effectiveness of the proposed algorithm,many experiments are performed on three databases,CK+,Oulu-CASIA NIR,and Oulu-CASIA VIS.The experimental results show the ef- fectiveness of the proposed algorithm in cross-domain facial expression recognition. Keywords:expression recognition;unsupervised;cross-domain;transfer learning;feature transformation;joint align- ment;public subspace;domain adaptive 人脸表情自动识别是情感计算和计算机视觉 收稿日期:2020-08-28. 基金项目:国家自然科学基金项目(60035117). 领域的研究热点之一。近年来,随着人工智能 通信作者:莫宏伟.E-mail:honwei2004@126.com 的迅猛发展,人脸表情识别在多媒体娱乐、人机
DOI: 10.11992/tis.202008034 基于迁移学习的无监督跨域人脸表情识别 莫宏伟,傅智杰 (哈尔滨工程大学 自动化学院,黑龙江 哈尔滨 150001) 摘 要:本文主要研究了基于迁移学习的无监督跨域人脸表情识别。在过去的几年里,提出的许多方法在人脸 表情识别方面取得了令人满意的识别效果。但这些方法通常认为训练和测试数据来自同一个数据集,因此其 具有相同的分布。而在实际应用中,这一假设通常并不成立,特别当训练集和测试集来自不同的数据集时,即 跨域人脸表情识别问题。为了解决这一问题,本文提出将一种基于联合分布对齐的迁移学习方法 (domain align learning) 应用于跨域人脸表情识别,该方法通过找到一个特征变换,将源域和目标域数据映射到一个公共子空 间中,在该子空间中联合对齐边缘分布和条件分布来减小域之间的分布差异,然后对变换后的特征进行训练得 到一个域适应分类器来预测目标域样本标签。为了验证提出算法的有效性,在 CK+、Oulu-CASIA NIR 和 OuluCASIA VIS 这 3 个不同的数据库上做了大量实验,实验结果证明所提算法在跨域表情识别上是有效性的。 关键词:表情识别;无监督;跨域;迁移学习;特征变换;联合对齐;公共子空间;域适应 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2021)03−0397−10 中文引用格式:莫宏伟, 傅智杰. 基于迁移学习的无监督跨域人脸表情识别 [J]. 智能系统学报, 2021, 16(3): 397–406. 英文引用格式:MO Hongwei, FU Zhijie. Unsupervised cross-domain expression recognition based on transfer learning[J]. CAAI transactions on intelligent systems, 2021, 16(3): 397–406. Unsupervised cross-domain expression recognition based on transfer learning MO Hongwei,FU Zhijie (Automation College, Harbin Engineering University, Harbin 150001, China) Abstract: This paper primarily studies unsupervised cross-domain facial expression recognition based on transfer learning. In recent years, many proposed methods have achieved satisfactory results in facial expression recognition. However, these methods usually assume that the training and test data come from the same data set and therefore have the same distribution. In practical applications, this assumption is usually untrue, especially when the training and test sets come from different data sets, also known as the cross-domain facial expression recognition problem. To solve this problem, we propose a migration learning method (domain align learning) based on joint distributed alignment for crossdomain facial expression recognition. By determining a feature transform, the source and target domain data are mapped onto a common subspace, wherein edge distribution and conditional distribution are aligned jointly to reduce the distribution difference between domains, and then a domain adaptive classifier is obtained by training the transformed features to predict the target domain sample label. To verify the effectiveness of the proposed algorithm, many experiments are performed on three databases, CK+, Oulu-CASIA NIR, and Oulu-CASIA VIS. The experimental results show the effectiveness of the proposed algorithm in cross-domain facial expression recognition. Keywords: expression recognition; unsupervised; cross-domain; transfer learning; feature transformation; joint alignment; public subspace; domain adaptive 人脸表情自动识别是情感计算和计算机视觉 领域的研究热点之一[1-5]。近年来,随着人工智能 的迅猛发展,人脸表情识别在多媒体娱乐、人机 收稿日期:2020−08−28. 基金项目:国家自然科学基金项目 (60035117). 通信作者:莫宏伟. E-mail:honwei2004@126.com. 第 16 卷第 3 期 智 能 系 统 学 报 Vol.16 No.3 2021 年 5 月 CAAI Transactions on Intelligent Systems May 2021
·398· 智能系统学报 第16卷 交互、机器智能等领域有着广泛的应用前景。近 需要解决的主要问题就是如何减小不同域之间的 年来,许多研究者致力于人脸表情识别研究,并 分布差异。近几年,一些研究者通过对源域和目 提出了许多有效的方法。 标域数据进行权重的重用来减小域之间的分布差 Zheng等I提出了核典型关联分析(kernel 异2,或者通过找到一个共享的特征表示在保留 canoncal correlation analysis,.KCCA)的人脸表情识 原始数据属性的同时来减小域之间的分布差 别方法,通过对输入图像中人面部34个关键点进 异22。但是大多数存在的方法仅对齐了边缘分 行定位,然后将这些关键点通过Gabor小波变换 布而忽略了条件分布的重要性,且往往需要目标 转换成带有标注信息的图向量(labeled graph, 域中有少量标签样本。 LG)来表示人脸特征。另外,针对每个训练人脸 因此,为了解决源域和目标域数据来自2个 表情图像,将6种表情类型的标签转化成一个六 不同的数据集,服从不同的边缘分布和条件分 维语义表达向量,进而学习LG向量与语义表达 布,且目标域没有标记数据的无监督跨域表情识 向量之间的相关关系,利用这种关系推断出测试 别问题,本文提出将联合分布对齐的迁移学习方 图像的语义表达。在不同人脸表情数据库上的实 法应用于跨域表情识别。该方法通过找到一个特 验结果表明了该方法的有效性。与目标检测等计 征变换,将源域和目标域数据映射到一个公共子 算机视觉任务相比,图像描述不仅需要检测图像 空间中,在该子空间中联合对齐边缘分布和条件分 中的内容,还需要理解图像中目标物体之间的具 布来减小域之间的分布差异,然后对变换后的特 体关系,并使用自然语言正确地表达出来。Uddin 征进行训练得到一个域适应分类器来预测目标域 等提出了一种新的方法来对基于时间序列的视 样本标签,提高跨域人脸表情识别的准确率。 频中的人脸表情进行识别,首先从时间序列人脸 1提出方法 中提取局部方向模式特征,然后进行主成分分析 和线性判别分析,使特征具有较强的鲁棒性。最 1.1问题描述 后,利用隐马尔可夫模型对不同的面部表情进行 令X∈Rmm,表示源域样本集合,X,∈Rmm表 局部特征建模和识别,取得了较好的识别效果。 示目标域样本集合,P(X)和P(X)分别表示源域 Yu圆提出了一种基于图像的静态面部表情识别方 数据和目标域数据的边缘分布,P,(YX)和 法,该方法包含一个基于3个最先进的人脸检测 P(YX,)分别表示源域和目标域的条件分布。m 器集成的人脸检测模块,以及一个基于多层深度 表示源域和目标域中样本的维度,n,和n,分别表 卷积神经网络(convolutional neural network,.CNN) 示源域和目标域样本数据的个数。因此,给定一 级联的分类模块。为了自动决定级联CNN的权 个带有标签的源域数据D,={c,)烂1,x∈Rm,一 重分配问题,提出了通过最小化对数似然损失和 个无标签的目标域数据D,=(c)1,x∈Rm,源域 最小化铰链损失2种自适应训练卷积神经网络权 和目标域样本具有相同的特征空间和标签空间, 值的优化方案。Baccouche等)设计了一种时空 即X,=X,Y,=Y,。但源域和目标域样本服从不 卷积稀疏自编码器,在不需要任何监督信息的情 同的数据分布P(X)≠P,(X),P(YX)+P(YX)。 况下学习稀疏移位不变表示。 1.2核心思想 虽然上述人脸表情识别方法取得了较好的识 分布对齐的核心思想是通过找到一个特征变 别效果,但需要注意的是,这些方法通常认为训 换矩阵,将源域和目标域样本映射到一个公共子 练数据样本和测试数据样本的数据分布相同。而 空间,即可再生核希尔伯特空间(reproducing ker- 在实际应用中,可能无法满足相同的分布假设。 nel Hilbert space,RKHS),通过引入无参数的最大 特别是当训练数据和测试数据来自2个不同的数 均值差异MMD来度量源域和目标域数据之间边 据库,且这2个数据库是在不同的数据收集环境 缘分布和条件分布的距离,在该子空间中在最大 下收集的。对于这样的跨域人脸表情识别问题, 化投影后源域和目标域数据方差的同时,联合对 传统的人脸表情识别方法可能无法达到很好的识 齐边缘分布和条件分布,最小化域之间的分布距 别效果。近年来,迁移学习在图像分类101山和标 离,即 注2)、目标识别47和特征学习20等方面都有 Dist(D.D)Dist(P(X).P (X))+ 很好的应用前景。且在跨域识别问题上展现出较 Dist(P,(Y,X),P(YX)) (1) 大的优势,越来越受到研究者的关注。 然后对变换后的特征进行训练得到一个域适 在跨域人脸表情识别问题中,源域和目标域 应分类器,来对目标域中的数据标签进行预测。 来自不同的数据库,服从不同的数据分布,因此 分布对齐原理示意图如图1所示
交互、机器智能等领域有着广泛的应用前景。近 年来,许多研究者致力于人脸表情识别研究,并 提出了许多有效的方法。 Zheng 等 [6] 提出了核典型关联分析 (kernel canoncal correlation analysis,KCCA) 的人脸表情识 别方法,通过对输入图像中人面部 34 个关键点进 行定位,然后将这些关键点通过 Gabor 小波变换 转换成带有标注信息的图向量 (labeled graph, LG) 来表示人脸特征。另外,针对每个训练人脸 表情图像,将 6 种表情类型的标签转化成一个六 维语义表达向量,进而学习 LG 向量与语义表达 向量之间的相关关系,利用这种关系推断出测试 图像的语义表达。在不同人脸表情数据库上的实 验结果表明了该方法的有效性。与目标检测等计 算机视觉任务相比,图像描述不仅需要检测图像 中的内容,还需要理解图像中目标物体之间的具 体关系,并使用自然语言正确地表达出来。Uddin 等 [7] 提出了一种新的方法来对基于时间序列的视 频中的人脸表情进行识别,首先从时间序列人脸 中提取局部方向模式特征,然后进行主成分分析 和线性判别分析,使特征具有较强的鲁棒性。最 后,利用隐马尔可夫模型对不同的面部表情进行 局部特征建模和识别,取得了较好的识别效果。 Yu[8] 提出了一种基于图像的静态面部表情识别方 法,该方法包含一个基于 3 个最先进的人脸检测 器集成的人脸检测模块,以及一个基于多层深度 卷积神经网络 (convolutional neural network, CNN) 级联的分类模块。为了自动决定级联 CNN 的权 重分配问题,提出了通过最小化对数似然损失和 最小化铰链损失 2 种自适应训练卷积神经网络权 值的优化方案。Baccouche 等 [9] 设计了一种时空 卷积稀疏自编码器,在不需要任何监督信息的情 况下学习稀疏移位不变表示。 虽然上述人脸表情识别方法取得了较好的识 别效果,但需要注意的是,这些方法通常认为训 练数据样本和测试数据样本的数据分布相同。而 在实际应用中,可能无法满足相同的分布假设。 特别是当训练数据和测试数据来自 2 个不同的数 据库,且这 2 个数据库是在不同的数据收集环境 下收集的。对于这样的跨域人脸表情识别问题, 传统的人脸表情识别方法可能无法达到很好的识 别效果。近年来,迁移学习在图像分类[10-11] 和标 注 [12-13] 、目标识别[14-17] 和特征学习[18-20] 等方面都有 很好的应用前景。且在跨域识别问题上展现出较 大的优势,越来越受到研究者的关注。 在跨域人脸表情识别问题中,源域和目标域 来自不同的数据库,服从不同的数据分布,因此 需要解决的主要问题就是如何减小不同域之间的 分布差异。近几年,一些研究者通过对源域和目 标域数据进行权重的重用来减小域之间的分布差 异 [21] ,或者通过找到一个共享的特征表示在保留 原始数据属性的同时来减小域之间的分布差 异 [22-23]。但是大多数存在的方法仅对齐了边缘分 布而忽略了条件分布的重要性,且往往需要目标 域中有少量标签样本。 因此,为了解决源域和目标域数据来自 2 个 不同的数据集,服从不同的边缘分布和条件分 布,且目标域没有标记数据的无监督跨域表情识 别问题,本文提出将联合分布对齐的迁移学习方 法应用于跨域表情识别。该方法通过找到一个特 征变换,将源域和目标域数据映射到一个公共子 空间中,在该子空间中联合对齐边缘分布和条件分 布来减小域之间的分布差异,然后对变换后的特 征进行训练得到一个域适应分类器来预测目标域 样本标签,提高跨域人脸表情识别的准确率。 1 提出方法 1.1 问题描述 Xs ∈ R m×ns Xt ∈ R m×nt Ps(Xs) Pt(Xt) Ps (Ys |Xs) Pt (Yt |Xt) m ns nt Ds = {(xi , yi)} ns i=1 , xi ∈ R m Dt = {(xj )}nt j=1 , xj ∈ R m Xs = Xt Ys = Yt Ps (Xs) , Pt (Xt) Ps (Ys |Xs) , Pt (Yt |Xt) 令 表示源域样本集合, 表 示目标域样本集合, 和 分别表示源域 数据和目标域数据的边缘分布, 和 分别表示源域和目标域的条件分布。 表示源域和目标域中样本的维度, 和 分别表 示源域和目标域样本数据的个数。因此,给定一 个带有标签的源域数据 ,一 个无标签的目标域数据 ,源域 和目标域样本具有相同的特征空间和标签空间, 即 , 。但源域和目标域样本服从不 同的数据分布 , 。 1.2 核心思想 分布对齐的核心思想是通过找到一个特征变 换矩阵,将源域和目标域样本映射到一个公共子 空间,即可再生核希尔伯特空间 (reproducing kernel Hilbert space, RKHS),通过引入无参数的最大 均值差异 MMD 来度量源域和目标域数据之间边 缘分布和条件分布的距离,在该子空间中在最大 化投影后源域和目标域数据方差的同时,联合对 齐边缘分布和条件分布,最小化域之间的分布距 离,即 Dist(Ds ,Dt) ≈ Dist(Ps(Xs),Pt(Xt))+ Dist(Ps(Ys |Xs),Pt(Yt |Xt)) (1) 然后对变换后的特征进行训练得到一个域适 应分类器,来对目标域中的数据标签进行预测。 分布对齐原理示意图如图 1 所示。 ·398· 智 能 系 统 学 报 第 16 卷
第3期 莫宏伟,等:基于迁移学习的无监督跨域人脸表情识别 ·399· 源域数据目标域数据 源域数据。 ◆ 缘分布差异。 目标域数据 公共子空间中 原域数据· ◆ 1.5条件分布对齐 公共子空间中目标域数据。◆◆ 减小边缘分布的差异通常并不能保证域之间 原始空间 公共子空间(RKHS) 的条件分布差异也随之减小。实际上最小化条件分 特征变换 布P(YX)和P(YX)之间的差异对于跨域识别 MMD 问题来说也是至关重要的。然而,对齐条件分布 并不是很容易,在目标域没有标签数据,对条件 图1分布对齐原理示意 分布P(YX)直接进行求解是行不通的。因此可 Fig.1 Schematic diagram of the distribution alignment 以使用类条件分布的充分统计量P(XY,)来近似 1.3特征变换 P(Y,X,)。近来的一些工作开始通过内核映射空 令X=[X,X]∈Rmx,+n)为输入矩阵,n和n 间中的样本选择、联合训练、循环验证、核密 分别为源域和目标域中的样本个数,H=1-1 度估计26]等进行条件分布对齐。但是这些方法 n+n 往往都需要在目标域中有一些标签数据,所以这 1为中心矩阵,其中I∈R,+,+m)为单位矩阵,1是 一个(n,+n,)×(m,+n)的全1矩阵,则输入数据的 些方法并不能解决我们的问题。 为了解决这一问题,提出利用目标域数据的 协方差矩阵可以表示为XHXT。本文的主要目标 伪标签,即通过将在有标签的源域数据上训练的 就是找到一个正交变换矩阵W∈Rm使得源域和 基分类器应用于无标签的目标域数据,可以很容 目标域数据映射到公共子空间中的数据方差最 易地预测目标域数据的伪标签。由于不同域之间 大,即 的分布差异,这些伪标签可能不是太准确,需要 max t(WXHXW) (2) 在实验中进行迭代优化。在源域带标签数据上训 1.4边缘分布对齐 练的基分类器可以是标准的学习器,例如支持向 在进行分布对齐之前,需要解决的主要问题 量机(SVM)、NN等。 就是找到一个合适的度量准则来计算2个域之间 有了真实标签的源域数据和带有伪标签的目 的分布差异。而在机器学习中存在很多度量准则 标域数据之后,就可以在标签空间Y的每个类中 可以度量不同分布之间的差异,例如欧氏距离、 匹配类条件分布P(xy=c)和P,(xb,=c), 余弦相似度、KL散度等。但这些方法通常计算 c=(1,2,…,C。为了测量类条件分布P(xby,=c) 起来比较复杂。因此为了对齐边缘分布,减小边 和P(xy,=c)之间的距离,本文对MMD进行了 缘分布P(X)和P(X)之间的差异,采用无参数的最 修改。因此,条件分布对齐的目标函数可以写成: 大均值差异MMD来度量不同分布之间的距离。 MMD的主要目标就是在RKHS中计算经过 mi的 (6) 变换后的源域样本和目标域样本均值之间的距 XED 离。因此,边缘分布对齐的目标函数可以写成: 式中:D9={::x:∈D,Ay()=c}是源域数据中属 于第c类的样本集合;y(x)是数据:的真实标签; (3) n9=D是源域数据中属于第c类的样本个数。对 应的,D9={x:x,∈D,Ax)=c是目标域数据中 式中:x、x,分别为源域和目标域中的第i个样本 属于第c类样本集合,x)是样本x的伪标签, 和第j个样本;H表示可再生核希尔伯特空间。 m9=D是目标域数据中属于第c类样本的个数。 通过矩阵技巧和迹优化,式(3)可以被改写为 通过进一步优化,式(6)可以简化为 (WXLXW) (4) iu(WXL.XW) (7) 其中L是MMD矩阵,计算如下: 式中:L是类标签的MMD矩阵,计算如下: xi,xi∈D n:n, nono rxj∈De Lo= x,xj∈D, (5) 1 nene xi,xjE De) 1 (8) 其他 (L)= n几 1 x∈De,xjEDI 因此,通过式(4)使得域之间的边缘分布 nonos xeDP,x,∈D PX)和P(X)尽可能地接近,减小了域之间的边 0 其他
原始空间 MMD 公共子空间 (RKHS) 源域数据 目标域数据 源域数据 目标域数据 公共子空间中源域数据 公共子空间中目标域数据 特征变换 图 1 分布对齐原理示意 Fig. 1 Schematic diagram of the distribution alignment 1.3 特征变换 X = [Xs ,Xt] ∈ R m×(ns+nt) ns nt H = I− 1 ns +nt 1 I ∈ R (ns+nt)(ns+nt) 1 (ns +nt)×(ns +nt) XHXT W ∈ R m×k 令 为输入矩阵, 和 分别为源域和目标域中的样本个数, 为中心矩阵,其中 为单位矩阵, 是 一个 的全 1 矩阵,则输入数据的 协方差矩阵可以表示为 。本文的主要目标 就是找到一个正交变换矩阵 使得源域和 目标域数据映射到公共子空间中的数据方差最 大,即 max WTW=I tr(WTXHXTW) (2) 1.4 边缘分布对齐 P(Xs) P(Xt) 在进行分布对齐之前,需要解决的主要问题 就是找到一个合适的度量准则来计算 2 个域之间 的分布差异。而在机器学习中存在很多度量准则 可以度量不同分布之间的差异, 例如欧氏距离、 余弦相似度、KL 散度等。但这些方法通常计算 起来比较复杂。因此为了对齐边缘分布,减小边 缘分布 和 之间的差异,采用无参数的最 大均值差异 MMD 来度量不同分布之间的距离。 MMD 的主要目标就是在 RKHS 中计算经过 变换后的源域样本和目标域样本均值之间的距 离。因此,边缘分布对齐的目标函数可以写成: min WTW=I 1 ns ∑ns i=1 WT xi − 1 nt ∑nt j=1 WT xj 2 H (3) xi xj i j H 式中: 、 分别为源域和目标域中的第 个样本 和第 个样本; 表示可再生核希尔伯特空间。 通过矩阵技巧和迹优化,式 (3) 可以被改写为 min WTW=I tr(WTXLXTW) (4) 其中 L 是 MMD 矩阵,计算如下: Li j = 1 nsns , xi , xj ∈ Ds 1 ntnt , xi , xj ∈ Dt − 1 nsnt , 其他 (5) P(Xs) P(Xt) 因此,通过式 (4) 使得域之间的边缘分布 和 尽可能地接近,减小了域之间的边 缘分布差异。 1.5 条件分布对齐 Ps (Ys |Xs) Pt(Yt |Xt) Pt(Yt |Xt) Pt(Xt |Yt) Pt(Yt |Xt) 减小边缘分布的差异通常并不能保证域之间 的条件分布差异也随之减小。实际上最小化条件分 布 和 之间的差异对于跨域识别 问题来说也是至关重要的。然而,对齐条件分布 并不是很容易,在目标域没有标签数据,对条件 分布 直接进行求解是行不通的。因此可 以使用类条件分布的充分统计量 来近似 。近来的一些工作开始通过内核映射空 间中的样本选择、联合训练[24] 、循环验证[25] 、核密 度估计[26] 等进行条件分布对齐。但是这些方法 往往都需要在目标域中有一些标签数据,所以这 些方法并不能解决我们的问题。 为了解决这一问题,提出利用目标域数据的 伪标签,即通过将在有标签的源域数据上训练的 基分类器应用于无标签的目标域数据,可以很容 易地预测目标域数据的伪标签。由于不同域之间 的分布差异,这些伪标签可能不是太准确,需要 在实验中进行迭代优化。在源域带标签数据上训 练的基分类器可以是标准的学习器,例如支持向 量机 (SVM)、NN 等。 Y Ps (xs |ys = c) Pt (xt |yt = c) c = {1,2,··· ,C} Ps (xs |ys = c) Pt (xt |yt = c) 有了真实标签的源域数据和带有伪标签的目 标域数据之后,就可以在标签空间 的每个类中 匹配类条件分布 和 , 。为了测量类条件分布 和 之间的距离,本文对 MMD 进行了 修改。因此,条件分布对齐的目标函数可以写成: min WTW=I 1 n (c) s ∑ xi∈D (c) s WT xi − 1 n (c) t ∑ xj∈D (c) t WT xj 2 H (6) D (c) s = {xi : xi ∈ Ds ∧y(xi) = c} y(xi) xi n (c) s = D (c) s D (c) t = {xj : xj ∈ Dt ∧yˆ(xj) = c} yˆ(xj) xj n (c) t = D (c) t 式中: 是源域数据中属 于第 c 类的样本集合; 是数据 的真实标签; 是源域数据中属于第 c 类的样本个数。对 应的, 是目标域数据中 属于第 c 类样本集合, 是样本 的伪标签, 是目标域数据中属于第 c 类样本的个数。 通过进一步优化,式 (6) 可以简化为 min WTW=I tr( WTXLcX TW ) (7) 式中: Lc 是类标签的 MMD 矩阵,计算如下: (Lc)i j = 1 n (c) s n (c) s , xi , xj ∈ D (c) s 1 n (c) t n (c) t , xi , xj ∈ D (c) t − 1 n (c) s n (c) t , { xi ∈ D (c) s , xj ∈ D (c) t xj ∈ D (c) s , xi ∈ D (c) t 0, 其他 (8) 第 3 期 莫宏伟,等:基于迁移学习的无监督跨域人脸表情识别 ·399·
·400· 智能系统学报 第16卷 因此,通过式(⑦减小了域之间的条件分布差 而来的。CK+数据库包含123名年龄在1850岁 异。但是在本文要解决的问题中,目标同时是最 来自不同人种的成年人,包括非裔美国人、亚洲 小化域间的边缘分布和条件分布的差异。因此将 以及拉丁美洲人的593个图像序列,如图2所 式(4)、(7)与式(2)合并到一起得到DaL的优化问 示。在CK数据库的基础上对视频序列和采集对 题,即 象进行扩充,分别增加了22%和27%,且在该数 m盟tr(WXLXW)+ t(WTXLXW)+lW 据库中的视频序列中包括生气、厌恶、恐惧、高 c=1 兴、难过、吃惊和中性等7种表情,每种表情均有 (9) 完整的面部编码。该数据库中表情图像的采集对 式中:λ是正则化参数:W表示转换矩阵W的 象中有65%是女性,35%是男性。 Frobenius范数。 1.6模型优化 令p=diag(p1,p2,…,p)∈Rt为拉格朗日乘 子,根据约束优化理论,可以推导出式(9)的拉格 朗日函数,即 w(WXLXW)+∑(WXLXW)+ (10) t((I-WXHXW)) 图2CK+数据库部分表情样本 令式(10)对变换矩阵W求偏导数,并令其等 Fig.2 Partial expression samples of CK+Database 于零可得到其广义特征分解: 2)Oulu-CASIA NIR&VIS Database数据库 (XLXT+X LXT+ADW=XHXTWO 该数据库主要由Oulu-CASIA NIR(近红外相 (11) c= 机)和Oulu-CASIA VIS(可见光相机)两部分组 最后,选择式(11)的前k个最小特征值对应 成,如图3、4所示,均通过对年龄范围为25~58岁 的特征向量作为变换矩阵W的解。算法的伪代 的80位测试者进行表情采集,其中男性和女性 码如算法1所示。 的比例分别为73.8%和26.2%。在80位测试者 算法1分布对齐算法(DaL) 中,50位芬兰测试者由奥卢大学进行采集,剩 输入数据矩阵X,标签矩阵y,子空间维度 余的测试者由中国科学院模式识别实验室完成 k,以及正则化参数; 采集整理。整个数据库包含的面部表情为高兴、 输出变换矩阵W,域适应分类器f。 生气、厌恶、惊讶、恐惧和悲伤,所有这些表情都 1)通过式(5)构建MMD矩阵L,并令 是在3种不同光源条件(正常、强光、黑暗)下,分 (Le=011 别通过一个可见光摄像机和一个近红外摄像机获 2)通过对式(11)进行特征分解选择最小的k 得的。 个特征向量构建变换矩阵W; 3)在{(Wxy),上训练一个标准分类器,并 用其去更新目标域伪标签=f(Wx,),通过 (a)黑暗 式(8)构造MMD矩阵L。 4)重复步骤2)、3)直至收敛: 5)在标注数据{(Wx,y)上训练的域适应 (b)正常 分类器f。 2实验与分析 2.1数据库介绍 (c)强光 1)CK+数据库 图3 Oulu-CASIA VIS分别在黑暗、正常、强光条件下数 CK+(the extended cohn-kanda dataset)数据库27 据库中表情样本 Fig.3 Expression samples of Oulu-CASIA VIS under 是美国的匹兹堡大学团队和卡内基梅隆大学团队 dark,normal and strong light conditions respect- 合作在CK(cohn-kanade)数据库2!上进行扩充 ively
因此,通过式 (7) 减小了域之间的条件分布差 异。但是在本文要解决的问题中,目标同时是最 小化域间的边缘分布和条件分布的差异。因此将 式 (4)、(7) 与式 (2) 合并到一起得到 DaL 的优化问 题,即 min WTXHXTW=I tr(WTXLXTW)+ ∑C c=1 tr(WTXLcX TW)+λ∥W∥ 2 F (9) λ ∥W∥ 2 式中: 是正则化参数; F 表示转换矩阵 W 的 Frobenius 范数。 1.6 模型优化 φ = diag(φ1,φ2,··· ,φk) ∈ R 令 k×k 为拉格朗日乘 子,根据约束优化理论,可以推导出式 (9) 的拉格 朗日函数,即 tr(WTXLXTW)+ ∑C c=1 tr(WTXLcX TW)+ tr((I−WTXHXTW)φ) (10) 令式 (10) 对变换矩阵 W 求偏导数,并令其等 于零可得到其广义特征分解: (XLXT + X ∑C c=1 LcX T +λI)W = XHXTWφ (11) k W 最后,选择式 (11) 的前 个最小特征值对应 的特征向量作为变换矩阵 的解。算法的伪代 码如算法 1 所示。 算法 1 分布对齐算法 (DaL) X ys k λ 输入 数据矩阵 ,标签矩阵 ,子空间维度 ,以及正则化参数 ; 输出 变换矩阵 W ,域适应分类器 f。 L {Lc = 0} C c=1 1 ) 通 过 式 ( 5 ) 构 建 M M D 矩 阵 ,并令 。 k W 2) 通过对式 (11) 进行特征分解选择最小的 个特征向量构建变换矩阵 ; {(WT xi , yi)} ns i=1 {yˆj = f(WT xj)} nt j=1 Lc 3) 在 上训练一个标准分类器,并 用其去更新目标域伪标签 ,通过 式 (8) 构造 MMD 矩阵 。 4) 重复步骤 2)、3) 直至收敛; {(WT xi , yi)} ns i=1 f 5) 在标注数据 上训练的域适应 分类器 。 2 实验与分析 2.1 数据库介绍 1)CK+数据库 CK+(the extended cohn-kanda dataset) 数据库[27] 是美国的匹兹堡大学团队和卡内基梅隆大学团队 合作在 CK(cohn–kanade) 数据库[28] 上进行扩充 而来的。CK +数据库包含 123 名年龄在 18~50 岁 来自不同人种的成年人,包括非裔美国人、亚洲 以及拉丁美洲人的 593 个图像序列,如图 2 所 示。在 CK 数据库的基础上对视频序列和采集对 象进行扩充,分别增加了 22% 和 27%,且在该数 据库中的视频序列中包括生气、厌恶、恐惧、高 兴、难过、吃惊和中性等 7 种表情,每种表情均有 完整的面部编码。该数据库中表情图像的采集对 象中有 65% 是女性,35% 是男性。 图 2 CK+数据库部分表情样本 Fig. 2 Partial expression samples of CK + Database 2)Oulu-CASIA NIR & VIS Database 数据库[29] 该数据库主要由 Oulu-CASIA NIR(近红外相 机) 和 Oulu-CASIA VIS(可见光相机) 两部分组 成,如图 3、4 所示,均通过对年龄范围为 25~58 岁 的 80 位测试者进行表情采集,其中男性和女性 的比例分别为 73.8% 和 26.2%。在 80 位测试者 中 ,50 位芬兰测试者由奥卢大学进行采集,剩 余的测试者由中国科学院模式识别实验室完成 采集整理。整个数据库包含的面部表情为高兴、 生气、厌恶、惊讶、恐惧和悲伤,所有这些表情都 是在 3 种不同光源条件 (正常、强光、黑暗) 下,分 别通过一个可见光摄像机和一个近红外摄像机获 得的。 (a) 黑暗 (b) 正常 (c) 强光 图 3 Oulu-CASIA VIS 分别在黑暗、正常、强光条件下数 据库中表情样本 Fig. 3 Expression samples of Oulu-CASIA VIS under dark, normal and strong light conditions respectively ·400· 智 能 系 统 学 报 第 16 卷
第3期 莫宏伟,等:基于迁移学习的无监督跨域人脸表情识别 ·401· 集),因此可以得到6组对比实验,即 I)CK+作为源域,Oulu-CASIA NIR作为目标 (a)黑暗 域,用C&N表示; 2)Oulu-CASIA NIR作为源域,CK+作为目标 域,用N&C表示; 3)CK+作为源域,Oulu-CASIA VIS作为目标 (b)正常 域,用C&V表示; 4)Oulu-CASIA VIS作为源域,CK+作为目标 域,用V&C表示; (⊙)强光 5)Oulu-CASIA NIR作为源域,Oulu-CASIA 图4Oulu-CASIA NIR分别在黑暗、正常、强光条件下数 VIS作为目标域,用N&V表示; 据库中表情样本 6)Oulu-CASIA VIS作为源域,Oulu-CASIA Fig.4 Expression samples of Oulu CASIA NIR under NIR作为目标域,用V&N表示。 dark,normal and strong light conditions respect- 在本文实验中所用到的3个数据库中的表情 ively 样本构成如表1所示。实验中所有方法采用的参 2.2实验设置 数设置及评价指标如下:在实验中,线性支持向量机 为了比较,本文选择了近年来在跨域人脸表 (SVM以固定的C=0.2,且在实验过程中,为了公 情识别中常使用的迁移学习算法,包括核均值匹 平对比,所有方法均采用线性核函数。对于 (kernel mean matching,KMM)301 Kullback-Lei- KMM来说主要有2个参数B和E,分别设置为 bler重要性估计过程(kullback-leibler importance 1 estimation process,.KLIEP)B)、选择性迁移机 B=1000,8=m- 而,其中n为训练样本的个 (selective transfer machine,.STM)等与本文提出的 数。STM中的参数B和ε设置和KMM一样。 分布对齐(①aL)进行对比,这些方法的参数设置 在DL中主要包括2个参数子空间维度k和正则 将在后面进行介绍。此外,使用线性支持向量机 化参数A,在实验中设置为k=100,A=0.1,迭代次 (SVM)作为这4种基准对比方法的分类器,即 数N=20。在本文中,使用测试数据的分类精度作 KLIEP+SVM、KMM+SVM、STM+SVM和DaL+SVM, 为评价指标,即 同时将无迁移的SVM作为基准方法与这4种算 A=:xED,A)=y() (12) 法进行对比。 x:x∈D.l 在本文中,采用圆形LBP特征提取算子来 式中:A表示准确率;D,表示目标域样本;(x)表 提取表情特征,在实验中选择2种不同的半径和 示各对比算法预测的目标域样本标签;(x)表示 周围像素点的圆形LBP算子,即R=1,P=8和 目标域样本的真实标签。 R=2,P=16,分别用LBPI和LBPI6表示。选择 表1实验所用数据库样本构成 CK+,Oulu-CASIA NIR和Oulu-CASIA VIS这3个 Table 1 Composition of database samples used in the ex- 数据库进行验证本文提出算法的有效性,在这 periment 3个数据库中采集的表情样本来自不同的人种, 实验数据库 愤怒厌恶恐惧高兴悲伤吃惊 且是在不同的实验环境下使用不同的设备进行采 CK+ 45 60 25 70 28 85 集的,因此这3个数据库中表情样本具有不同的 Ouu-CASIA NIR240240240240240240 特征分布。在进行实验之前,首先对这3个数据 Oulu-CASIA VIS240240240240240240 库中的表情图像进行预处理,将这3个数据库中 的表情图像大小进行归一化,统一调整为64×64, 2.3 实验结果与分析 并选用这3个数据库中共有的惊讶(surprise)、高 不同对比方法在本文设置的6种实验场景下 兴(happy)、悲伤(sad)、愤怒(angy)、恐惧(fear)和 的平均准确率分别如表2、3所示。从实验结果可 厌恶(disgust)等6种表情类型的样本进行实验, 以看出: 因此在这3个数据库中的表情图像具有相同的特 1)本文提出的DaL在不同场景下的识别效 征空间和标签空间。 果相对于无迁移学习的传统机器学习算法SVM 在实验过程中,每次选取这3个数据库中的 有大幅提升,且均高于KMM、KLIEP和STM,表 任意2个分别作为源域(训练集)和目标域(测试 明DaL在跨域人脸表情识别的有效性
(a) 黑暗 (b) 正常 (c) 强光 图 4 Oulu-CASIA NIR 分别在黑暗、正常、强光条件下数 据库中表情样本 Fig. 4 Expression samples of Oulu CASIA NIR under dark, normal and strong light conditions respectively 2.2 实验设置 为了比较,本文选择了近年来在跨域人脸表 情识别中常使用的迁移学习算法,包括核均值匹 配 (kernel mean matching, KMM)[30] 、Kullback-Leibler 重要性估计过程 (kullback-leibler importance estimation process, KLIEP)[ 3 1 ] 、选择性迁移机 (selective transfer machine, STM)[5] 等与本文提出的 分布对齐 (DaL) 进行对比,这些方法的参数设置 将在后面进行介绍。此外,使用线性支持向量机 (SVM) 作为这 4 种基准对比方法的分类器,即 KLIEP+SVM、KMM+SVM、STM+SVM 和 DaL+SVM, 同时将无迁移的 SVM 作为基准方法与这 4 种算 法进行对比。 R= 1 P= 8 R= 2 P= 16 LBP| 8 1 LBP| 16 2 64×64 在本文中,采用圆形 LBP[32] 特征提取算子来 提取表情特征,在实验中选择 2 种不同的半径和 周围像素点的圆形 LBP 算子,即 , 和 , ,分别用 和 表示。选择 CK+,Oulu-CASIA NIR 和 Oulu-CASIA VIS 这 3 个 数据库进行验证本文提出算法的有效性,在这 3 个数据库中采集的表情样本来自不同的人种, 且是在不同的实验环境下使用不同的设备进行采 集的,因此这 3 个数据库中表情样本具有不同的 特征分布。在进行实验之前,首先对这 3 个数据 库中的表情图像进行预处理,将这 3 个数据库中 的表情图像大小进行归一化,统一调整为 , 并选用这 3 个数据库中共有的惊讶 (surprise)、高 兴 (happy)、悲伤 (sad)、愤怒 (angry)、恐惧 (fear) 和 厌恶 (disgust) 等 6 种表情类型的样本进行实验, 因此在这 3 个数据库中的表情图像具有相同的特 征空间和标签空间。 在实验过程中,每次选取这 3 个数据库中的 任意 2 个分别作为源域 (训练集) 和目标域 (测试 集),因此可以得到 6 组对比实验,即 1) CK+作为源域,Oulu-CASIA NIR 作为目标 域,用 C&N 表示; 2) Oulu-CASIA NIR 作为源域,CK+作为目标 域,用 N&C 表示; 3) CK+作为源域,Oulu-CASIA VIS 作为目标 域,用 C&V 表示; 4) Oulu-CASIA VIS 作为源域,CK+作为目标 域,用 V&C 表示; 5) Oulu-CASIA NIR 作为源域,Oulu-CASIA VIS 作为目标域,用 N&V 表示; 6) Oulu-CASIA VIS 作为源域,Oulu-CASIA NIR 作为目标域,用 V&N 表示。 在本文实验中所用到的 3 个数据库中的表情 样本构成如表 1 所示。实验中所有方法采用的参 数设置及评价指标如下:在实验中,线性支持向量机 C= 0.2 B ε B = 1 000 ε = √ n− 1 √ n n B ε k λ k λ (SVM) 以固定的 ,且在实验过程中,为了公 平对比,所有方法均采用线性核函数。对 于 KMM 来说主要有 2 个参数 和 ,分别设置为 , ,其中 为训练样本的个 数。STM 中的参数 和 设置和 KMM 一样。 在 DaL 中主要包括 2 个参数子空间维度 和正则 化参数 ,在实验中设置为 =100, =0.1,迭代次 数 N=20。在本文中,使用测试数据的分类精度作 为评价指标,即 A = |x : x ∈ Dt ∧yˆ(x) = y(x)| |x : x ∈ Dt | (12) A Dt yˆ(x) y(x) 式中: 表示准确率; 表示目标域样本; 表 示各对比算法预测的目标域样本标签; 表示 目标域样本的真实标签。 表 1 实验所用数据库样本构成 Table 1 Composition of database samples used in the experiment 实验数据库 愤怒 厌恶 恐惧 高兴 悲伤 吃惊 CK+ 45 60 25 70 28 85 Oulu-CASIA NIR 240 240 240 240 240 240 Oulu-CASIA VIS 240 240 240 240 240 240 2.3 实验结果与分析 不同对比方法在本文设置的 6 种实验场景下 的平均准确率分别如表 2、3 所示。从实验结果可 以看出: 1) 本文提出的 DaL 在不同场景下的识别效 果相对于无迁移学习的传统机器学习算法 SVM 有大幅提升,且均高于 KMM、KLIEP 和 STM,表 明 DaL 在跨域人脸表情识别的有效性。 第 3 期 莫宏伟,等:基于迁移学习的无监督跨域人脸表情识别 ·401·