第10卷第2期 智能系统学报 Vol.10 No.2 2015年4月 CAAI Transactions on Intelligent Systems Apr.2015 D0:10.3969/j.issn.1673-4785.201405060 网络出版地址:http://www.enki..net/kcms/detail/23.1538.TP.20150326.1015.003.html 深度信念网络的二代身份证异构人脸核实算法 张媛媛,霍静,杨婉琪,高阳,史颖欢 (南京大学计算机软件新技术国家重点实验室,江苏南京210023) 摘要:二代身份证人脸核实问题是指判断二代身份证人像和身份证使用者当前头像是否为同一人。具体来说,即 将二代身份证模糊人像和实际在光照、背景等因素不可控环境下拍摄的若干张二代证使用者的视频人像作匹配,判 断是否为同一个人。由于低分辨率模糊图像和清晰视频图像属于2种不同的图像模态,因此该问题属于异构人脸 识别问题。考虑到跨模态人脸图像的差异,传统的特征抽取方法很难抽取判别性特征来描述不同模态图像,使得传 统方法难以达到精准辨别。针对这个问题,提出了一种新的基于深度学习的解决方法,其基本思想是通过深度信念 网络(DBN)的非监督贪心逐层训练来提取人脸图像的高层特征,结合传统的图像预处理和相似性度量技术,达到人 脸核实的目的。通过在256人的真实二代证数据集上和传统特征降维方法PCA,LDA进行比较,证实了所提出方法 在准确率上相比PCA有约12%的提升,相比LDA有约8%的提升。实验同时表明,针对数据量增大的情况,基于深 度学习的解决方法要优于传统的人脸识别方法。 关键词:人脸核实;多模态;深度学习;深度信念网络 中图分类号:TP391文献标志码:A文章编号:1673-4785(2015)02-0193-08 中文引用格式:张媛媛,霍静,杨婉琪,等.深度信念网络的二代身份证异构人脸核实算法[J].智能系统学报,2015,10(2):193 200. 英文引用格式:ZHANG Yuanyuan,HUO Jing,YANG Wangi,etal.A deep belief network-based heterogeneous face verification method for the second-generation identity card[J].CAAI Transactions on Intelligent Systems,2015,10(2):193-200. A deep belief network-based heterogeneous face verification method for the second-generation identity card ZHANG Yuanyuan,HUO Jing,YANG Wanqi,GAO Yang,SHI Yinghuan (State Key Laboratory for Software Technology,Nanjing University,Nanjing 210023,China) Abstract:The objective of the face verification method for the second-generation identity card is to determine whether the original head-photo stored in the corresponding identity card image and the currently captured head photo of the card-holder by using a video camera image actually belongs to the same person or not.To obtain a good verification result for the heterogeneous face verification method is a very challenging task because the two different types of ima- ges belong to two different modalities (e.g.,different image resolutions,different illumination conditions).Consider- ing the difference of trans-modal face images,it is hard to use traditional feature extraction methods to extract dis- criminative feature for description of images with different modes.Traditional feature extraction methods cannot distin- guish images exactly.In this paper,a deep learning-based face verification method is proposed.The proposed deep learning-based face verification method integrates the deep belief network (DBN),which employs unsupervised greedy layer-by-layer training for high-level feature extraction of face photo and combines the popularly used image preprocessing and similarity measurement technologies to realize the purpose of face verification.The results were e- valuated on a real dataset with two different modalities of 256 different people.This method outperforms the traditional principal component analysis(PCA)and linear discriminant analysis (LDA)methods with 12%and 8%improve- ments in terms of the verification accuracy,respectively.The results validated the advantage of the proposed method, especially when the amount of entries increases. Keywords:face recognition;multimodes;deep learning;deep belief network 收稿日期:2014-05-28.网络出版日期:2015-03-26. 目前,中国公民广泛使用第2代身份证作为身 基金项目:国家自然科学基金资助项目(61035003,61175042). 通信作者:张媛媛.E-mail:zhangyuanyuan2013nju@gmail..com. 份识别的手段。然而,随着近年来社会对于治安监
第 10 卷第 2 期 智 能 系 统 学 报 Vol.10 №.2 2015 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2015 DOI:10.3969 / j.issn.1673⁃4785.201405060 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20150326.1015.003.html 深度信念网络的二代身份证异构人脸核实算法 张媛媛,霍静,杨婉琪,高阳,史颖欢 (南京大学 计算机软件新技术国家重点实验室 ,江苏 南京 210023) 摘 要:二代身份证人脸核实问题是指判断二代身份证人像和身份证使用者当前头像是否为同一人。 具体来说,即 将二代身份证模糊人像和实际在光照、背景等因素不可控环境下拍摄的若干张二代证使用者的视频人像作匹配,判 断是否为同一个人。 由于低分辨率模糊图像和清晰视频图像属于 2 种不同的图像模态,因此该问题属于异构人脸 识别问题。 考虑到跨模态人脸图像的差异,传统的特征抽取方法很难抽取判别性特征来描述不同模态图像,使得传 统方法难以达到精准辨别。 针对这个问题,提出了一种新的基于深度学习的解决方法,其基本思想是通过深度信念 网络(DBN)的非监督贪心逐层训练来提取人脸图像的高层特征,结合传统的图像预处理和相似性度量技术,达到人 脸核实的目的。 通过在 256 人的真实二代证数据集上和传统特征降维方法 PCA、LDA 进行比较,证实了所提出方法 在准确率上相比 PCA 有约 12%的提升,相比 LDA 有约 8%的提升。 实验同时表明,针对数据量增大的情况,基于深 度学习的解决方法要优于传统的人脸识别方法。 关键词:人脸核实;多模态;深度学习;深度信念网络 中图分类号:TP391 文献标志码:A 文章编号:1673⁃4785(2015)02⁃0193⁃08 中文引用格式:张媛媛,霍静,杨婉琪,等. 深度信念网络的二代身份证异构人脸核实算法[ J]. 智能系统学报, 2015, 10( 2): 193⁃ 200. 英文引用格式:ZHANG Yuanyuan, HUO Jing, YANG Wanqi, et al. A deep belief network⁃based heterogeneous face verification method for the second⁃generation identity card[J]. CAAI Transactions on Intelligent Systems, 2015, 10(2): 193⁃200. A deep belief network⁃based heterogeneous face verification method for the second⁃generation identity card ZHANG Yuanyuan, HUO Jing, YANG Wanqi, GAO Yang, SHI Yinghuan (State Key Laboratory for Software Technology, Nanjing University, Nanjing 210023, China) Abstract:The objective of the face verification method for the second⁃generation identity card is to determine whether the original head⁃photo stored in the corresponding identity card image and the currently captured head photo of the card⁃holder by using a video camera image actually belongs to the same person or not. To obtain a good verification result for the heterogeneous face verification method is a very challenging task because the two different types of ima⁃ ges belong to two different modalities (e.g., different image resolutions, different illumination conditions). Consider⁃ ing the difference of trans⁃modal face images, it is hard to use traditional feature extraction methods to extract dis⁃ criminative feature for description of images with different modes. Traditional feature extraction methods cannot distin⁃ guish images exactly. In this paper, a deep learning⁃based face verification method is proposed. The proposed deep learning⁃based face verification method integrates the deep belief network (DBN), which employs unsupervised greedy layer⁃by⁃layer training for high⁃level feature extraction of face photo and combines the popularly used image preprocessing and similarity measurement technologies to realize the purpose of face verification. The results were e⁃ valuated on a real dataset with two different modalities of 256 different people. This method outperforms the traditional principal component analysis (PCA) and linear discriminant analysis (LDA) methods with 12% and 8% improve⁃ ments in terms of the verification accuracy, respectively. The results validated the advantage of the proposed method, especially when the amount of entries increases. Keywords:face recognition;multimodes; deep learning; deep belief network 收稿日期:2014⁃05⁃28. 网络出版日期:2015⁃03⁃26. 基金项目:国家自然科学基金资助项目(61035003,61175042). 通信作者:张媛媛.E⁃mail:zhangyuanyuan2013nju@ gmail.com. 目前,中国公民广泛使用第 2 代身份证作为身 份识别的手段。 然而,随着近年来社会对于治安监
·194 智能系统学报 第10卷 控的逐步重视,基于计算机辅助的面向第2代身份 过降维的方法来提取人脸图像特征,包括主成分分 证的人脸核实问题成为许多研究者关注的问题。 析(PCA)[4、线性判别分析(LDA)[O、局部保持投 早期的人脸核实研究大都针对受控环境下的人 影(locality preserving projection,LPP)I]等,然而上 脸识别问题,该问题目前已经可以被较好地解决。 述方法皆属于浅层学习模型8】,其局限性在于有限 但在拍照环境不确定、用户不配合、年龄更替等不可 样本和计算单元情况下对复杂分类问题的函数表示 控环境下,人脸核实的正确率急剧下降。因此,目前 能力有限,难以发现最具有判别能力的特征。此外, 大部分的研究开始关注不受控环境下的人脸核实问 对于异构人脸核实问题,图像模态导致的差异通常 题,该问题的主要难点在于环境、光照、姿态、年龄更 伴随个体不同导致的人像差异,大部分传统方法无 替等因素引起的人脸外观急剧变化,从而导致识别 法考虑模态的差异进行特征提取,从而在此应用上 困难2。 会失效[)」 1 相关工作 近年来,随着深度学习概念的提出,以深度信念 网络(deep belief networks,DBN)为代表的深度神经 本文重点研究了二代身份证的人脸核实问题, 网络模型,以其揭示数据中所隐藏的有用信息,而受 该问题属于不受控环境下的人脸核实问题。如图 到研究者们广泛的关注【山」 1,判断二代身份证的模糊人脸图像和二代身份证使 DBN模型是一种逐层贪婪预训练的深层神经 用者的清晰视频人脸图像是否属于同一个人。在这 网络模型,它克服了传统神经网络在训练上的难度, 个问题中,影响核实系统性能的因素主要有: 通过多层来获得更加抽象的特征表达,挖掘隐藏在 1)模态差异。二代身份证上人像属于低分辨 图像的像素特征之上的高维抽象特征。因此,针对 率图像模态,而现实情境下的视频人像属于清晰图 二代身份证的人脸核实问题,在特征抽取部分首次 像模态; 使用了基于DBN的非监督贪心逐层预训练的方法 2)人脸内部变化。年龄增长导致的面部变化、 进行权值初始化,结合传统的图像预处理和相似性 人脸的表情变化和装饰物等; 度量技术,通过深层模型的特征抽取,学习到对数据 3)外在环境因素。如拍摄地点不同而造成的 有更本质的刻画的特征,继而提升人脸核实问题的 光照问题、角度问题等。 准确性。 不同于已有的不受控环境下的人脸核实问题, 传统的人脸识别方法关注解决受控环境下的人 二代身份证的人脸核实问题由于涉及到匹配清晰和 脸识别,近年来,研究者们更多地关注不受控环境下 模糊2种不同模态的人像,该问题属于异构的人脸 的人脸识别问题24。其中,异构人脸识别问题是 核实问题。由于模态不同导致的人脸图像之间的差 一个研究热点。 异通常很大,因此对于异构人脸核实问题,想要达到 一般来说,针对异构人脸图像的识别技术通常 精确判别十分困难。 分为2类:1)通过某种方法将由视图导致的人像特 征差异减小,如针对近红外异构人脸数据集,Klare 等5)提出了对红外线人像(NR)和可见光人像 (VIS)进行随机子空间投影和稀疏表示来进行匹配 的方法,Yi等[6]提出典型相关分析方法来学习NIR 和VIS人像间的相似性:2)通过将其中一种模态的 (a)视频图像 (b)二代证图像 人像转化为其他模态的人像,再进行匹配,如针对近 图1异构情境下的人脸核实 红外异构人脸数据集,Wang等I]提出了合成和分 Fig.1 Heterogeneous face verification 析的方法将NIR人像转变为合成的VIS人像,Chen 对于传统的人脸核实算法,其基本假设是在进 等[8]使用局部线性嵌入算法将NIR人像转变为 行人脸区域提取后,同一个个体内部的人像差异小 VIS人像。 于不同个体间的人像差异),其解决手段主要为通 深度学习是基于Hubel-Wiesel仿生学模型,通
控的逐步重视,基于计算机辅助的面向第 2 代身份 证的人脸核实问题成为许多研究者关注的问题。 早期的人脸核实研究大都针对受控环境下的人 脸识别问题,该问题目前已经可以被较好地解决。 但在拍照环境不确定、用户不配合、年龄更替等不可 控环境下,人脸核实的正确率急剧下降。 因此,目前 大部分的研究开始关注不受控环境下的人脸核实问 题,该问题的主要难点在于环境、光照、姿态、年龄更 替等因素引起的人脸外观急剧变化,从而导致识别 困难[1⁃2] 。 1 相关工作 本文重点研究了二代身份证的人脸核实问题, 该问题属于不受控环境下的人脸核实问题。 如图 1,判断二代身份证的模糊人脸图像和二代身份证使 用者的清晰视频人脸图像是否属于同一个人。 在这 个问题中,影响核实系统性能的因素主要有: 1)模态差异。 二代身份证上人像属于低分辨 率图像模态,而现实情境下的视频人像属于清晰图 像模态; 2)人脸内部变化。 年龄增长导致的面部变化、 人脸的表情变化和装饰物等; 3)外在环境因素。 如拍摄地点不同而造成的 光照问题、角度问题等。 不同于已有的不受控环境下的人脸核实问题, 二代身份证的人脸核实问题由于涉及到匹配清晰和 模糊 2 种不同模态的人像,该问题属于异构的人脸 核实问题。 由于模态不同导致的人脸图像之间的差 异通常很大,因此对于异构人脸核实问题,想要达到 精确判别十分困难。 图 1 异构情境下的人脸核实 Fig.1 Heterogeneous face verification 对于传统的人脸核实算法,其基本假设是在进 行人脸区域提取后,同一个个体内部的人像差异小 于不同个体间的人像差异[3] ,其解决手段主要为通 过降维的方法来提取人脸图像特征,包括主成分分 析(PCA) [4⁃5] 、线性判别分析(LDA) [6] 、局部保持投 影( locality preserving projection,LPP) [7] 等,然而上 述方法皆属于浅层学习模型[8] ,其局限性在于有限 样本和计算单元情况下对复杂分类问题的函数表示 能力有限,难以发现最具有判别能力的特征。 此外, 对于异构人脸核实问题,图像模态导致的差异通常 伴随个体不同导致的人像差异,大部分传统方法无 法考虑模态的差异进行特征提取,从而在此应用上 会失效[9] 。 近年来,随着深度学习概念的提出,以深度信念 网络(deep belief networks,DBN)为代表的深度神经 网络模型,以其揭示数据中所隐藏的有用信息,而受 到研究者们广泛的关注[10⁃11] 。 DBN 模型是一种逐层贪婪预训练的深层神经 网络模型,它克服了传统神经网络在训练上的难度, 通过多层来获得更加抽象的特征表达,挖掘隐藏在 图像的像素特征之上的高维抽象特征。 因此,针对 二代身份证的人脸核实问题,在特征抽取部分首次 使用了基于 DBN 的非监督贪心逐层预训练的方法 进行权值初始化,结合传统的图像预处理和相似性 度量技术,通过深层模型的特征抽取,学习到对数据 有更本质的刻画的特征,继而提升人脸核实问题的 准确性。 传统的人脸识别方法关注解决受控环境下的人 脸识别,近年来,研究者们更多地关注不受控环境下 的人脸识别问题[12⁃14] 。 其中,异构人脸识别问题是 一个研究热点。 一般来说,针对异构人脸图像的识别技术通常 分为 2 类:1)通过某种方法将由视图导致的人像特 征差异减小,如针对近红外异构人脸数据集,Klare 等[15]提出了对红外线人像 ( NIR) 和可见光人像 (VIS)进行随机子空间投影和稀疏表示来进行匹配 的方法,Yi 等[16]提出典型相关分析方法来学习 NIR 和 VIS 人像间的相似性;2)通过将其中一种模态的 人像转化为其他模态的人像,再进行匹配,如针对近 红外异构人脸数据集,Wang 等[17] 提出了合成和分 析的方法将 NIR 人像转变为合成的 VIS 人像,Chen 等[18]使用局部线性嵌入算法将 NIR 人像转变为 VIS 人像。 深度学习是基于 Hubel⁃Wiesel 仿生学模型,通 ·194· 智 能 系 统 学 报 第 10 卷
第2期 张媛媛,等:深度信念网络的二代身份证异构人脸核实算法 ·195· 过“逐层初始化”建立的多层人工神经网络模型。 p(v,h)= 深度学习的实质是通过构建具有很多隐层的机器学 习模型和海量的训练数据,来学习更有用的特征。 式中:Z=∑e,为能量函数的指数函数的和。 e,h 区别于浅层学习,深度学习的不同在于:1)强调了 有了联合概率,很容易得到 模型结构的深度,通常有4层、5层甚至10层的隐 藏层节点;2)明确了特征学习的重要性,即通过逐 ∑ew p()= 层特征变换,将样本在原始空间的特征表示变换到 ∑e 一个新的特征空间,从而使分类或者预测更加容易。 p(h)= ∑eo 在人脸核实问题上,Sun等鬥提出将卷积神经网络 (convolutional neural networks,CNN)和限制性玻尔 ∑eow e-E(e,h) 兹曼机(restricted Boltzmann machines,RBM)相堆 p(vh)= 叠,利用CNN的二维特征提取和RBM的一维特征 ∑.e 抽象的特性,在LFW(labeled faces in the wild e8(,i) p(hv)= (1) home)[2o0)数据集上用以自然环境下的人脸核实问 ∑e时 题,核实结果准确率为86.88%的。本文相对于以往 此外,从统计学的概念出发,定义自由能量函数: 工作的主要创新是首次将深度学习引入到异构人脸 FreeEnergy(o)=-ln∑.e- (2) 核实问题上,解决了判别性特征难以提取的问题。 自由能量函数是描述整个系统状态的一种测 2 DBN的基本原理 度。系统越有序或者概率分布越集中,每个训练样 本经过RBM网络编码到隐藏节点的取值概率也越 2.1RBM模型 集中,系统的能量就越小,此时RBM系统能够更好 RBM是一个层内节点相互独立,层间节点的联 地拟合数据分布。 合概率分布满足Boltzmann分布的二部图模型。如图 联合(1)、(2)可以得出 2,下层是可视层,即输入数据层,可视节点用v∈R Inp(v)=-FreeEnergy(v)-In Z (3) 表示,其偏置为b∈R',上层是隐藏层,隐藏节点用h 式(3)两边做个累加,可得 ∈R表示,其偏置为c∈R,可视层和隐藏层之间的 ∑.lnp(u)=-∑FreeEnergy(u)-∑,lnZ 连接权值用W∈R“表示。对于图像而言,像素层对 应于可视层,特征描述子对应于隐藏层2。 可看出一个系统自由能量的总和最小的时候, 隐藏变量 正是ΠⅡp()最大的时候,也就是说,用极大似然 估计去求得∏p()的参数能让RBM系统的自由 能量总和达到最小,此时RBM系统能够最好地拟合 数据分布。 可视变量 定义Πp()的似然函数为 图2RBM模型 Fig.2 RBM model L(0)= 六2gpe9 受统计学中能量泛函的启发,RBM模型引入了 式中:N为节点的个数,0={W,b,c}为RBM模型 能量函数,可视节点和隐藏节点的联合组态(v,h) 的参数。 的能量函数为 用极大似然估计去求参数,可得到 E(w,h)=- aL(-Eh]-Enh aw 依据Boltzmann分布,可视节点和隐藏节点的 式中:Epa[h,]为独立数据期望,Ep[,h:]为模 联合概率分布为 型期望。其中,模型期望的获得是十分困难的,其时
过“逐层初始化” 建立的多层人工神经网络模型。 深度学习的实质是通过构建具有很多隐层的机器学 习模型和海量的训练数据,来学习更有用的特征。 区别于浅层学习,深度学习的不同在于:1) 强调了 模型结构的深度,通常有 4 层、5 层甚至 10 层的隐 藏层节点;2) 明确了特征学习的重要性,即通过逐 层特征变换,将样本在原始空间的特征表示变换到 一个新的特征空间,从而使分类或者预测更加容易。 在人脸核实问题上,Sun 等[19] 提出将卷积神经网络 (convolutional neural networks,CNN) 和限制性玻尔 兹曼机 ( restricted Boltzmann machines,RBM) 相堆 叠,利用 CNN 的二维特征提取和 RBM 的一维特征 抽象 的 特 性, 在 LFW ( labeled faces in the wild home) [20]数据集上用以自然环境下的人脸核实问 题,核实结果准确率为 86.88%的。 本文相对于以往 工作的主要创新是首次将深度学习引入到异构人脸 核实问题上,解决了判别性特征难以提取的问题。 2 DBN 的基本原理 2.1 RBM 模型 RBM 是一个层内节点相互独立,层间节点的联 合概率分布满足 Boltzmann 分布的二部图模型。 如图 2,下层是可视层,即输入数据层,可视节点用 v ∈ R l 表示,其偏置为 b ∈ R l ,上层是隐藏层,隐藏节点用 h ∈ R s 表示,其偏置为 c ∈R s ,可视层和隐藏层之间的 连接权值用 W∈R l×s 表示。 对于图像而言,像素层对 应于可视层,特征描述子对应于隐藏层[21] 。 图 2 RBM 模型 Fig.2 RBM model 受统计学中能量泛函的启发,RBM 模型引入了 能量函数,可视节点和隐藏节点的联合组态 (v,h) 的能量函数为 E(v,h) = - ∑ l j = 1 bj vj - ∑ s i = 1 cihi - ∑ l j = 1 ∑ s i = 1 vjhiwij 依据 Boltzmann 分布,可视节点和隐藏节点的 联合概率分布为 p(v,h) = 1 Z e -E(v,h) 式中: Z = ∑v,h e -E(v,h) ,为能量函数的指数函数的和。 有了联合概率,很容易得到 p(v) = ∑h e -E(v,h) ∑v,h e -E(v,h) p(h) = ∑v e -E(v,h) ∑v,h e -E(v,h) p(v h) = e -E(v,h) ∑v e -E(v,h) p(h v) = e -E(v,h) ∑h e -E(v,h) (1) 此外,从统计学的概念出发,定义自由能量函数: FreeEnergy(v) = - ln∑h e -E(v,h) (2) 自由能量函数是描述整个系统状态的一种测 度。 系统越有序或者概率分布越集中,每个训练样 本经过 RBM 网络编码到隐藏节点的取值概率也越 集中,系统的能量就越小,此时 RBM 系统能够更好 地拟合数据分布。 联合(1)、(2)可以得出 lnp(v) = - FreeEnergy(v) - ln Z (3) 式(3)两边做个累加,可得 ∑v ln p(v) = - ∑v FreeEnergy(v) - ∑v ln Z 可看出一个系统自由能量的总和最小的时候, 正是 ∏v p(v) 最大的时候,也就是说,用极大似然 估计去求得 ∏v p(v) 的参数能让 RBM 系统的自由 能量总和达到最小,此时 RBM 系统能够最好地拟合 数据分布。 定义 ∏v p(v) 的似然函数为 L(θ) = 1 N∑ N n = 1 log pθ(v (n) ) 式中: N 为节点的个数, θ = {W,b,c} 为 RBM 模型 的参数。 用极大似然估计去求参数,可得到 ∂L(θ) ∂Wij = EPdata [vjhi] - EPθ [vjhi] 式中: EPdata [vjhi] 为独立数据期望, EPθ [vjhi] 为模 型期望。 其中,模型期望的获得是十分困难的,其时 第 2 期 张媛媛,等:深度信念网络的二代身份证异构人脸核实算法 ·195·
·196 智能系统学报 第10卷 间与隐藏节点个数成指数关系。因此,Hinton等[2) 2.2RBM学习算法 提出了CD,(contrastive divergence)方法来模拟梯度 整个RBM的训练过程如下,这里用到了CD1。 的计算,整个算法过程如图3。 一层的RBM模型训练完毕后,固定其权值W 负例样本对和正例样本对 及偏置值b、c:,隐藏层的输出h:作为原输入信息 负例样本对和正例样本对 负例样本对 的第1个表达,将隐藏层的输出h,作为其上层RBM 负例样本对 的输入,同样训练RBM模型,就会得到第2层的参 ,:+■ 阈值theta 正例样本对 数及其输出,其输出就作为原输入信息的第2个表 正例样本对 红 达a]。如此不断往上叠加RBM,就得到了DBN的 相似性度量 预处理i 初步模型。 特征表示 正例样本对 以上在DBN模型的构建中统称为预训练阶段。 IFr18 工红幻 IEEEEEEE1E I,幻 预训练将网络参数训练到一组合适的初始值,从这 正例样本对 0上:0卫 组初始值出发会令代价函数达到一个更低的值2。 1 、”I8010 DBN模型 经过这种方式的训练后,再根据重构误差,使用传统 的全局学习算法,比如BP算法对整个模型进行微 预训练 BP微调 DBN 调,从而使模型收敛到局部最优点。 模型 RBM训练算法符号说明:可视节点j,可视节点 预处理 50张视屏图像+ 的偏置b,可视节点值为1的条件概率 1张二代证图像 P(x2=1h,),sign为S型函数,W为连接权值, 隐藏节点i,隐藏节点的偏置c:,隐藏节点值为1的 条件概率Q(h:=1x,)、Q(h2=1x2)。 图3系统框架 算法过程 Fig.3 System framework 输入:可视节点值x1, 实验证明,CD,是一种很好的求解对数似然函 输出:隐藏节点值h2o 数关于未知参数梯度的近似的方法。 for所有隐藏节点ido CDk算法 1)计算Q(h.=1x,)(若为二值单元,则Q值 输人:RBM(V1,2,…,VmH1,2,…,Hn), 输出:梯度估计△w,.△b,△c:。 即为sign(c:+∑,Wrxy) forj=1,2,…,m,i=1,2,…,n, 2)从Q(h:lx,)中采样h:∈{0,1 初始化△0g=Ab,=△c:=0forj=1,2,…,m, end for i=1,2,…,n。 for所有可视节点jdo for所有的vdo 3)计算P(xg=1h,)(若为二值单元,则Q值 (o)←U 即为sign(6,+∑,Wgh)) for t=0,...-1do 4)从P(x=1h)中采样x2∈{0,1} fori=1,2,…,ndo采样h(t) end for p(h:v) for所有隐藏节点ido forj=1,2,…,mdo采样“)~p(yh0) 5)计算Q(h2=1x2)(若为二值单元,则Q值 forj=1,2,…,m,i=1,2,…,ndo 即为sign(c:+∑W*)) △0g←-△wg+p(h:-1o)o-p(h,= end for 1) 6)W←-W+E(h1x1'-Q(h2=1x2)x2') 46,←46+@- 7)b←-b+ε(x1-x2) △c:←△c:+p(h=1vo)-p(h,=1v) 8)c←-c+e(h1-Q(h2=1x2))
间与隐藏节点个数成指数关系。 因此,Hinton 等[22] 提出了 CDk (contrastive divergence)方法来模拟梯度 的计算,整个算法过程如图 3。 图 3 系统框架 Fig.3 System framework 实验证明, CDk 是一种很好的求解对数似然函 数关于未知参数梯度的近似的方法。 CDk 算法 输入: RBM (V1 ,2,…,Vm,H1 ,2,…,Hn ), 输出: 梯度估计 Δwij,Δbj,Δci 。 for j = 1,2,…,m,i = 1,2,…,n, 初始化 Δwij = Δbj = Δci = 0 for j = 1,2,…,m, i =1,2,…,n。 for 所有的 v do v (0) ← v for t = 0,...k - 1do for i = 1,2,…,n do 采 样 hi (t) ~ p(hi v (t) ) for j = 1,2,…,m do 采样 v (t+1) j ~ p(vj h (t) ) for j = 1,2,…,m , i = 1,2,…,n do Δwij ← Δwij + p(hi = 1 v (0) )v (0) j - p(hi = 1 v (k) )v (k) j Δbj ← Δbj + v (0) j - v (k) j Δci ←Δci + p(hi = 1 v (0) ) - p(hi = 1 v (k) ) 2.2 RBM 学习算法 整个 RBM 的训练过程如下,这里用到了 CD1 。 一层的 RBM 模型训练完毕后,固定其权值 Wij 及偏置值 bj 、 ci ,隐藏层的输出 hi 作为原输入信息 的第 1 个表达,将隐藏层的输出 hi 作为其上层 RBM 的输入,同样训练 RBM 模型,就会得到第 2 层的参 数及其输出,其输出就作为原输入信息的第 2 个表 达[23] 。 如此不断往上叠加 RBM,就得到了 DBN 的 初步模型。 以上在 DBN 模型的构建中统称为预训练阶段。 预训练将网络参数训练到一组合适的初始值,从这 组初始值出发会令代价函数达到一个更低的值[24] 。 经过这种方式的训练后,再根据重构误差,使用传统 的全局学习算法,比如 BP 算法对整个模型进行微 调,从而使模型收敛到局部最优点。 RBM 训练算法符号说明:可视节点 j ,可视节点 的 偏 置 bj , 可 视 节 点 值 为 1 的 条 件 概 率 P(x2j = 1 h1 ) , sign 为 S 型函数, Wij 为连接权值, 隐藏节点 i ,隐藏节点的偏置 ci ,隐藏节点值为 1 的 条件概率 Q(h1i = 1 x1 ) 、 Q(h2i = 1 x2 ) 。 算法过程 输入: 可视节点值 x1 , 输出: 隐藏节点值 h2 。 for 所有隐藏节点 i do 1)计算 Q(h1i = 1 x1 ) (若为二值单元,则 Q 值 即为 sign ( ci + ∑j Wij x1j )) 2)从 Q(h1i x1 ) 中采样 h1i ∈ {0,1} end for for 所有可视节点 j do 3)计算 P(x2j = 1 h1 ) (若为二值单元,则 Q 值 即为 sign (bj + ∑j Wijh1i) ) 4)从 P(x2j = 1 h1 ) 中采样 x2j ∈ {0,1} end for for 所有隐藏节点 i do 5)计算 Q(h2i = 1 x2 ) (若为二值单元,则 Q 值 即为 sign(ci + ∑j Wij x2j) ) end for 6) W ← W + ε(h1 x1 ′ - Q(h2 = 1 x2 )x2 ′) 7) b ← b + ε(x1 - x2 ) 8) c ← c + ε(h1 - Q(h2 = 1 x2 )) ·196· 智 能 系 统 学 报 第 10 卷
第2期 张媛媛,等:深度信念网络的二代身份证异构人脸核实算法 ·197. 2)根据重构误差采用BP算法对整个模型进行 3人脸核实问题的解决方案 反向调节。 人脸核实问题的解决算法流程如图3,实线箭 整个深度学习模型可以看成是一个特征抽象的 头部分为系统训练,虚线箭头部分为系统测试: 过程,即将原来40×40的图像经过一系列抽象,摒 1)图像预处理 除无用信息,保留高维特征。 对收集到的数据集采用Adaboost算法[2s]和主 3)模型测试。将测试样本的数据均按照1)所 动形状模型(acitve shape model,ASM)[2进行人脸 述进行预处理,进行高斯处理后再输入到2)训练出 检测和关键点定位,再按照瞳孔坐标位置进行归一 的DBN模型中去,最高层的500个节点值作为图像 化,如图4,可以看到对齐后的效果。将归一化后的 最终的抽象特征向量。 视频图像进行模糊化,最后对所有的图像进行Quo 4)相似性度量。将50个视频图像的特征向量 tient Image方法去除光照千扰。 和1个二代证图像的特征向量构成50个(矿∫2) 2)DBN模型训练 对,其中∫,表示视频图像特征向量,∫2表示二代证 将按照上述预处理后得到的图片进行高斯处 图像特征向量,计算向量的余弦距离,得到50个相 理,使得均值为1,方差为0,如图5,打乱训练样本 似度数值,得到最大的相似度数值作为50张视频图 图片,再将每张40×40的图片拉成一维行向量作为 像和一张二代证图像之间的相似度。对上述的相似 整个DBN模型的输入。 度数值设置阈值,如果高于一个阈值则视频图像和 二代证图像中是同一个人,否则不是同一个人。 DBN模型:预训练+反向微调 ●0▣500 反向传播 RBM第4层a云 ▣1000 W. 微调 (a)视频图像 ●●●●●●☑2000 (b)二代证图像 RBM第3层O。 微调 图4归一化效果图 I ☐400( RBM第2层 微调 Fig.4 Normalization 000●● ●●●●●☐1600 第1层 RBM 「输入图像40×40 图6深度学习模型DBN Fig.6 DBN model 4 图5高斯处理后的效果图 实验结果与分析 Fig.5 Face pictures after Gaussian processing 4.1实验设置 用于二代证人脸核实问题上的DBN模型如图 实验用到的数据集为采集的二代身份证的 6,第1层以1张分辨率为40×40的图像作为输入, 人像数据集,具体包括:1)第1批采集的98人的 即包含1600个实值节点的可视层,第2层以及第3 二代身份证图像和视频图像(数据集1);2)256 层均为二值隐藏层,分别包含4000,2000个节点, 个人(第1批98个人+第2批158个人)的二代 最后一层为实值隐含层,也为输出层,共包含500个 身份证图像和视频图像(数据集2)。这2个数 节点。 据集均是在特定的采集环境中采集,涵盖年龄、 整个DBN模型的训练过程为: 光照、姿态、表情等主要变化条件,每个人的数据 1)预训练。逐层叠加训练RBM模型,直至最 为51张图像,包含二代身份证模糊照片1张和 高层。此时,整个模型网络参数的初始值在代价函 视频拍摄图像50张。 数最优解附近,很大程度上避免了反向调节时BP 实验采用了2种方案进行:1)十折交叉验 算法陷入局部最优
3 人脸核实问题的解决方案 人脸核实问题的解决算法流程如图 3,实线箭 头部分为系统训练,虚线箭头部分为系统测试: 1)图像预处理 对收集到的数据集采用 Adaboost 算法[25] 和主 动形状模型(acitve shape model,ASM) [26] 进行人脸 检测和关键点定位,再按照瞳孔坐标位置进行归一 化,如图 4,可以看到对齐后的效果。 将归一化后的 视频图像进行模糊化,最后对所有的图像进行 Quo⁃ tient Image 方法去除光照干扰。 2)DBN 模型训练 将按照上述预处理后得到的图片进行高斯处 理,使得均值为 1,方差为 0,如图 5,打乱训练样本 图片,再将每张 40 × 40 的图片拉成一维行向量作为 整个 DBN 模型的输入。 图 4 归一化效果图 Fig.4 Normalization 图 5 高斯处理后的效果图 Fig.5 Face pictures after Gaussian processing 用于二代证人脸核实问题上的 DBN 模型如图 6,第 1 层以 1 张分辨率为 40 × 40 的图像作为输入, 即包含 1 600 个实值节点的可视层,第 2 层以及第 3 层均为二值隐藏层,分别包含 4 000,2 000 个节点, 最后一层为实值隐含层,也为输出层,共包含 500 个 节点。 整个 DBN 模型的训练过程为: 1)预训练。 逐层叠加训练 RBM 模型,直至最 高层。 此时,整个模型网络参数的初始值在代价函 数最优解附近,很大程度上避免了反向调节时 BP 算法陷入局部最优。 2)根据重构误差采用 BP 算法对整个模型进行 反向调节。 整个深度学习模型可以看成是一个特征抽象的 过程,即将原来 40 × 40 的图像经过一系列抽象,摒 除无用信息,保留高维特征。 3)模型测试。 将测试样本的数据均按照 1)所 述进行预处理,进行高斯处理后再输入到 2)训练出 的 DBN 模型中去,最高层的 500 个节点值作为图像 最终的抽象特征向量。 4)相似性度量。 将 50 个视频图像的特征向量 和 1 个二代证图像的特征向量构成 50 个 (f1 ,f2 ) 对,其中 f1 表示视频图像特征向量, f2 表示二代证 图像特征向量,计算向量的余弦距离,得到 50 个相 似度数值,得到最大的相似度数值作为 50 张视频图 像和一张二代证图像之间的相似度。 对上述的相似 度数值设置阈值,如果高于一个阈值则视频图像和 二代证图像中是同一个人,否则不是同一个人。 图 6 深度学习模型 DBN Fig.6 DBN model 4 实验结果与分析 4.1 实验设置 实验用到的数据集为采集的二代身份证的 人像数据集,具体包括:1) 第 1 批采集的 98 人的 二代身份证图像和视频图像( 数据集 1) ;2) 256 个人(第 1 批 98 个人+第 2 批 158 个人) 的二代 身份证图像和视频图像( 数据集 2) 。 这 2 个数 据集均是在特定的采集环境中采集,涵盖年龄、 光照、姿态、表情等主要变化条件,每个人的数据 为 51 张图像,包含二代身份证模糊照片 1 张和 视频拍摄图像 50 张。 实验采用了 2 种 方 案 进 行: 1 ) 十 折 交 叉 验 第 2 期 张媛媛,等:深度信念网络的二代身份证异构人脸核实算法 ·197·