D01:10.13374j.isml00103x2006.09.019 第28卷第9期 北京科技大学学报 Vol.28 Na 9 2006年9月 Journal of University of Science and Technology Beijing Sep.2006 基于核主元分析法和支持向量机的人耳识别 袁立 穆志纯刘磊明 北京科技大学信息工程学院,北京100083 摘要对人耳识别中若干关键问题进行了研究.介绍了两种人耳图像归一化处理的方法.即基 于外耳轮廓长轴的线标记法和基于外耳轮廓起始点的点标记法,并对这两种方法进行了对比。在 分析现有人耳识别方法不足的基础上,提出利用核主元分析法提取人耳图像的代数特征,再利用 支持向量机分类模型进行人耳识别.在带有角度、光照变化的北京科技大学人耳图像库上得到的 识别率为98.7%,表明了该识别方法的有效性以及利用人耳图像进行身份识别的可行性。 关键词人耳识别人耳图像:图像归一化:特征提取:核主元分析:支持向量机 分类号TP391.4 人耳识别作为一种生物特征识别技术近来受 到了越来越多的关注.与人脸识别相比,人耳识 别具有不受表情、年龄、心理等因素影响的优势. 通常一个人耳识别系统主要包括图像获取、人耳 检测、人耳图像归一化、人耳特征提取、分类识别 图1人耳图像实例 等.人耳检测是为了从具有各种不同背景的输入 Fig.I Example of ear images 图像中检测出人耳的存在并确定其位置,再将人 耳从背景中分割出来,进行光照和几何归一化,以 人耳图像的归一化分为两个步骤:首先进行 去除光照、噪声、头部转动以及各种遮挡和背景的 直方图均衡化,用于减弱不同图像之间的光照差 影响.本文首先对北京科技大学人耳图像库中带 异.第二个步骤是几何归一化,这就涉及到需要 有角度、光照变化的人耳图像进行归一化,再利用 选择一个标准的尺度.可以使用两点标记法上 核主元分析法提取人耳图像的非线性特征,基于 方点为三角窝,下方点为对耳屏,如图2(a)所示. 该代数特征利用支持向量机来设计分类器,取得 使用标记点的原因是标记点的位置不会随时间而 了满意的识别效果, 变化.但是,在所有人耳图像中,这两个点并非都 1人耳图像库简介及图像归一化处 能很容易地识别出来.例如,有的人耳图像中对 理 耳屏很小,就难以标记.这个标记点位置的模糊 不清就会影响耳朵的分割.不同时间拍摄的同一 由于目前国际上还没有公认的人耳图像库, 个人耳也可能标记出不同的对耳屏 所以笔者自建了北京科技大学人耳图像库,简称 针对这种缺点,本文提出两种标记方法:第一 USTB人耳图像库.该库包括308幅人耳图像, 种是基于外耳轮廓长轴的线标记法,使用Canny 共77人,每人4幅灰度图像,图像大小为300× 算子进行边缘提取后,利用外耳轮廓上距离最长 400像素,如图1所示.图1(a)为室内正常光照 的两点的连线作为基准,如图2(b)所示.将该线 条件下的图像图1(b)为头部逆时针旋转30°拍 段的长度作为人耳的大小,其方向确定人耳的方 摄的人耳图像图1(c)为头部顺时针旋转30°拍 向,几何归一化的工作就是使所有人耳图像中这 摄的人耳图像图1(d)为光照减弱时图像.这里 两点之间的距离相同,根据两点连线的方向进行 主要考虑室内光照变化情况. 旋转,使其垂直于水平方向.另定义短轴为长轴 收稿日期:2005-0825修回日期:200603-13 的中垂线中垂线的左端与外耳轮廓相交.然后 基金项目:国家自然科学基金资助项目(N0.60375002) 可以使用一个矩形将人耳部分分割出来(矩形长 作者简介:袁立(1978一),女,讲师,博士:穆志纯(1952-), 男,教授,博士生导师 宽比为2,由图像库中的人耳长宽比统计得到)
基于核主元分析法和支持向量机的人耳识别 袁 立 穆志纯 刘磊明 北京科技大学信息工程学院, 北京 100083 摘 要 对人耳识别中若干关键问题进行了研究.介绍了两种人耳图像归一化处理的方法, 即基 于外耳轮廓长轴的线标记法和基于外耳轮廓起始点的点标记法, 并对这两种方法进行了对比.在 分析现有人耳识别方法不足的基础上, 提出利用核主元分析法提取人耳图像的代数特征, 再利用 支持向量机分类模型进行人耳识别.在带有角度、光照变化的北京科技大学人耳图像库上得到的 识别率为 98.7 %, 表明了该识别方法的有效性以及利用人耳图像进行身份识别的可行性. 关键词 人耳识别;人耳图像;图像归一化;特征提取;核主元分析;支持向量机 分类号 TP391.4 收稿日期:2005 08 25 修回日期:2006 03 13 基金项目:国家自然科学基金资助项目( No .60375002) 作者简介:袁 立( 1978—) , 女, 讲师, 博士;穆志纯( 1952—) , 男, 教授, 博士生导师 人耳识别作为一种生物特征识别技术近来受 到了越来越多的关注 .与人脸识别相比, 人耳识 别具有不受表情 、年龄、心理等因素影响的优势. 通常一个人耳识别系统主要包括图像获取 、人耳 检测 、人耳图像归一化、人耳特征提取、分类识别 等.人耳检测是为了从具有各种不同背景的输入 图像中检测出人耳的存在并确定其位置, 再将人 耳从背景中分割出来, 进行光照和几何归一化, 以 去除光照 、噪声 、头部转动以及各种遮挡和背景的 影响 .本文首先对北京科技大学人耳图像库中带 有角度、光照变化的人耳图像进行归一化, 再利用 核主元分析法提取人耳图像的非线性特征, 基于 该代数特征利用支持向量机来设计分类器, 取得 了满意的识别效果. 1 人耳图像库简介及图像归一化处 理 由于目前国际上还没有公认的人耳图像库, 所以笔者自建了北京科技大学人耳图像库, 简称 USTB 人耳图像库.该库包括 308 幅人耳图像, 共77 人, 每人 4 幅灰度图像, 图像大小为 300 × 400 像素, 如图 1 所示 .图 1( a) 为室内正常光照 条件下的图像, 图 1( b) 为头部逆时针旋转 30°拍 摄的人耳图像, 图 1( c) 为头部顺时针旋转 30°拍 摄的人耳图像, 图 1( d)为光照减弱时图像.这里 主要考虑室内光照变化情况. 图 1 人耳图像实例 Fig.1 Example of ear images 人耳图像的归一化分为两个步骤 :首先进行 直方图均衡化, 用于减弱不同图像之间的光照差 异.第二个步骤是几何归一化, 这就涉及到需要 选择一个标准的尺度 .可以使用两点标记法, 上 方点为三角窝, 下方点为对耳屏, 如图 2( a)所示. 使用标记点的原因是标记点的位置不会随时间而 变化 .但是, 在所有人耳图像中, 这两个点并非都 能很容易地识别出来 .例如, 有的人耳图像中对 耳屏很小, 就难以标记.这个标记点位置的模糊 不清就会影响耳朵的分割 .不同时间拍摄的同一 个人耳也可能标记出不同的对耳屏 . 针对这种缺点, 本文提出两种标记方法 :第一 种是基于外耳轮廓长轴的线标记法, 使用 Canny 算子进行边缘提取后, 利用外耳轮廓上距离最长 的两点的连线作为基准, 如图 2( b) 所示.将该线 段的长度作为人耳的大小, 其方向确定人耳的方 向, 几何归一化的工作就是使所有人耳图像中这 两点之间的距离相同, 根据两点连线的方向进行 旋转, 使其垂直于水平方向 .另定义短轴为长轴 的中垂线, 中垂线的左端与外耳轮廓相交.然后 可以使用一个矩形将人耳部分分割出来(矩形长 宽比为 2, 由图像库中的人耳长宽比统计得到) . 第 28 卷 第 9 期 2006 年 9 月 北 京 科 技 大 学 学 报 Journal of University of Science and Technology Beijing Vol .28 No.9 Sep.2006 DOI :10.13374/j .issn1001 -053x.2006.09.019
Vol.28 No.9 袁立等:基于核主元分析法和支持向量机的人耳识别 ·891。 另一种是基于外耳轮廓的两点标记法,也就是利 的背景信息:通过实验发现带有较少背景信息的 用外耳轮廓的起点和终点即三角窝和耳屏间肌切 图像能够取得更高的识别率.所以采用后者进行 迹如图2(所示.将这两点连线的长度及其方 分割.根据统计得到此方法分割后的人耳长宽比 向作为人耳的大小和方向进行归一化.通过比较 均值为1.97,所以归一化后的图像大小取为50X 可以看出,基于外耳长轴分割出的人耳图像比基 98像素,如图2(d)所示. 于外耳轮廓起点终点分割出的人耳图像带有更多 h4 A h/4 0.77h (a (b) (d) 图2人耳图像中标记点的选择方法.(a三角窝,对耳屏两点标记法:(b)外耳轮南长轴标记法:(c)外耳轮廓起始点标记法:()归 一化后的人耳图像示例 Fig.2 Landmark location on ear images:(a)using triangu ar fossa and antitrags;(b)using the long axis of outer ear contour:(c) using the start point and end point of outer ear contour;(d)example of normal ized ear images 2 基于核主元分析法的人耳特征提 用主元分析(PCA)对人脸和人耳图像进行特征提 取,在包含有人脸和人耳图像的Human ID图像 取 库上进行实验,得到结论为人脸识别率和人耳识 2.1人耳识别研究现状 别率没有较大差别,前者为70.5%,后者为 目前国内外己有的基于二维图像的人耳识别 71.6%.但PCA方法提取的特征向量为正交基, 方法主要有以下几种:Alfred Iannarellil刂提出 所以只考虑了图像数据中的二阶统计信息,而未 “米”字型坐标系统由12个测量段长度构成特征 能利用数据中的高阶统计信息,忽略了图像边缘 向量进行识别,这种方法以人耳解剖学点作为测 或曲线的多个像素间的非线性关系8,而核主元 量系统的基础,所有的测量都取决于原点的精确 分析法(KPCA)则是基于输入数据的高阶统计, 定位,所以不适用于计算机视觉处理;Moreno 它描述了多个像素间的相关性,所以能够捕捉这 等提取外耳轮廓特征点和人耳形状和褶皱信息, 些重要的信息,从而取得更好的识别效果.同时 利用人工神经网络进行识别:Burge和Buge) 其另一个优点是可以把在输入空间不可线性分类 提出的方法首先进行人耳定位以及边缘提取,然 的问题变换到特征空间实现线性分类9,从而使 后建立边缘曲线的Voronoi图,最后使用邻接图 分类器的设计得以简化.KPCA的基本思想是利 描述曲线之间的邻接关系,从而构造特征向量进 用核函数的技巧,通过一个非线性变换把输入数 行识别:Hurley,Nixon和Carter将图像看作由 据映射到一个高维的特征空间中,以求数据在该 高斯吸引子组成的阵列,利用力场转换(force 特征空间中线性可分,然后在特征空间中利用标 field transformation)方法提取人耳图像的势能通 准的主元分析法来提取主元作为特征向量. 道和势能阱,并以势能阱的位置作为人耳特征;王 传统的基于数据二阶统计矩的主元分析法是 忠礼等)采用高阶不变矩方法对人耳图像进行 一种有效的数据特征提取方法,是基于原始特征 信息变换和特征提取.Mu等提出的LABSSFE 的一种线性变换,通过选择样本点分布方差大的 方法在提取外耳轮廓和内耳边缘的基础上,寻找 坐标轴进行投影来降低维数而使信息量损失最 基于外耳轮廓的形状特征和基于长轴短轴线段比 少,从而将问题转化为样本数据协方差矩阵的特 例的结构特征,但这种方法适用于正面人耳图像, 征值问题. 而难于扩展到人耳角度变化的情况中,且受光照 22核主元分析法理论简介 的影响较大 给定一个样本=(x,x2,x),xk∈ Chang等7)提出使用经典的特征脸方法利
另一种是基于外耳轮廓的两点标记法, 也就是利 用外耳轮廓的起点和终点即三角窝和耳屏间肌切 迹, 如图 2( c) 所示.将这两点连线的长度及其方 向作为人耳的大小和方向进行归一化.通过比较 可以看出, 基于外耳长轴分割出的人耳图像比基 于外耳轮廓起点终点分割出的人耳图像带有更多 的背景信息;通过实验发现, 带有较少背景信息的 图像能够取得更高的识别率.所以采用后者进行 分割 .根据统计得到此方法分割后的人耳长宽比 均值为 1.97, 所以归一化后的图像大小取为 50 × 98 像素, 如图 2( d)所示. 图2 人耳图像中标记点的选择方法.( a) 三角窝、对耳屏两点标记法;( b) 外耳轮廓长轴标记法;( c) 外耳轮廓起始点标记法;(d) 归 一化后的人耳图像示例 Fig.2 Landmark location on ear images:( a) using triangular fossa and antitragus;( b) using the long axis of outer ear contour;( c) using the start point and end point of outer ear contour ;( d) example of normalized ear images 2 基于核主元分析法的人耳特征提 取 2.1 人耳识别研究现状 目前国内外已有的基于二维图像的人耳识别 方法主要有以下几种 :Alfred Iannarelli [ 1] 提出 “米”字型坐标系统, 由 12 个测量段长度构成特征 向量进行识别, 这种方法以人耳解剖学点作为测 量系统的基础, 所有的测量都取决于原点的精确 定位, 所以不适用于计算机视觉处理;Mo reno [ 2] 等提取外耳轮廓特征点和人耳形状和褶皱信息, 利用人工神经网络进行识别;Burge 和 Burger [ 3] 提出的方法首先进行人耳定位以及边缘提取, 然 后建立边缘曲线的 Voronoi 图, 最后使用邻接图 描述曲线之间的邻接关系, 从而构造特征向量进 行识别;Hurley, Nixon 和 Carter [ 4] 将图像看作由 高斯吸引子组成的阵列, 利用力场转换( force field transformation) 方法提取人耳图像的势能通 道和势能阱, 并以势能阱的位置作为人耳特征 ;王 忠礼等[ 5] 采用高阶不变矩方法对人耳图像进行 信息变换和特征提取 .Mu 等 [ 6] 提出的 LABSSFE 方法在提取外耳轮廓和内耳边缘的基础上, 寻找 基于外耳轮廓的形状特征和基于长轴短轴线段比 例的结构特征, 但这种方法适用于正面人耳图像, 而难于扩展到人耳角度变化的情况中, 且受光照 的影响较大. Chang 等[ 7] 提出使用经典的特征脸方法, 利 用主元分析( PCA) 对人脸和人耳图像进行特征提 取, 在包含有人脸和人耳图像的 Human ID 图像 库上进行实验, 得到结论为人脸识别率和人耳识 别率没 有较大 差别, 前 者为 70.5 %, 后 者为 71.6 %.但 PCA 方法提取的特征向量为正交基, 所以只考虑了图像数据中的二阶统计信息, 而未 能利用数据中的高阶统计信息, 忽略了图像边缘 或曲线的多个像素间的非线性关系 [ 8] .而核主元 分析法( KPCA) 则是基于输入数据的高阶统计, 它描述了多个像素间的相关性, 所以能够捕捉这 些重要的信息, 从而取得更好的识别效果.同时 其另一个优点是可以把在输入空间不可线性分类 的问题变换到特征空间实现线性分类[ 9] , 从而使 分类器的设计得以简化 .KPCA 的基本思想是利 用核函数的技巧, 通过一个非线性变换把输入数 据映射到一个高维的特征空间中, 以求数据在该 特征空间中线性可分, 然后在特征空间中利用标 准的主元分析法来提取主元作为特征向量. 传统的基于数据二阶统计矩的主元分析法是 一种有效的数据特征提取方法, 是基于原始特征 的一种线性变换, 通过选择样本点分布方差大的 坐标轴进行投影来降低维数而使信息量损失最 少, 从而将问题转化为样本数据协方差矩阵的特 征值问题 . 2.2 核主元分析法理论简介 给定一个样本 xk =( xk 1, xk 2, …, xkn ) T , xk ∈ Vol.28 No.9 袁 立等:基于核主元分析法和支持向量机的人耳识别 · 891 ·
892 北京科技大学学报 2006年第9期 户数=0则样木数据 m入Ka=K2a=m入'a=Ka (10) R”,k=L,…,m,且满足 其中,a表示列向量,Q=(a4,am)T 的协方差矩阵为: 核分类器、神经网络和支持向量机中广泛使 =2 用的三类核函数分别为多项式核、Gaussian核和 m Sigmoid核. λv=Cv (2) 线性核: 其中入≥0为特征值,v∈R”为相应的特征向量. k(xi,xj)=(xi,xj) (11) 因为= 7n,且()= T 多项式核: m=1 (5,),(以表示两个向量的内积,所以= k(xi,x)=[a(xi,xj)+b]d (12) RBF核: 会(,.可见所有对应入0的特征 k(xi,xj)=exp 2g2 (13) 值所对应的特征向量v都位于由样本向量x1, x2,;xm所张成的空间spn{x1,x2,;cm}.所 Sigmoid核: 以式(2)等价于: k(xi,xj)=tanh[Y(xxj)b] (14) λ(xk,v)=(,G),k=L,…,m(3) 其中(,)表示内积g,Y,a和b为常数,d为 核主元分析中引入一个非线性变换Φ,将输 多项式阶数. 入空间R”中的每个样本向量xk投影到一个高维 Ln等四又提出如下基于距离的核函数用 于图像重构: 特征空间R中,即: ΦR→R,Pn (4) k(x,x=-cllx-x‖d (15) 特征空间R的维数可以任意大.在R中,首先 其中c为常数,d为阶数. Liu等凶还提出基于多项式的Cosine核函 x)=0(其做法参见本部分结尾处), 数可以进一步提高多项式核的性能: 其协方差矩阵为: k(xi,x)=[a(xi,xj)+b]a (16) c-∑)r =m名 (5) k(,)= k(xi,xj) (17) 相应的特征值问题为: k(xixi)k(xj;x) λ'w=Cw (6) 令≤≤≤入m表示矩阵K的特征值 同理在特征空间R中,对于任意一特征值 其相应的特征向量可表示为a1,;m,ai= 入'≠0所对应的特征相量w都位于由Φ(x), (a1,am),i=1,2,m,并记9为第1个 x2,;Φ(xm)所张成的空间spn{Φ(x1), 非零特征值.下面对p,,am进行标准化处理, x2),;m)}中,因此存在系数(i=L, 使之满足下式: m),有: (wk,)=1,k=p,;m (18) w- 将式(7)代入上式转化为: 7 根据式(6)和式(7)得到: 1= 房(a以j= 空=h会。= 之k=(a,K)a4=(ak,a4)(19 上》((,w刚= 所以ap,,m只要满足式(19)就可得到协方差 m名 矩阵C的一组正交归一化的特征向量集.为了 x)(8) 提取主元,只需在特征空间R中,计算在特征向 量w%(k=p,,m)上的投影.假定x为一输入 定义一个mXm的核函数矩阵K,其元素 样本,则在特征空间中的映射为①(x),其在特征 为: 向量w上的投影为: k=k(,x)=(Φ(x),Φ(x)) (9) 则式(8)变为0: (wx=空a(,x)=
R n , k =1, …, m, 且满足 ∑ m k =1 xk =0, 则样本数据 的协方差矩阵为 : C = 1 m ∑ m j =1 xjx T j ( 1) λv =Cv ( 2) 其中 λ≥0 为特征值, v ∈R n 为相应的特征向量. 因为 Cv = 1 m ∑ m j =1 xjx T jv , 且 ( xjx T j ) v = ( xj , v) xj , ( xj , v) 表示两个向量的内积, 所以 v = 1 λm ∑ m j =1 ( xj , v ) xj .可见, 所有对应 λ≠0 的特征 值所对应的特征向量 v 都位于由样本向量 x1, x2, …, xm 所张成的空间 spn{x1, x2, …, xm}.所 以式( 2)等价于 : λ( xk , v ) =( xk , Cv ), k =1, …, m ( 3) 核主元分析中引入一个非线性变换 Υ, 将输 入空间 R n 中的每个样本向量xk 投影到一个高维 特征空间 R f 中, 即 : Υ∶R n ※R f , f >n ( 4) 特征空间 R f 的维数可以任意大.在 R f 中, 首先 假设 ∑ m k =1 Υ( xk ) =0(其做法参见本部分结尾处), 其协方差矩阵为 : C Υ= 1 m ∑ m j =1 Υ( xj) Υ( xj) T ( 5) 相应的特征值问题为 : λ′w =C Υ w ( 6) 同理, 在特征空间 R f 中, 对于任意一特征值 λ′≠0 所对应的特征相量 w 都位于由 Υ( x1), Υ( x 2), …, Υ( xm ) 所张成的空间 spn{Υ( x 1), Υ( x 2), …, Υ( xm )}中, 因此存在系数 αi ( i =1, …, m), 有 : w = ∑ m i =1 αiΥ( xi) ( 7) 根据式( 6)和式( 7)得到: λ′∑ m i =1 αi Υ( xi) =1 m ∑ m j =1 Υ( xj) Υ( xj) T w = 1 m ∑ m j =1 ( Υ( xj) , w) Υ( xj) = 1 m ∑ m j =1 ∑ m i =1 αi( Υ( xj) , Υ( xi)) Υ( xj) ( 8) 定义一个 m ×m 的核函数矩阵 K , 其元素 为: kij =k ( xi , xj) =( Υ( xi), Υ( xj)) ( 9) 则式( 8)变为[ 10] : mλ′Kα=K 2 α≡mλ′α=Kα ( 10) 其中, α表示列向量, α=( α1, …, αm) T . 核分类器、神经网络和支持向量机中广泛使 用的三类核函数分别为多项式核、Gaussian 核和 Sigmoid 核. 线性核: k ( xi , xj) =( xi , xj) ( 11) 多项式核 : k ( xi , xj ) =[ a ( xi , xj) +b] d ( 12) RBF 核: k ( xi , xj) =exp - ‖xi -xj ‖ 2 2σ 2 ( 13) Sigmoid 核: k ( xi , xj) =tanh[ γ( xixj) +b] ( 14) 其中( xi , xj )表示内积, σ, γ, a 和 b 为常数, d 为 多项式阶数. Liu 等 [ 11] 又提出如下基于距离的核函数, 用 于图像重构: k( xi , xj) =-c ‖xi -xj ‖ d ( 15) 其中 c 为常数, d 为阶数 . Liu 等[ 12] 还提出基于多项式的 Cosine 核函 数可以进一步提高多项式核的性能 : k ( xi , xj ) =[ a ( xi , xj) +b] d ( 16) k ( xi , xj) = k ( xi , xj) k( xi , xi) k ( xj , xj) ( 17) 令 λ′1 ≤λ′2 ≤…≤λ′m 表示矩阵 K 的特征值, 其相应的特征向量可表示为 α1, …, αm , αi = ( αi 1, …, αim) T , i =1, 2, …, m, 并记 λ′p 为第 1 个 非零特征值.下面对 αp , …, αm进行标准化处理, 使之满足下式 : (wk , wk ) =1, k =p, …, m ( 18) 将式( 7)代入, 上式转化为 : 1 = ∑ m i, j =1 αkiαkj( Υ( xi), Υ( xj)) = ∑ m i, j =1 αk iαkjkij =( αk , K ) αk =λ′k ( αk , αk ) ( 19) 所以 αp , …, αm 只要满足式( 19) 就可得到协方差 矩阵 C Υ的一组正交归一化的特征向量集.为了 提取主元, 只需在特征空间 R f 中, 计算在特征向 量 wk ( k =p, …, m )上的投影 .假定 x 为一输入 样本, 则在特征空间中的映射为 Υ( x), 其在特征 向量 wk 上的投影为: ( wk , Υ( x )) = ∑ m i =1 αk i( Υ( xi), Υ( x)) = · 892 · 北 京 科 技 大 学 学 报 2006 年第 9 期
Vol.28 No.9 袁立等:基于核主元分析法和支持向量机的人耳识别 893。 宫 (20) g(xi)= yk(,x)+b吧,=12n 由上式可知通过引入核函数的方法,在高维空间 (24) 实际上只需进行内积运算,而这种内积运算是可 其中,bP为分类阈值,k(x,x)为核函数.最优分 以用原空间中的函数实现的,从而避免了在R 中进行非线性变换④Φ的不便. 类面问题是在约束条件, 名 ya=0和0≤a≤C 综上所述,核主元分析的主要计算步骤为: (i=L,2,,n,C为Lagrange乘子设定的上限, (1)选取核函数,计算矩阵K. 为正常数)下对4求解下列函数的最大值: (2)因为假设条件为 另到=0而实际 0(a)= 空月0k, 上并不能在空间R中显式地计算Φ(:).但对 (25) 任意④和一组样本x1,;xm,对于: 其中a=[@,a2,aT.这个问题的最优化解 中,多数为0,取值非0的a(记为a,i=1,2, ④(xk)=④xk)-(1/m) Φx)(21) ;s)对应的能使式(25)成立的样本则构成支持 向量x,i=1,2,,S,且s<n.由此构造的分 是满足假设条件的,即 Φ(xx)=0.定义k= 类器决策函数为: (Φ(),Φ(),由于无法计算式(21),所以不能 h之wk(,)+b)-1=0126 直接得到K,但可通过对K做修正来间接求得. 于是,只要代入上式任一支持向量x"及对应的 定义1=1,(Im)=1Vm, 类别标记y,即可求出分类阈值b”: k=4 b"-y7- = 好-空奶》 (27) 最后得到支持向量机的最优分类函数为: likinlnj- (28) (K-ImK-KIm+ImKIm)ij (22) f(x)=sgm 空5i(x”+b 式中sgn()为符号函数. (3)求解m入α=Ka,得到矩阵K的特征值 3.2SVM的设计 及其对应的特征向量,提取主元(k=p,, 以上描述的是两分类支持向量机.对于多类 m),并根据式(18)和式(19)归一化. 识别问题,通常采用的方案有“一对一”和“一对 (4)对样本x,计算其在特征向量w(k=p, 多”等4.本文采用的是“一对多”的方案.对于 M类问题,则构造M个分类器,训练第i个分类 ;m)上的投影,构成特征向量 器,用于分开第i类样本和其他的M一1类样本. (wk,Φ(x)= a(x,x))(23) 测试时,输入测试样本,综合各个分类器的输出, 例如,如果只有第i个分类器的输出是十1,则该 3分类器设计 样本属于第i类:如果所有的分类器的输出都是 3.1SVM基本原理 一1,则该样本是新样本:如果有多个分类器的输 出为十1,则再用距离分类技术以判断该样本的 在提取有效的图像特征之后,选择合适的分 类属.文中所采用的距离分类器基于Cosine距离 类器成为识别问题的关键.支持向量机是基于结 测度: 构风险最小化原理的统计学习方法,适用于小样 -xy 本分类问题1. a.(x,y以=x1TyI (29) 对于给定的训练集{,},:=(x1,x2, 其中x和y代表两个特征向量. ;xa)∈R,y:∈{+l,-1}为类标记i=L,2, ;n,n为训练集样本个数.最优分类面函数设 4实验结果 为: 在实验中,核主元分析法中使用了Cosine核
∑ m i =1 αkik ( xi , x) ( 20) 由上式可知通过引入核函数的方法, 在高维空间 实际上只需进行内积运算, 而这种内积运算是可 以用原空间中的函数实现的, 从而避免了在 R f 中进行非线性变换 Υ的不便. 综上所述, 核主元分析的主要计算步骤为 : ( 1) 选取核函数, 计算矩阵 K . ( 2) 因为假设条件为 ∑ m k =1 Υ( xk ) =0, 而实际 上并不能在空间 R f 中显式地计算 Υ( xk ) .但对 任意 Υ和一组样本x1, …, xm , 对于 : Υ( xk ) =Υ( xk ) -( 1/ m) ∑ m k =1 Υ( xk ) ( 21) 是满足假设条件的, 即 ∑ m k =1 Υ( xk ) =0 .定义 kij = ( Υ( xi) , Υ( xj) ), 由于无法计算式( 21) , 所以不能 直接得到 K , 但可通过对 K 做修正来间接求得. 定义 Iij =1, ( Im) ij =1/ m, k ij = Υ( xi) - 1 m ∑ m l =1 Υ( xl) , Υ( xj) - 1 m ∑ m n =1 Υ( xn ) = kij - 1 m ∑ m l=1 Iilklj - 1 m ∑ m n =1 kinInj + 1 m 2 ∑ m l, n =1 IilklnInj = ( K -ImK -KIm +ImKIm) ij ( 22) ( 3) 求解 m λα=K α, 得到矩阵 K 的特征值 及其对应的特征向量, 提取主元 αk ( k =p , …, m), 并根据式( 18)和式( 19)归一化 . ( 4) 对样本 x, 计算其在特征向量 wk ( k =p, …, m)上的投影, 构成特征向量 ( wk , Υ( x)) = ∑ m i =1 αki( Υ( xi), Υ( x) ) ( 23) 3 分类器设计 3.1 SVM 基本原理 在提取有效的图像特征之后, 选择合适的分 类器成为识别问题的关键 .支持向量机是基于结 构风险最小化原理的统计学习方法, 适用于小样 本分类问题[ 13] . 对于给定的训练集{xi , yi}, xi =( xi1, x i2, …, xid ) T ∈ R d , y i ∈{+1, -1}为类标记, i =1, 2, …, n , n 为训练集样本个数 .最优分类面函数设 为: g( xi) = ∑ n j =1 αjyjk ( xi , xj) +b op , i =1, 2, …, n ( 24) 其中, b op为分类阈值, k( xi , xj)为核函数.最优分 类面问题是在约束条件 ∑ n i =1 yiαi =0 和 0 ≤αi ≤C ( i =1, 2, …, n, C 为 Lagrange 乘子设定的上限, 为正常数)下对 αi 求解下列函数的最大值 : Q( α) = ∑ n i =1 αi -1 2 ∑ n i, j =1 αiαjy iyjk ( xi , xj) ( 25) 其中 α=[ α1, α2, …, αn] T .这个问题的最优化解 中, 多数 αi 为0, 取值非0 的 αi(记为 α sv i , i =1, 2, …, s)对应的能使式( 25)成立的样本则构成支持 向量 x sv i , i =1, 2, …, s, 且 s <n .由此构造的分 类器决策函数为: yi ∑ n j =1 αjyjk ( xi , xj) +b op ) -1 =0 ( 26) 于是, 只要代入上式任一支持向量 x sv i 及对应的 类别标记y sv i , 即可求出分类阈值 b op : b op =y sv i - ∑ n j =1 αjyjk ( x sv i , xj) = y sv i - ∑ s j =1 αsv j y sv j k ( x sv i , x sv j ) ( 27) 最后得到支持向量机的最优分类函数为 : f ( x) =sgn ∑ s i =1 αsv i y sv i k ( x, x sv i ) +b op ( 28) 式中 sgn(·)为符号函数 . 3.2 SVM 的设计 以上描述的是两分类支持向量机.对于多类 识别问题, 通常采用的方案有“ 一对一” 和“一对 多”等[ 14] .本文采用的是“一对多”的方案.对于 M 类问题, 则构造 M 个分类器, 训练第 i 个分类 器, 用于分开第 i 类样本和其他的 M -1 类样本. 测试时, 输入测试样本, 综合各个分类器的输出, 例如, 如果只有第 i 个分类器的输出是 +1, 则该 样本属于第 i 类;如果所有的分类器的输出都是 -1, 则该样本是新样本 ;如果有多个分类器的输 出为+1, 则再用距离分类技术, 以判断该样本的 类属 .文中所采用的距离分类器基于 Cosine 距离 测度 : δco s( x, y) = -x T y ‖ x ‖ ‖ y ‖ ( 29) 其中 x 和y 代表两个特征向量 . 4 实验结果 在实验中, 核主元分析法中使用了 Cosine 核 Vol.28 No.9 袁 立等:基于核主元分析法和支持向量机的人耳识别 · 893 ·
894 北京科技大学学报 2006年第9期 函数,支持向量机则分别使用了下列4种核函数: 提取代数特征,再利用支持向量机进行分类识别. 线性核,多项式核、RBF核以及Cosine核. 在带有角度、光照变化的人耳图像库上的识别率 在训练阶段,随机选择每个个体的3幅图像 可达98.7%,说明本文提出的方法对于USTB人 作为正样本,其余76个个体的所有图像作为负样 耳图像库是有效的. 本,经KPCA特征提取后送入SVM网络进行训 在下一步工作中,需要进一步研究核主元分 练得到77个两分类支持向量机:测试时使用每个 析法中核函数以及核参数的自动选择,以及人耳 个体剩余的一幅图像作为测试样本,分别用77个 存在部分遮挡时的识别.另外,由于人耳与人脸 支持向量机进行判断.训练和测试结果如表1所 在生理位置上的特殊关系,还可利用两者互为补 示 充同为非打扰式识别的优势进行人耳与人脸多 表1VM选择不同核函数时相应的识别率 模态生物特征识别的研究. Table I Recognition rates when selecting different kerel functions in SVM 参考文献 k(xx) 核参数 识别率 I]lannarelli A.Ear ice ntification forensic identification series. 线性 无 948% Fremont Paramount Publishing Company.1989 [2 Moreno B.Aanchez A.ve lez J F.Use outer ear images for 多项式 a=1,b=1,d=2 97.4% personal identificat ion in security applcations//Proceedings of RBF g2=05 98.7% the 33rd Annual 1999 International Carnahan Conference. Cosine a=0001,b=1.d=2 93.5% Madrid 1999:469 【3习Burge M,Burger W.Ear Biometrics in computer vision/∥15th 从表1的结果可看出,支持向量机采用RBF In temational Conference of Pattem Recognition,2000:822 内积核函数时,得到的识别效果最好.这主要是 [4 Hurley D J.Nixon M S.Carter J N.Force field feature ex- 因为RBF内积核函数定义为空间中任一点x到 traction for ear biometrics.Comput Vision Image Understand ing.2005.98:491 某一中心x。之间欧氏距离的单调函数,即当x远 [)王忠礼,穆志纯,王修岩,等.基于不变矩匹配的人耳识别 离x。时函数取值很小.这样的定义更符合特征 模式识别与人工智能.2004,17(4):502 提取的要求,即不同类的样本在特征空间的分布 [6 Mu Z C,Yuan L,Xu ZG.Shape and structural feature based 的距离尽可能的大而同类样本之间的距离尽可能 ear recognition //Advances in Biometric Person Authentica 的小. tion.Guangzhou,2004 663 此外,表2中比较了该方法与前期所使用方 [7]Chang K.Bow yer K W.Sarkar S,et al.Comparison and com- 法的识别性能.对于标准的PCA方法在自建的 binat ion of ear and face imagesin appearance-based biometrics. IEEE Trans Pattern Anal Mach Intell.2003,25 (9): USTB图像库上的识别率为766%,而文献[7 1160 使用同样方法在Human ID图像库上的识别率为 [8 Yang M H.Kernel Eigenfaces vs Kernel fisherfaces:face 71.6%,分析其原因主要在于本文提出的人耳图 recognition using kemel methods /Procedings of the Fifth 像归一化方法更为合理. IEEE International C onference on Automatic Face and Gestu re Recogrition.Washington D C.2002:215 表2不同人耳识别方法的识别率 [9 Schoolkopf B.Smola A.Muller K R.Norlinear component Table 2 Recognition rates of different ear recognition methods analysis as kemel eigenvalue problem.Neural Comput,1998. 识别方法 图像库 识别率 10(5):1229 高阶不变矩匹配51 60人” 948% 10]Liu C J.Gabor-based kerne PCA with fractional pow er poly- 外耳形状特征和内耳结构特征I9 77人% nomial models for face recognition.IEEE Trans Patter Anal 85.7% Mach Intell.2004.26(5):572 PCAI 88人: 71.6% 11]Liu Q S,Cheng J.Lu HQ,et al.Distance based kernel pca PCA 77人 766% imag econstruction/Proceedngs of the 17th International KPCA+SVM 77人 987% Conference on Pattern Recognition.Cambridge.2004:670 注:%代表USTB人耳图像库,%*代表Human ID图像库. 12]Liu Q S.Lu HQ,Ma D.Improving kemel fisher discrim- inant analysis for face recogrition.IEEE Trans Circuits Syst 5 结论 Video Techndl.2004.14(1):42 13]Heisele B.Ho P,Wu J,et al.Face recognition:component 本文提出一种对人耳图像进行归一化的方 based versus global approaches.Comput Vision Image Un 法.对归一化后的人耳图像,利用核主元分析法 derstanding,2003.91:6
函数, 支持向量机则分别使用了下列 4 种核函数: 线性核、多项式核、RBF 核以及 Cosine 核 . 在训练阶段, 随机选择每个个体的 3 幅图像 作为正样本, 其余 76 个个体的所有图像作为负样 本, 经 KPCA 特征提取后送入 SVM 网络进行训 练得到 77 个两分类支持向量机;测试时使用每个 个体剩余的一幅图像作为测试样本, 分别用 77 个 支持向量机进行判断 .训练和测试结果如表 1 所 示. 表 1 SVM 选择不同核函数时相应的识别率 Table 1 Recognition rates when selecting different kernel functions in SVM k( xi , xj ) 核参数 识别率 线性 无 94.8% 多项式 a =1, b =1, d =2 97.4% RBF σ2 =0.5 98.7% Cosine a=0.001, b =1, d =2 93.5% 从表 1 的结果可看出, 支持向量机采用 RBF 内积核函数时, 得到的识别效果最好.这主要是 因为 RBF 内积核函数定义为空间中任一点 x 到 某一中心xc 之间欧氏距离的单调函数, 即当 x 远 离xc 时函数取值很小 .这样的定义更符合特征 提取的要求, 即不同类的样本在特征空间的分布 的距离尽可能的大而同类样本之间的距离尽可能 的小 . 此外, 表 2 中比较了该方法与前期所使用方 法的识别性能.对于标准的 PCA 方法, 在自建的 USTB 图像库上的识别率为 76.6 %, 而文献[ 7] 使用同样方法在 Human ID 图像库上的识别率为 71.6 %, 分析其原因主要在于本文提出的人耳图 像归一化方法更为合理. 表 2 不同人耳识别方法的识别率 Table 2 Recognition rates of different ear recognition methods 识别方法 图像库 识别率 高阶不变矩匹配[ 5] 60人* 94.8% 外耳形状特征和内耳结构特征[ 6] 77 人* 85.7% PCA[ 7] 88 人** 71.6% PCA 77人* 76.6% KPCA +SVM 77人* 98.7% 注:*代表 US TB 人耳图像库, **代表 Human ID 图像库. 5 结论 本文提出一种对人耳图像进行归一化的方 法.对归一化后的人耳图像, 利用核主元分析法 提取代数特征, 再利用支持向量机进行分类识别. 在带有角度 、光照变化的人耳图像库上的识别率 可达 98.7 %, 说明本文提出的方法对于 USTB 人 耳图像库是有效的. 在下一步工作中, 需要进一步研究核主元分 析法中核函数以及核参数的自动选择, 以及人耳 存在部分遮挡时的识别 .另外, 由于人耳与人脸 在生理位置上的特殊关系, 还可利用两者互为补 充、同为非打扰式识别的优势进行人耳与人脸多 模态生物特征识别的研究 . 参 考 文 献 [ 1] Iannarelli A .Ear identification f orensi c identification series. Fremont:Paramount Publishing Company, 1989 [ 2] Moreno B, A nchez , Vé lez J F.Use out er ear images for personal identification in security applications∥ Proceedings of the 33 rd Annual 1999 International Carnahan Conf erence . Madrid, 1999:469 [ 3] Burge M , Burger W .Ear Biometrics in comput er vision∥15th In ternational Conference of Pattern Recognition, 2000:822 [ 4] Hurley D J, Nixon M S, Cart er J N .Force field f eature extraction f or ear biometrics.Comput Vision Image Understanding, 2005, 98:491 [ 5] 王忠礼, 穆志纯, 王修岩, 等.基于不变矩匹配的人耳识别. 模式识别与人工智能, 2004, 17( 4) :502 [ 6] Mu Z C, Yuan L, Xu Z G .S hape and structural f eature based ear recognition ∥ Advances in Biometri c Person Au then tication.Guangzhou, 2004:663 [ 7] Chang K, Bow yer K W, Sarkar S, et al.Comparison and combination of ear and face imagesin appearance-based biometri cs. IEEE Trans Pattern Anal Mach Intell, 2003, 25 ( 9 ) : 1160 [ 8] Yang M H .Kernel Eigenf aces vs Kernel fisherfaces:f ace recognition using kernel methods ∥ Proceedings of the Fifth IEEE International C onf erence on Aut omatic Face and Gestu re Recognition.Washington D C, 2002:215 [ 9] S choolkopf B, Smola A, Muller K R .Nonlinear component analysis as kernel eigenvalue problem .Neural Comput, 1998, 10( 5) :1229 [ 10] Liu C J.Gabor-based kernel PCA w ith fracti onal pow er polynomial models for face recognition.IEEE Trans Pattern Anal Mach Intell, 2004, 26(5) :572 [ 11] Liu Q S , Cheng J, Lu H Q, et al.Dist ance based kernel pca image reconstruction ∥ Proceedings of the 17th Int ernational Conference on Pattern Recognition.Cambridge, 2004:670 [ 12] Liu Q S, Lu H Q, Ma S D .Improving kernel fisher discriminan t analysis f or face recognition.IEEE Trans Circuits Syst Video Technol, 2004, 14( 1) :42 [ 13] Heisele B, Ho P, Wu J, et al.Face recognition:component based versus global approaches.Comput Vision Image Understanding, 2003, 91:6 · 894 · 北 京 科 技 大 学 学 报 2006 年第 9 期