第16卷第3期 智能系统学报 Vol.16 No.3 2021年5月 CAAI Transactions on Intelligent Systems May 2021 D0:10.11992/tis.201911028 自步稀疏最优均值主成分分析 许子微,陈秀宏 (江南大学数字媒体学院,江苏无锡214122) 摘要:主成分分析(PCA)是一种无监督降维方法。然而现有的方法没有考虑样本的差异性,且不能联合地提 取样本的重要信息,从而影响了方法的性能。针对以上问题,提出自步稀疏最优均值主成分分析方法。模型以 L21范数定义损失函数,同时用L2!范数约束投影矩阵作为正则化项,且将均值作为在迭代中优化的变量,这样 可一致地选择重要特征,提高方法对异常值的鲁棒性:考虑到训练样本的差异性,利用自步学习机制实现训练 样本由“简单”到“复杂”的学习过程,有效地降低异常值的影响。理论分析和实验结果表明,以上方法能更有效 地降低异常值对分类精度的影响,提高分类精度。 关键词:图像处理;主成分分析;无监督学习:数据降维:稀疏:最优均值;自步学习;人脸识别 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2021)03-0416-09 中文引用格式:许子微,陈秀宏.自步稀疏最优均值主成分分析J.智能系统学报,2021,16(3):416-424. 英文引用格式:XU Ziwei,,CHEN Xiuhong.Sparse optimal mean principal component analysis based on self--paced learning[J]. CAAI transactions on intelligent systems,2021,16(3):416-424. Sparse optimal mean principal component analysis based on self-paced learning XU Ziwei,CHEN Xiuhong (School of Digital Media,Jiangnan University,Wuxi 214122,China) Abstract:Principal component analysis(PCA)can be referred to as an unsupervised dimensionality reduction approach. However,the existing methods do not consider the difference of samples and cannot jointly extract important informa- tion of samples,thus affecting the performance of some methods.For the above problems,based on self-paced learning, we proposed a sparse optimal mean PCA algorithm.In our model,loss of function is defined by L2.I norm,the projec- tion matrix is regularized by L2.I norm,and the mean value is taken as a variable to be optimized in the iteration.In this way,important features can be consistently selected,and the robustness of the method to outliers can be improved.Con- sidering the difference in training samples,we utilized self-paced learning mechanism to complete the learning process of training samples from "simple"to "complex"so as to effectively reduce the influence of outliers.Theoretical analys- is and the empirical study revealed that the proposed method could effectively reduce the influence of noise or outliers on the classification progress,thus improving the effect of the classification. Keywords:image processing;principal component analysis;unsupervised learning;data dimension deduction;sparse; optimal mean;self-paced learning;face recognition 降维山是数据分类中的一个重要问题,其目 类。经典的降维方法包括主成分分析(principal 的是学习一个变换矩阵,将高维数据投影到低维 component analysis,.PCA)P-]和线性判别分析(in- ear discriminant analysis,.LDA)4,其中PCA是一 子空间中,使数据在低维子空间中得到有效地分 种将数据信息投影到正交线性空间的无监督方 收稿日期:2019-11-19. 基金项目:江苏省研究生科研与实践创新计划项目NKYI9074). 法,原始PCA在对数据降维时,以平方欧氏距离 通信作者:许子微.E-mail:18256515269@163.com 来表示损失,而欧氏距离对噪声及异常值敏感
DOI: 10.11992/tis.201911028 自步稀疏最优均值主成分分析 许子微,陈秀宏 (江南大学 数字媒体学院,江苏 无锡 214122) L2,1 L2,1 摘 要:主成分分析 (PCA) 是一种无监督降维方法。然而现有的方法没有考虑样本的差异性,且不能联合地提 取样本的重要信息,从而影响了方法的性能。针对以上问题,提出自步稀疏最优均值主成分分析方法。模型以 范数定义损失函数,同时用 范数约束投影矩阵作为正则化项,且将均值作为在迭代中优化的变量,这样 可一致地选择重要特征,提高方法对异常值的鲁棒性;考虑到训练样本的差异性,利用自步学习机制实现训练 样本由“简单”到“复杂”的学习过程,有效地降低异常值的影响。理论分析和实验结果表明,以上方法能更有效 地降低异常值对分类精度的影响,提高分类精度。 关键词:图像处理;主成分分析;无监督学习;数据降维;稀疏;最优均值;自步学习;人脸识别 中图分类号:TP391.4 文献标志码:A 文章编号:1673−4785(2021)03−0416−09 中文引用格式:许子微, 陈秀宏. 自步稀疏最优均值主成分分析 [J]. 智能系统学报, 2021, 16(3): 416–424. 英文引用格式:XU Ziwei, CHEN Xiuhong. Sparse optimal mean principal component analysis based on self-paced learning[J]. CAAI transactions on intelligent systems, 2021, 16(3): 416–424. Sparse optimal mean principal component analysis based on self-paced learning XU Ziwei,CHEN Xiuhong (School of Digital Media, Jiangnan University, Wuxi 214122, China) L2;1 L2;1 Abstract: Principal component analysis (PCA) can be referred to as an unsupervised dimensionality reduction approach. However, the existing methods do not consider the difference of samples and cannot jointly extract important information of samples, thus affecting the performance of some methods. For the above problems, based on self-paced learning, we proposed a sparse optimal mean PCA algorithm. In our model, loss of function is defined by norm, the projection matrix is regularized by norm, and the mean value is taken as a variable to be optimized in the iteration. In this way, important features can be consistently selected, and the robustness of the method to outliers can be improved. Considering the difference in training samples, we utilized self-paced learning mechanism to complete the learning process of training samples from “simple” to “complex” so as to effectively reduce the influence of outliers. Theoretical analysis and the empirical study revealed that the proposed method could effectively reduce the influence of noise or outliers on the classification progress, thus improving the effect of the classification. Keywords: image processing; principal component analysis; unsupervised learning; data dimension deduction; sparse; optimal mean; self-paced learning; face recognition 降维[1] 是数据分类中的一个重要问题,其目 的是学习一个变换矩阵,将高维数据投影到低维 子空间中,使数据在低维子空间中得到有效地分 类。经典的降维方法包括主成分分析 (principal component analysis, PCA)[2-3] 和线性判别分析 (linear discriminant analysis, LDA)[4-5] ,其中 PCA 是一 种将数据信息投影到正交线性空间的无监督方 法,原始 PCA 在对数据降维时,以平方欧氏距离 来表示损失,而欧氏距离对噪声及异常值敏感。 收稿日期:2019−11−19. 基金项目:江苏省研究生科研与实践创新计划项目 (JNKY19_074). 通信作者:许子微. E-mail:18256515269@163.com. 第 16 卷第 3 期 智 能 系 统 学 报 Vol.16 No.3 2021 年 5 月 CAAI Transactions on Intelligent Systems May 2021
第3期 许子微,等:自步稀疏最优均值主成分分析 ·417· 于是提出许多PCA变体来降低异常值的影响,例 1相关工作 如Nie等6-7提出非贪婪L,范数最大化的鲁棒主 成分分析(robust principal component analysis, 给定训练样本为X=[x1x2…xnJ∈Rm,其中 RPCA),和基于L21范数的最优均值主成分分析 m为原始图像的空间维数,n为训练样本的个数。 (optimal mean robust principal component analysis, 1.1PCA模型 OMRPCA)来同时学习最优变换矩阵和最优均 假设训练样本X已经中心化,即均值为零, 值。但通过RPCA和OMRPCA等模型得到的低 则通常的PCA可以表示为 维子空间的每个新特征都是高维空间中所有原始 minllx-wwxll.s.t.,WW =I (1) 特征的线性组合,由于存在冗余特征,通常不适合 式中W为投影矩阵。该问题的最优解W的列对 分类。Zou等I提出了稀疏主成分分析(sparse 应于矩阵的前m个最大特征值对应的特征向量。 principal component analysis,SPCA)。然而,因为在 基于L2范数的均值的合理性只针对传统的 每个变换向量上施加L,范数,故SPCA不能联合 PCA方法,泛化能力较差,于是考虑以下最优均 地选择重要特征:Y等9提出了联合稀疏主成分 值PCA模型(OMPCA): (joint sparse principal component analysis, iX-b1-WW(x-b1) JSPCA),利用L2:范数来表示损失项和正则项,在 式中:b∈Rm是一个待优化的变量;1为n维全 避免异常值影响的同时能联合地选择重要特征, 1列向量。于是,投影矩阵W的列为矩阵XHXT 从而增强算法的分类精度。 的前d个最大特征值对应的特征向量,其中 以上方法的每一个样本对应一个损失值,损 失值的大小决定了样本对模型的贡献,这就表明 H=I-11;最优均值为b=(x1+wam,aeR 了样本之间存在差异性,而这些方法均同等地对 为任意d维列向量。 待所有训练样本,没有考虑样本之间的差异性。 若式(1)中的投影矩阵与恢复矩阵不相同,并 受人类/动物学习过程的启发,文献[10-11]提出 以L21范数来表示损失函数以及稀疏正则化项, 了自定步长(或课程)(self-pace learning,SPL)学习 则有以下联合稀疏主成分分析(SPCA)模型: 理论,其主要思想是以自定步长方式来实现从“简 minllX-PO'Xl2+allellz 单”到“复杂”样本的训练,最终学习得到一个成熟 式中:Q∈Rxd是投影矩阵;P∈Rmxd为恢复矩阵。 的模型。此后,Lu等2提出自步课程学习(self 1.2自步学习(SPL)机制 paced curriculum learning,SPCL)同时考虑训练前 受人类/动物学习过程的启发,SPL以自定步 已知的先验知识和训练过程中的学习进度。 长的方式实现从“简单样本”到“复杂样本”迭代地 Yu等u)提出了自步学习K均值聚类(self-paced 训练模型。其优化模型为 learning for k-means clustering algorithm,SPKC), 自步学习机制用于聚类方法。Hu等提出自步 min >v:L(y:g(x:,w))+a(w)+ f(vi,k 核联合稀疏表示高光谱图像分类(kernel joint s.tye[0,1,i=1,2,…,n sparse representation based on self-paced learning for 式中:α为稀疏正则化控制参数;k是自步学习参 hyperspectral image classification,SPKJSR),将自步 数;变量用于决定选择哪些样本参与训练模型: 学习机制用于高光谱图像分类。 Ly,gc,w)是样本的损失函数,损失值的大小决 本文为充分考虑样本之间的差异性,利用SPL 定样本的难易程度:fy,k)是自步正则化函数。在 思想提出自步稀疏最优均值主成分分析(sparse 算法迭代过程中,模型可以根据样本难易程度,从 optimal mean principal component analysis based on 简单的样本开始,学习到复杂的样本。自步学习 self-paced learning,.SPL-OMSPCA),该模型放宽了 机制的有效性,特别是对高度损坏的数据的鲁棒 对投影矩阵的正交约束,通过对训练样本由“简 性,已经在各种计算机视觉任务中得到了验证。 单”到“复杂”的渐进学习过程,得到最优投影矩阵 2自步稀疏最优均值主成分分析模 和最优样本均值。该方法能更好地获得样本中重 型(SPL-OMSPCA) 要的特征信息,避免异常值的影响,提高了算法 的鲁棒性。在6个不同数据集上的实验表明, 2.1 模型建立 SPL-OMSPCA算法优于目前最先进的主成分分 SPL-OMSPCA的基本思想是:以L21范数表 析方法。 示损失函数和稀疏约束,并利用自步学习方案对
L1 L2,1 L1 L2,1 于是提出许多 PCA 变体来降低异常值的影响,例 如 Nie 等 [6-7] 提出非贪婪 范数最大化的鲁棒主 成分分析 (robust principal component analysis, RPCA),和基于 范数的最优均值主成分分析 (optimal mean robust principal component analysis, OMRPCA) 来同时学习最优变换矩阵和最优均 值。但通过 RPCA 和 OMRPCA 等模型得到的低 维子空间的每个新特征都是高维空间中所有原始 特征的线性组合,由于存在冗余特征,通常不适合 分类。Zou 等 [8] 提出了稀疏主成分分析 (sparse principal component analysis, SPCA)。然而,因为在 每个变换向量上施加 范数,故 SPCA 不能联合 地选择重要特征;Yi 等 [9] 提出了联合稀疏主成分 分析 (joint sparse principal component analysis, JSPCA),利用 范数来表示损失项和正则项,在 避免异常值影响的同时能联合地选择重要特征, 从而增强算法的分类精度。 以上方法的每一个样本对应一个损失值,损 失值的大小决定了样本对模型的贡献,这就表明 了样本之间存在差异性,而这些方法均同等地对 待所有训练样本,没有考虑样本之间的差异性。 受人类/动物学习过程的启发,文献 [10-11] 提出 了自定步长 (或课程) (self-pace learning, SPL) 学习 理论,其主要思想是以自定步长方式来实现从“简 单”到“复杂”样本的训练,最终学习得到一个成熟 的模型。此后,Lu 等 [12] 提出自步课程学习 (selfpaced curriculum learning, SPCL) 同时考虑训练前 已知的先验知识和训练过程中的学习进度。 Yu 等 [13] 提出了自步学习 K 均值聚类 (self-paced learning for k-means clustering algorithm, SPKC),将 自步学习机制用于聚类方法。Hu 等 [14] 提出自步 核联合稀疏表示高光谱图像分类 (kernel joint sparse representation based on self-paced learning for hyperspectral image classification, SPKJSR),将自步 学习机制用于高光谱图像分类。 本文为充分考虑样本之间的差异性,利用 SPL 思想提出自步稀疏最优均值主成分分析 (sparse optimal mean principal component analysis based on self-paced learning, SPL-OMSPCA),该模型放宽了 对投影矩阵的正交约束,通过对训练样本由“简 单”到“复杂”的渐进学习过程,得到最优投影矩阵 和最优样本均值。该方法能更好地获得样本中重 要的特征信息,避免异常值的影响,提高了算法 的鲁棒性。在 6 个不同数据集上的实验表明, SPL-OMSPCA 算法优于目前最先进的主成分分 析方法。 1 相关工作 X = [x1 x2 ··· xn] ∈ R m×n m n 给定训练样本为 ,其中 为原始图像的空间维数, 为训练样本的个数。 1.1 PCA 模型 假设训练样本 X 已经中心化,即均值为零, 则通常的 PCA 可以表示为 min W ||X−WWTX||2 F ,s.t.,WTW = I (1) W W m 式中 为投影矩阵。该问题的最优解 的列对 应于矩阵的前 个最大特征值对应的特征向量。 基于 L2 范数的均值的合理性只针对传统的 PCA 方法,泛化能力较差,于是考虑以下最优均 值 PCA 模型 (OMPCA): min b,WTW ||X− b1 T −WWT ( X− b1 T ) ||2 F b ∈ R m 1 n W XHXT d H = I− 1 n (11T ) b = 1 n (X1+Wα),α ∈ R d d 式中: 是一个待优化的变量; 为 维全 1 列向量。于是,投影矩阵 的列为矩阵 的 前 个最大特征值对应的特征向量,其中 ;最优均值为 为任意 维列向量。 L2,1 若式 (1) 中的投影矩阵与恢复矩阵不相同,并 以 范数来表示损失函数以及稀疏正则化项, 则有以下联合稀疏主成分分析 (JSPCA) 模型: min Q,P ||X− PQTX||2,1 +λ||Q||2,1 Q ∈ R m×d P ∈ R 式中: 是投影矩阵; m×d 为恢复矩阵。 1.2 自步学习 (SPL) 机制 受人类/动物学习过程的启发,SPL 以自定步 长的方式实现从“简单样本”到“复杂样本”迭代地 训练模型。其优化模型为 min∑n i=1 viL(yi ,g(xi ,w))+αϕ(w)+ ∑n i=1 f(vi , k) s.t.vi ∈ [0,1],i = 1,2,··· ,n α k vi L(yi ,g(xi ,w)) f(vi , k) 式中: 为稀疏正则化控制参数; 是自步学习参 数;变量 用于决定选择哪些样本参与训练模型; 是样本的损失函数,损失值的大小决 定样本的难易程度; 是自步正则化函数。在 算法迭代过程中,模型可以根据样本难易程度,从 简单的样本开始,学习到复杂的样本。自步学习 机制的有效性,特别是对高度损坏的数据的鲁棒 性,已经在各种计算机视觉任务中得到了验证。 2 自步稀疏最优均值主成分分析模 型 (SPL-OMSPCA) 2.1 模型建立 SPL-OMSPCA 的基本思想是:以 L2,1 范数表 示损失函数和稀疏约束,并利用自步学习方案对 第 3 期 许子微,等:自步稀疏最优均值主成分分析 ·417·
·418· 智能系统学报 第16卷 参与训练的样本进行选择。其中,损失函数是训 di= 1/A-POA)ll2.Il(A-POA)'lk+0 (5) 练样本从低维变换空间中恢复原始数据产生的误 1/6,其他 差,且包含需优化的均值向量。于是有以下优化 式中:A=X-b1T;i(i=1,2,…,m)表示矩阵的第i 模型: 列;对角矩阵H=diag(h,h22,…,hmm)的对角元素 -PQ"(sb)l+alllba+ 定义为 vh.P.Q ba=1I0k,Ig≠0 (6) (2) 1/6,其他 式中:j=1,2…,m)表示矩阵的第j行;6为一个 st.PrP=I,y∈0,1,i=1,2,…,n 很小的数。 式中:x为第i个样本;α为稀疏正则化控制参 2.2模型求解 数;k为自步控制参数;变量用于决定选择哪些 因为式(4)含有P、Q、b及v共4个变量,直 样本参与训练:b∈RmxI是样本均值;Q∈Rmw是投 接求解非常困难,所以本文使用交替迭代求解 的方法,分别求得自步学习权重”、最优投影矩阵 影矩阵;P∈Rmxd是恢复矩阵且服从正交约束 Q、最优均值b以及恢复矩阵P。 PP=I。式(2)用损失值的大小决定样本的难易 2.21固定P、Q、b求自步学习权重v 程度。 自步正则化函数f,)有多种形式。若f,kF 当P、Q和b固定时,式(4)转化为 1 一,k值较大,倾向于选择损失值较小的样本,于 mi∑,-b-PQ'c-bb+E 片+脉 是在算法迭代过程中,利用一个步长参数μ来逐 st.PP=L,ye[0,1],i=1,2…,n 渐减小k的值,使得越来越多的样本参与模型学 令L,=x-b-PQr(x-b)l2,则上式可表示为 习,从而实现从简单样本学习到复杂样本的过程。 当k小于一个预定义的确定值时,算法结束。 1 片+队 (7) 上述方法是硬性阈值权值选择方法,通过给 s.t.y:∈[0,1,i=1,2,…,n 每个样本分配二元权值(:∈[0,1)来决定是否选 式(7)的目标函数关于:求偏导并令其为 择样本。但异常值在所有样本中分布不均匀,所 0得:的解 以硬性正则函数不能确定是否选择这些样本。相 (1,L≤1/k+1/B)2 比于硬性阈值权值,软权值给每个样本分配 0,L≥1/k2 := (8) 0~1(包括0和1)的权值,显示了样本的潜在重要 /1 其他 性,更好地实现了从简单样本逐步学习到复杂样 2.2.2 本的过程。所提最终优化算法为 固定P、Q、求解最优均值b 版-b-Po'k-bb+dig+t 当固定P、Q和v时,式(4)转化为 min(X-b1'-PQ"(X-b1)D (9) 户B (3) 式(9)的目标函数关于b求偏导并令其为零, 台%+队 得到 s.tPP=I,y∈[0,1],i=1,2,…,n (I-POT-OPT+00)(b1T-X)VD1=0 (10) 式中B是间隔控制参数,控制0~1的模糊区间。 令c=(b1T-X)VD1,则式(10)转化为 因此软阈值权值可以通过明确样本间差异,准确 (I-P0-QPr+20')c=0 (11) 选择样本,进一步避免异常值的影响。另外,这 若I-PQ-QPr+QQ为非奇异的,则式(11) 里存在一个隐形变量4(μ>1),用来作为自步控制 的解为c=0,从而有 参数k减小的步长。目标函数式(3)转化为 (12) (X-bI-PO'(X-b1 0 若I-PQ'-QP+QQ为奇异的,设其奇异值分解 lvag啡+户B (4) 为EW1U1T,其中W1=diag(c1,2,…,c,0,…,0), 台%+欧 o1≥2≥…≥σ,>0,则式(11)的解为 s.t.PrP=L,y,∈[0,1],i=1,2,…,n c=01z 式中:V=diag(v1,2,…,v:1是全为1的列向量;对 其中z=[0,…,0,z+1,…,zmJ∈Rm为任意的。特别 角矩阵D=diag(di,d2,…,dnm)的对角元素定义为 地,如令z+1=1,乙2=…=zm=0,则式(11)的一个
参与训练的样本进行选择。其中,损失函数是训 练样本从低维变换空间中恢复原始数据产生的误 差,且包含需优化的均值向量。于是有以下优化 模型: min v,b,P,Q ∑n i=1 vi ||xi − b− PQT (xi − b)||2 +α||Q||2,1+ ∑n i=1 f(vi , k) s.t.P T P = I, vi ∈ [0,1],i = 1,2,··· ,n (2) xi i α k vi b ∈ R m×1 Q ∈ R m×d P ∈ R m×d P T P = I 式中: 为第 个样本; 为稀疏正则化控制参 数; 为自步控制参数;变量 用于决定选择哪些 样本参与训练; 是样本均值; 是投 影矩阵; 是恢复矩阵且服从正交约束 。式 (2) 用损失值的大小决定样本的难易 程度。 f(vi , k) f(vi , k) − 1 k vi k µ k k 自步正则化函数 有多种形式。若 = , 值较大,倾向于选择损失值较小的样本,于 是在算法迭代过程中,利用一个步长参数 来逐 渐减小 的值,使得越来越多的样本参与模型学 习,从而实现从简单样本学习到复杂样本的过程。 当 小于一个预定义的确定值时,算法结束。 (vi ∈ [0,1]) 上述方法是硬性阈值权值选择方法,通过给 每个样本分配二元权值 来决定是否选 择样本。但异常值在所有样本中分布不均匀,所 以硬性正则函数不能确定是否选择这些样本。相 比于硬性阈值权值,软权值给每个样本分 配 0~1(包括 0 和 1) 的权值,显示了样本的潜在重要 性,更好地实现了从简单样本逐步学习到复杂样 本的过程。所提最终优化算法为 min v,b,P,Q ∑n i=1 vi ||xi − b− PQT (xi − b)||2 +α||Q||2,1+ ∑n i=1 β 2 vi +βk s.t.P T P = I, vi ∈ [0,1],i = 1,2,··· ,n (3) β µ(µ > 1) k 式中 是间隔控制参数,控制 0~1 的模糊区间。 因此软阈值权值可以通过明确样本间差异,准确 选择样本,进一步避免异常值的影响。另外,这 里存在一个隐形变量 ,用来作为自步控制 参数 减小的步长。目标函数式 (3) 转化为 min v,b,P,Q ||(X− b1 T − PQT (X− b1 T )) √ V √ D||2 F+ α|| √ HQ||2 F + ∑n i=1 β 2 vi +βk s.t.P T P = I, vi ∈ [0,1],i = 1,2,··· ,n (4) V = diag(v1, v2,··· , vn) 1 D = diag(d11,d22,··· ,dnn) 式中: ; 是全为 1 的列向量;对 角矩阵 的对角元素定义为 dii = { 1/||A− PQTA) i ||2, ||(A− PQTA) i ||2 , 0 1/δ, 其他 (5) A = X− b1 T i(i = 1,2,··· ,n) i H = diag(h11,h22,··· ,hmm) 式中: ; 表示矩阵的第 列;对角矩阵 的对角元素 定义为 hii = { 1/||Q j ||2 , ||Q j ||2 , 0 1/δ, 其他 (6) 式中: j(j = 1,2,··· ,m) 表示矩阵的第 j 行; δ 为一个 很小的数。 2.2 模型求解 P Q b v v Q b P 因为式 (4) 含有 、 、 及 共 4 个变量,直 接求解非常困难,所以本文使用交替迭代求解[15] 的方法,分别求得自步学习权重 、最优投影矩阵 、最优均值 以及恢复矩阵 。 2.2.1 固定 P、Q、b 求自步学习权重 v 当 P、Q 和 b 固定时,式 (4) 转化为 min v,b,P,Q ∑n i=1 vi ||xi − b− PQT (xi − b)||2 + ∑n i=1 β 2 vi +βk s.t.P T P = I, vi ∈ [0,1],i = 1,2,··· ,n Li = ||xi−b−PQT 令 (xi−b)||2,则上式可表示为 min v ∑n i=1 viLi + ∑n i=1 β 2 vi +βk s.t.vi ∈ [0,1],i = 1,2,··· ,n (7) vi vi 式 (7) 的目标函数关于 求偏导并令其为 0 得 的解 vi = 1, Li ⩽ 1/(k+1/β) 2 0, Li ⩾ 1/k 2 β ( 1 √ Li −k ) , 其他 (8) 2.2.2 固定 P、Q、v 求解最优均值 b 当固定 P、Q 和 v 时,式 (4) 转化为 min b (X− b1 T − PQT (X− b1 T )) √ V √ D 2 F (9) 式 (9) 的目标函数关于 b 求偏导并令其为零, 得到 (I− PQT −QPT +QQT )(b1 T − X)V D1 = 0 (10) c = (b1 T 令 − X)V D1 ,则式 (10) 转化为 (I− PQT −QPT +QQT )c = 0 (11) I− PQT −QPT +QQT c = 0 若 为非奇异的,则式 (11) 的解为 ,从而有 b = XV D1 1 TV D1 (12) I− PQT −QPT +QQT E1W1U1 T W1 = diag(σ1,σ2,··· ,σs ,0,··· ,0) σ1 ⩾ σ2 ⩾ ··· ⩾ σs > 0 若 为奇异的,设其奇异值分解 为 , 其 中 , ,则式 (11) 的解为 c = U1 z z = [0,··· ,0,zs+1,··· ,zm] T ∈ R m zs+1 = 1 zs+2 = ··· = zm = 0 其中 为任意的。特别 地,如令 , ,则式 (11) 的一个 ·418· 智 能 系 统 学 报 第 16 卷
第3期 许子微,等:自步稀疏最优均值主成分分析 ·419· 特解为U1的第s+1列,即c=(U1)+,从而有 本的类标签。 b=U)+XVDI (13) 在算法1中,主要的计算复杂度为奇异值分 1VD1 解和矩阵求逆,故本算法时间复杂度最高为O(m), 2.2.3固定P、v、b求解投影矩阵Q 假设算法迭代T次,则该部分的时间复杂度为 固定P、”、b后,式(4)转化为 O(Tm),从而整个算法的时间复杂度为O(Tm)。 m(X-b-PQ"(X- (14) 3实验 all VHl 令(X-b1)FD=G,则式(14)转化为 为评估SPL-OMSPCA算法的有效性,本文将 min IlG-POTG+all VHQll (15) 在UMIST6、JAFFE1M、AR181、BIO1咧、COIL2020 及MNISTP数据集上进行测试,每次实验独立随 式(15)的目标函数关于Q求偏导,并令其为 机,重复20次取平均识别率和标准差作为最后实 0得 验结果,并与PCA、SPCA、OMRPCA和JSPCA算 (GGT+aH)Q=GGTP 法作对比。 从而有 3.1数据集 Q=(GGT+aH)GGTP (16) 为测试SPL-OMSPCA对异常值的鲁棒性,将 2.2.4固定Q、"、b求解恢复矩阵P UMIST数据集的每个图像随机添加13×13的块 固定Q、”、b后,式(4)转化为 遮挡;随机抽取JAFFE数据集50%的图像添加 min((x-b1)-Pe"(x-b1)VD 13×13块遮挡,而对AR、BIO、COIL20和 MNIST数据集随机添加10%的椒盐噪声。各数 s.t.PTP=I 据集的具体特征如表1所示,而各数据集的部分 或等价形式为 图像如图1。 minVD VV(X-b1')-VDVV(X-b1'op 表1不同数据集的属性及特点 s.tPTP=I Table 1 Attributes and characteristics of different datasets (17) 约束条件PP=I意味着P是列正交矩阵。 数据集 样本数 类别数 规模 特征 设(X-b1)VD(X-b1)TQ的奇异值分解为E2W,U2, UMIST 575 20 28×32 有较大姿态变化 则由文献[9]中定理知,式(17)的最优解为 JAFFE 200 10 32×32 有面部表情变化 P=E2U; (18) 有光照表情变化 以上过程不断迭代,直到收敛条件满足为止, AR 3120 120 32×32 部分图像有遮挡 具体算法如算法1。 BIO 1460 22 32×32 样本较相似 算法1SPL-OMSPCA COIL20 1440 20 32×32 姿态间隔拍摄 输入样本X,维度d,参数k、α、B和步长 输出投影矩阵Q。 MNIST 1000 10 28×28 样本较相似 迭代执行以下操作,直到模型收敛: 1)通过式(8)计算: 2)通过式(12)、(13)计算b: 3)通过式(16)计算Q: 4)通过式(18)计算P: (a)UMIST数据集 (b)JAFFE数据集 5)通过式(⑤)计算D: 6)通过式(6)计算H; 0王3米 7更新k:k=k/μo 56087 得到投影矩阵Q之后,运用最近邻分类器 (c)COL20数据集 (d)MNIST数据集 (nearest neighbor classifier,.NN)进行分类: 图1部分含噪数据集的可视化 a-w (19) Fig.1 Visualization of some datasets with noise 3.2实验结果及分析 式中:c为测试样本y的预测标签;c:为第i个样 在各数据集的每类中随机选取L张图像作为
特解为 U1 的第 s+1 列,即 c = (U1)s+1,从而有 b = (U1)s+1 + XV D1 1 TV D1 (13) 2.2.3 固定 P、v、b 求解投影矩阵 Q 固定 P、v、b 后,式 (4) 转化为 min Q (X− b1 T − PQT (X− b1 T )) √ V √ D 2 F + α|| √ HQ||2 F (14) ( X− b1 T ) √ V √ 令 D = G ,则式 (14) 转化为 min Q ||G− PQTG||2 F +α|| √ HQ||2 F (15) 式 (15) 的目标函数关于 Q 求偏导,并令其为 0 得 ( GGT +αH ) Q = GGT P 从而有 Q = ( GGT +αH )−1 GGT P (16) 2.2.4 固定 Q、v、b 求解恢复矩阵 P 固定 Q、v、b 后,式 (4) 转化为 min P ((X− b1 T ) − PQT ( X− b1 T )) √ V √ D 2 F s.t.P T P = I 或等价形式为 min P √ D √ V(X− b1 T ) T − √ D √ V(X− b1 T ) TQPT 2 F s.t.P T P = I (17) P T P = I P (X− b1 T )V D(X− b1 T ) TQ E2W2U2 T 约束条件 意味着 是列正交矩阵。 设 的奇异值分解为 , 则由文献 [9] 中定理知,式 (17) 的最优解为 P = E2U T 2 (18) 以上过程不断迭代,直到收敛条件满足为止, 具体算法如算法 1。 算法 1 SPL-OMSPCA 输入 样本 X ,维度 d ,参数 k、α、β 和步长 µ ; 输出 投影矩阵 Q。 迭代执行以下操作,直到模型收敛: 1) 通过式 (8) 计算 v ; 2) 通过式 (12)、(13) 计算 b ; 3) 通过式 (16) 计算 Q ; 4) 通过式 (18) 计算 P ; 5) 通过式 (5) 计算 D ; 6) 通过式 (6) 计算 H ; 7) 更新 k:k = k/µ。 得到投影矩阵 Q 之后,运用最近邻分类器 (nearest neighbor classifier, NN) 进行分类: c = argminci ∑m j=1 (X j i −yj) 2 1/2 (19) c y ci 式中: 为测试样本 的预测标签; 为第 i 个样 本的类标签。 O(m 3 ) T O(Tm3 ) O(Tm3 ) 在算法 1 中,主要的计算复杂度为奇异值分 解和矩阵求逆,故本算法时间复杂度最高为 , 假设算法迭代 次,则该部分的时间复杂度为 ,从而整个算法的时间复杂度为 。 3 实验 为评估 SPL-OMSPCA 算法的有效性,本文将 在 UMIST[16] 、JAFFE[17] 、AR[18] 、BIO[19] 、COIL20[20] 及 MNIST[21] 数据集上进行测试,每次实验独立随 机,重复 20 次取平均识别率和标准差作为最后实 验结果,并与 PCA、SPCA、OMRPCA和 JSPCA 算 法作对比。 3.1 数据集 13×13 13×13 为测试 SPL-OMSPCA 对异常值的鲁棒性,将 UMIST 数据集的每个图像随机添加 的块 遮挡;随机抽取 JAFFE 数据集 50% 的图像添加 块遮挡,而 对 A R 、 BIO 、 COIL2 0 和 MNIST 数据集随机添加 10% 的椒盐噪声。各数 据集的具体特征如表 1 所示,而各数据集的部分 图像如图 1。 表 1 不同数据集的属性及特点 Table 1 Attributes and characteristics of different datasets 数据集 样本数 类别数 规模 特征 UMIST 575 20 28×32 有较大姿态变化 JAFFE 200 10 32×32 有面部表情变化 AR 3120 120 32×32 有光照表情变化 部分图像有遮挡 BIO 1460 22 32×32 样本较相似 COIL20 1440 20 32×32 姿态间隔拍摄 MNIST 1000 10 28×28 样本较相似 (a) UMIST 数据集 (b) JAFFE 数据集 (c) COIL20 数据集 (d) MNIST 数据集 图 1 部分含噪数据集的可视化 Fig. 1 Visualization of some datasets with noise 3.2 实验结果及分析 在各数据集的每类中随机选取 L 张图像作为 第 3 期 许子微,等:自步稀疏最优均值主成分分析 ·419·
·420· 智能系统学报 第16卷 训练样本,其余作为测试样本。图2给出了每个算 空间维数较低时,SPL-OMSPCA与其他对比算 法对不同数据集,在不同子空间维度上的分类精度。 法几乎保持一致的精度,但随着子空间维数的 对UMIST、JAFFE和COL20数据集,分别取9、 增加,本文算法精度持续保持平稳状态,且明显 10和5,则由图2(a)、(b)和(e)可看出,SPL-OMSPCA 优于其他算法。表2列出了不同训练样本数下, 整体优于其他对比算法;对AR数据集,取13,由 5种算法在不同数据集上的分类精度与标准差, 图2(c)可知,SPL-OMSPCA明显优于OMRPCA 表中数据为子空间维数从5~100变化时,每个算 和SPCA,而略优于其他算法:对BIO和MNIST 法取得的最高精度,其中黑色加粗字体表示训练 数据集,分别选取20和10,由图2(d)与2()可以 样本相同时,同一设置下几种算法中的最高分类 看出,由于此类数据集中的样本较为相似,当子 精度。 0.70 0.80 0.75 0.65 ★★★★★ 0.70 0.60 0.65 SPL-OMSPCA ★SPL-OMSPCA JSPCA 0.60 JSPCA 0.55 PCA PCA SPCA 0.55 SPCA ◆-OMRPCA ◆-OMRPCA 0.50 0.50 5 152535455565758595105 152535455565758595105 子空间维数 子空间维数 (a)UMIST数据集 (b)JAFFE数据集 08 0.85 0.7 0.80 0.6 0.75 0.5 0.70 湾合特4各年 0.65 0.4 ★SPL-OMSPCA 0.3 ★SPL-OMSPCA ·-JSPCA 0.55 JSPCA 02 -ePCA 0.50 -ePCA SPCA 0.1 SPCA OMRPCA 0.45 ◆-OMRPCA 152535455565758595105 0.40 5 5 2535455565758595105 子空间维数 子空间维数 (C)AR数据集 (d)BIO数据集 0.85 0.80 0.80 0.75 0.75 0.70 0.70 0.65 0.65 0.60 ★SPL-OMSPCA ★SPL-OMSPCA 0.55 ·-JSPCA 0.60 ◆-JSPCA 0.50 -ePCA SPCA 0.55 SPCA 0.45 ◆OMRPCA ◆-OMRPCA 0.40 0.50 152535455565758595105 15 253545.5565758595105 子空间维数 子空间维数 (e)COL20数据集 ()MNIST数据集 图2不同算法在6个数据集上不同子空间维度的分类精度 Fig.2 Classification accuracies of different algorithm in different subspace dimensions on six datasets
训练样本,其余作为测试样本。图 2 给出了每个算 法对不同数据集,在不同子空间维度上的分类精度。 对 UMIST、JAFFE 和 COIL20 数据集,分别取 9、 10 和 5,则由图 2(a)、(b) 和 (e) 可看出,SPL-OMSPCA 整体优于其他对比算法;对 AR 数据集,取 13,由 图 2(c) 可知,SPL-OMSPCA 明显优于 OMRPCA 和 SPCA,而略优于其他算法;对 BIO 和 MNIST 数据集,分别选取 20 和 10,由图 2(d) 与 2(f) 可以 看出,由于此类数据集中的样本较为相似,当子 空间维数较低时,SPL-OMSPCA 与其他对比算 法几乎保持一致的精度,但随着子空间维数的 增加,本文算法精度持续保持平稳状态,且明显 优于其他算法。表 2 列出了不同训练样本数下, 5 种算法在不同数据集上的分类精度与标准差, 表中数据为子空间维数从 5~100 变化时,每个算 法取得的最高精度,其中黑色加粗字体表示训练 样本相同时,同一设置下几种算法中的最高分类 精度。 SPL-OMSPCA PCA SPCA OMRPCA JSPCA 0.70 0.65 0.60 0.55 0.50 分类精度 子空间维数 5 15 25 35 45 55 65 75 85 95 105 105 105 105 105 105 (a) UMIST 数据集 SPL-OMSPCA PCA SPCA OMRPCA JSPCA 0.80 0.75 0.70 0.65 0.60 0.55 0.50 分类精度 子空间维数 5 15 25 35 45 55 65 75 85 95 (b) JAFFE 数据集 SPL-OMSPCA PCA SPCA OMRPCA JSPCA 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 分类精度 子空间维数 5 15 25 35 45 55 65 75 85 95 (c) AR 数据集 SPL-OMSPCA PCA SPCA OMRPCA JSPCA 0.85 0.80 0.75 0.70 0.65 0.60 0.55 0.40 0.45 0.50 分类精度 子空间维数 5 15 25 35 45 55 65 75 85 95 (d) BIO 数据集 SPL-OMSPCA PCA SPCA OMRPCA JSPCA 0.85 0.80 0.75 0.70 0.65 0.60 0.55 0.40 0.45 0.50 分类精度 子空间维数 5 15 25 35 45 55 65 75 85 95 (e) COIL20 数据集 SPL-OMSPCA PCA SPCA OMRPCA JSPCA 0.80 0.75 0.70 0.65 0.60 0.55 0.50 分类精度 子空间维数 5 15 25 35 45 55 65 75 85 95 (f) MNIST 数据集 图 2 不同算法在 6 个数据集上不同子空间维度的分类精度 Fig. 2 Classification accuracies of different algorithm in different subspace dimensions on six datasets ·420· 智 能 系 统 学 报 第 16 卷