第9卷第4期 智能系统学报 Vol.9 No.4 2014年8月 CAAI Transactions on Intelligent Systems Agu.2014 D0I:10.3969/j.issn.1673-4785.201312040 网络出版t地址:http://www.cnki.net/kcms/doi/10.3969/j.issn.1673-4785.201312040.html 支持向量机的多观测样本二分类算法 李欢,王士同 (江南大学数字蝶体学院,江苏无锡214000) 摘要:针对多观测样本的分类问题,提出基于SVM的多观测样本二分类算法。每次分类时,首先限制组成多观测 样本的所有单观测样本属于同一类别,对多观测样本的类别做2次假设,通过比较不同类别假设下的目标函数最优 解来确定多观测样本的类别。该方法无需对分类器进行训练或提前对训练集进行特征表示,而是将已知标签样本 集和多观测样本作为一个整体,充分利用特征空间中同类样本连续分布这一特点,使得分类更加准确。结果表明所 提方法的有效性。 关键词:模式识别;多观测;同类样本:SVM;二分类 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2014)04-392-09 中文引用格式:李欢,王士同.支持向量机的多观测样本二分类算法[J].智能系统学报,2014,9(4):392400. 英文引用格式:LI Huan,WANG Shitong.Binary-class classification algorithm with multiple-access acquired objects based on the SVM[J].CAAI Transactions on Intelligent Systems,2014,9(4):392-400. Binary-class classification algorithm with multiple-access acquired objects based on the SVM LI Huan,WANG Shitong (1.School of Digital Media,Jiangnan University,Wuxi 214000,China;2.School of Digital Media,Jiangnan University,Wuxi 214000.China) Abstract:The binary-class classification algorithm with multiple-access acquired objects based on the SVM is pro- posed for the purpose of classification of an object given with multiple observations in this paper.In each classifica- tion,initially all single observation samples in the multiple observation sample set are restricted to a same class.Two hypotheses are made for the class of the multiple observation sample set,and the class is determined by comparing the optimal values of the different objective functions under different class hypotheses.This method does not require training the classifier or early feature representation of the training set,instead,it takes advantage of the continuity law of the feature space of similar samples with the labeled samples and multiple observation samples as a whole, making the algorithm more accurate for classifications.Experiments show that the proposed method is valid and effi- cient. Keywords:pattern recognition;multiple observations;similar samples;SVM;binary-class classification 传统模式识别主要针对测试模式为单观测样本 定模式在不同时刻或不同条件下的多个观测样本。 的情况。然而,随着人工智能技术的飞速发展,数据 例如,日常生活中,可以用摄像头获取一个物体或一 采集工作变得越来越容易,人们常常可以获取某特 个人在不同时刻、不同光照条件下的图像数据,也可 收稿日期:2013-12-20.网络出版日期:2014-06-21 以借用多个摄像头从不同的角度获取图像数据。此 基金项目:国家自然科学基金资助项目(61272210):江苏省自然科学基外,即使是相同的观测数据,若用不同的方法进行数 金资助项目(BK2011417,BK2011003):江苏省“333”工程基 金资助项目(BRA2011142). 据转换,得到的特征值也不一样,这些就构成了同一 通信作者:李欢.E-mail:huanli1130@126.com. 模式的多观测样本。多观测样本相对于单观测样本
第 怨 卷第 源 期摇摇摇摇摇 摇摇摇 摇摇摇 摇摇摇 智 能 系 统 学 报摇摇摇摇摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 灾燥造援怨 翼援源 圆园员源 年 愿 月摇摇摇摇摇摇摇摇摇摇摇摇 悦粤粤陨 栽则葬灶泽葬糟贼蚤燥灶泽 燥灶 陨灶贼藻造造蚤早藻灶贼 杂赠泽贼藻皂泽 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 粤早怎援 圆园员源 阅韵陨院员园援猿怨远怨 辕 躁援蚤泽泽灶援员远苑猿鄄源苑愿缘援圆园员猿员圆园源园 网络出版地址院澡贼贼责院 辕 辕 憎憎憎援糟灶噪蚤援灶藻贼 辕 噪糟皂泽 辕 凿燥蚤 辕 员园援猿怨远怨 辕 躁援蚤泽泽灶援员远苑猿鄄源苑愿缘援圆园员猿员圆园源园援澡贼皂造 支持向量机的多观测样本二分类算法 李欢袁王士同 渊江南大学 数字媒体学院袁江苏 无锡 圆员源园园园冤 摘 要院针对多观测样本的分类问题袁提出基于 杂灾酝 的多观测样本二分类算法遥 每次分类时袁首先限制组成多观测 样本的所有单观测样本属于同一类别袁对多观测样本的类别做 圆 次假设袁通过比较不同类别假设下的目标函数最优 解来确定多观测样本的类别遥 该方法无需对分类器进行训练或提前对训练集进行特征表示袁而是将已知标签样本 集和多观测样本作为一个整体袁充分利用特征空间中同类样本连续分布这一特点袁使得分类更加准确遥 结果表明所 提方法的有效性遥 关键词院模式识别曰多观测曰同类样本曰杂灾酝曰二分类 中图分类号院 栽孕猿怨员援源摇 文献标志码院粤摇 文章编号院员远苑猿鄄源苑愿缘渊圆园员源冤园源鄄猿怨圆鄄园怨 中文引用格式院李欢袁王士同援 支持向量机的多观测样本二分类算法咱允暂援 智能系统学报袁 圆园员源袁 怨渊源冤 院 猿怨圆鄄源园园援 英文引用格式院蕴陨 匀怎葬灶袁宰粤晕郧 杂澡蚤贼燥灶早援 月蚤灶葬则赠鄄糟造葬泽泽 糟造葬泽泽蚤枣蚤糟葬贼蚤燥灶 葬造早燥则蚤贼澡皂 憎蚤贼澡 皂怎造贼蚤责造藻鄄葬糟糟藻泽泽 葬糟择怎蚤则藻凿 燥遭躁藻糟贼泽 遭葬泽藻凿 燥灶 贼澡藻 杂灾酝咱允暂援 悦粤粤陨 栽则葬灶泽葬糟贼蚤燥灶泽 燥灶 陨灶贼藻造造蚤早藻灶贼 杂赠泽贼藻皂泽袁 圆园员源袁 怨渊源冤 院 猿怨圆鄄源园园援 月蚤灶葬则赠鄄糟造葬泽泽 糟造葬泽泽蚤枣蚤糟葬贼蚤燥灶 葬造早燥则蚤贼澡皂 憎蚤贼澡 皂怎造贼蚤责造藻鄄葬糟糟藻泽泽 葬糟择怎蚤则藻凿 燥遭躁藻糟贼泽 遭葬泽藻凿 燥灶 贼澡藻 杂灾酝 蕴陨 匀怎葬灶袁 宰粤晕郧 杂澡蚤贼燥灶早 渊员援 杂糟澡燥燥造 燥枣 阅蚤早蚤贼葬造 酝藻凿蚤葬袁 允蚤葬灶早灶葬灶 哉灶蚤增藻则泽蚤贼赠袁 宰怎曾蚤 圆员源园园园袁 悦澡蚤灶葬曰 圆援 杂糟澡燥燥造 燥枣 阅蚤早蚤贼葬造 酝藻凿蚤葬袁 允蚤葬灶早灶葬灶 哉灶蚤增藻则泽蚤贼赠袁 宰怎曾蚤 圆员源园园园袁 悦澡蚤灶葬冤 粤遭泽贼则葬糟贼院栽澡藻 遭蚤灶葬则赠鄄糟造葬泽泽 糟造葬泽泽蚤枣蚤糟葬贼蚤燥灶 葬造早燥则蚤贼澡皂 憎蚤贼澡 皂怎造贼蚤责造藻鄄葬糟糟藻泽泽 葬糟择怎蚤则藻凿 燥遭躁藻糟贼泽 遭葬泽藻凿 燥灶 贼澡藻 杂灾酝 蚤泽 责则燥鄄 责燥泽藻凿 枣燥则 贼澡藻 责怎则责燥泽藻 燥枣 糟造葬泽泽蚤枣蚤糟葬贼蚤燥灶 燥枣 葬灶 燥遭躁藻糟贼 早蚤增藻灶 憎蚤贼澡 皂怎造贼蚤责造藻 燥遭泽藻则增葬贼蚤燥灶泽 蚤灶 贼澡蚤泽 责葬责藻则援 陨灶 藻葬糟澡 糟造葬泽泽蚤枣蚤糟葬鄄 贼蚤燥灶袁 蚤灶蚤贼蚤葬造造赠 葬造造 泽蚤灶早造藻 燥遭泽藻则增葬贼蚤燥灶 泽葬皂责造藻泽 蚤灶 贼澡藻 皂怎造贼蚤责造藻 燥遭泽藻则增葬贼蚤燥灶 泽葬皂责造藻 泽藻贼 葬则藻 则藻泽贼则蚤糟贼藻凿 贼燥 葬 泽葬皂藻 糟造葬泽泽援栽憎燥 澡赠责燥贼澡藻泽藻泽 葬则藻 皂葬凿藻 枣燥则 贼澡藻 糟造葬泽泽 燥枣 贼澡藻 皂怎造贼蚤责造藻 燥遭泽藻则增葬贼蚤燥灶 泽葬皂责造藻 泽藻贼袁 葬灶凿 贼澡藻 糟造葬泽泽 蚤泽 凿藻贼藻则皂蚤灶藻凿 遭赠 糟燥皂责葬则蚤灶早 贼澡藻 燥责贼蚤皂葬造 增葬造怎藻泽 燥枣 贼澡藻 凿蚤枣枣藻则藻灶贼 燥遭躁藻糟贼蚤增藻 枣怎灶糟贼蚤燥灶泽 怎灶凿藻则 凿蚤枣枣藻则藻灶贼 糟造葬泽泽 澡赠责燥贼澡藻泽藻泽援 栽澡蚤泽 皂藻贼澡燥凿 凿燥藻泽 灶燥贼 则藻择怎蚤则藻 贼则葬蚤灶蚤灶早 贼澡藻 糟造葬泽泽蚤枣蚤藻则 燥则 藻葬则造赠 枣藻葬贼怎则藻 则藻责则藻泽藻灶贼葬贼蚤燥灶 燥枣 贼澡藻 贼则葬蚤灶蚤灶早 泽藻贼袁 蚤灶泽贼藻葬凿袁 蚤贼 贼葬噪藻泽 葬凿增葬灶贼葬早藻 燥枣 贼澡藻 糟燥灶贼蚤灶怎蚤贼赠 造葬憎 燥枣 贼澡藻 枣藻葬贼怎则藻 泽责葬糟藻 燥枣 泽蚤皂蚤造葬则 泽葬皂责造藻泽 憎蚤贼澡 贼澡藻 造葬遭藻造藻凿 泽葬皂责造藻泽 葬灶凿 皂怎造贼蚤责造藻 燥遭泽藻则增葬贼蚤燥灶 泽葬皂责造藻泽 葬泽 葬 憎澡燥造藻袁 皂葬噪蚤灶早 贼澡藻 葬造早燥则蚤贼澡皂 皂燥则藻 葬糟糟怎则葬贼藻 枣燥则 糟造葬泽泽蚤枣蚤糟葬贼蚤燥灶泽援 耘曾责藻则蚤皂藻灶贼泽 泽澡燥憎 贼澡葬贼 贼澡藻 责则燥责燥泽藻凿 皂藻贼澡燥凿 蚤泽 增葬造蚤凿 葬灶凿 藻枣枣蚤鄄 糟蚤藻灶贼援 运藻赠憎燥则凿泽院责葬贼贼藻则灶 则藻糟燥早灶蚤贼蚤燥灶曰 皂怎造贼蚤责造藻 燥遭泽藻则增葬贼蚤燥灶泽曰 泽蚤皂蚤造葬则 泽葬皂责造藻泽曰 杂灾酝曰 遭蚤灶葬则赠鄄糟造葬泽泽 糟造葬泽泽蚤枣蚤糟葬贼蚤燥灶 收稿日期院圆园员猿鄄员圆鄄圆园援 摇 网络出版日期院圆园员源鄄园远鄄圆员援 基金项目院国家自然科学基金资助项目渊远员圆苑圆圆员园冤 曰江苏省自然科学基 金资助项目渊月运圆园员员源员苑袁 月运圆园员员园园猿冤 曰江苏省野 猿猿猿冶工程基 金资助项目渊月砸粤圆园员员员源圆冤援 通信作者院李欢援 耘鄄皂葬蚤造院澡怎葬灶造蚤员员猿园岳 员圆远援糟燥皂援 摇 摇 传统模式识别主要针对测试模式为单观测样本 的情况遥 然而袁随着人工智能技术的飞速发展袁数据 采集工作变得越来越容易袁人们常常可以获取某特 定模式在不同时刻或不同条件下的多个观测样本遥 例如袁日常生活中袁可以用摄像头获取一个物体或一 个人在不同时刻尧不同光照条件下的图像数据袁也可 以借用多个摄像头从不同的角度获取图像数据遥 此 外袁即使是相同的观测数据袁若用不同的方法进行数 据转换袁得到的特征值也不一样袁这些就构成了同一 模式的多观测样本遥 多观测样本相对于单观测样本
第4期 李欢,等:支持向量机的多观测样本二分类算法 ·393· 能提供更多关于测试模式的信息,从而提高分类精 nant canonical correlation)算法,其首先通过训练获 度。由此可以预见,多观测样本分类问题将得到 得一个能使类内典型相关性最大而类间典型相关性 国内外研究学者的广泛关注。 最小的判别转换矩阵,然后把原空间数据映射到新 目前,多观测样本的分类方法主要有2类:一类 的子空间上,在此基础上把典型差分相关性作为相 是基于参数模型的方法。例如,文献[2]提出了基 似度量进行分类,此方法存在未考虑数据非线性分 于概率密度的KLD(KL-divergence),该方法把所有 布的缺点。一些研究者曾认为所有典型相关性对分 样本集看作是独立的,并且服从高斯分布,然后通过 类的贡献是相同的,即权值相等。但后来T.K.Kim 计算测试样本集和各个训练样本集间的KL散度来 等发现在分类中不同的典型相关性所起的作用 确定多观测样本的类别。但是此方法仅仅对那些服 是不同的,继而提出了BoMPA(boosted manifold 从单高斯分布的样本集比较适用,难以精确地描述 principal angles)算法,该算法首先通过PPCA(prob- 数据呈非线性分布的情况。针对这一情况, abilistic PCA)搜索局部线性模块,并将得到的所有 O.Arandjelovic等[)提出了半参数混合高斯模型,并 模块表示成PCA子空间的形式,进而计算子空间之 将其应用在KL散度的计算中,从而解决了非线性 间的典型相关性,然后把训练集表示为正负样本特 分布的多观测样本分类问题。然而,此方法的计算 征的形式,同时采用AdaBoost算法得到相应的权 复杂度相对较大。F.Cardinaux等[通过嵌人局部 值,最后用加权后的主成分角来度量子空间的相似 特征来扩展GMM(Gaussian mixture model),在保证 性,实现多观测样本的分类。在此基础上,X.L 低复杂度的同时进一步提高了分类性能。文献[5] 等[2]提出Boosted全局和局部主成分角联合的分类 提出了一种基于核函数的分类方法,该方法利用信 算法。文献[l3]提出MMD(manifold-manifold dis- 息论的相关知识,把RAD(resistor-average distance) tance)方法,该方法将典型相关性和局部线性模块 看作是多观测样本间的相似度来完成多观测样本的 结合起来,首先用联合局部线性模型的集合来表示 分类。以上这些方法的不足在于它们不但要解决复 子空间所描述的流形,从而把MMD转换为线性模 杂的参数估计问题,而且当多观测样本和测试样本 块的组合,最终通过MMD的计算来对观测样本进 集之间的统计相关性较弱时,它们的性能会有大的 行分类,但该方法的计算量和复杂度相对较大。W 波动。另一类是基于非参数模型的方法,其中最具 S.Chu [4 KDT kernel discriminant transforma- 代表性的是基于子空间的方法,此类方法把子空间 iom)来解决多观测样本的分类问题,该方法用核子 的相似度作为多观测样的分类依据,例如,文献[6] 空间来表示每个样本集,同时定义一个能使类内核 提出的MSM(mutual subspace method),首先用PCA 子空间相似性最大而类间核子空间相似性最小的 特征子空间来表示每一类的训练样本集和多观测样 KDT矩阵,从而把多观测样本的分类问题转换为寻 本,再利用子空间之间的主成分角作为相似性度量, 求KDT矩阵的最优解问题。近来,E.Kokiopoulou 最后用子空间的典型相关性(canonical correlation) 等s]在标记传播算法的基础上提出了MASC(mAn- 来实现多观测样本的分类,但该算法对数据的变化 flod-based smoothing under constrain)算法,该算法 较为敏感。为此,K.Fukui等)又提出CMSM(con- 将k-近邻图运用到多观测样本的分类问题中,但是 straint mutual subspace method)来消除MSM的数据 k-近邻图的边权值的计算采用了欧式距离下的高斯 敏感性,将原空间的所有样本集都映射到同一约束 核函数,而基于欧式距离的测度无法全面反映数据 子空间,在此约束空间中计算样本集间的主成分角, 的空间分布特性。 再用子空间的典型相关性完成多观测样本的分类。 由上述可知,目前的多观测样本分类算法都有 但上述2种方法并没有考虑到数据的非线性分布问 一定的不足和局限性。本文在经典SVM算法的基 题,针对这一问题,H.Sakano等[)提出KMSM(ker- 础上,用SVM的相关理论来实现多观测样本的分 nel mutual subspace method)算法,L.Walf等f]提出 类。与传统的SVM算法相同,本文方法适用于小样 KPA(kernel principal angles)算法,使用核函数来解 本情况,利用核函数解决了非线性问题和维数问题, 决数据的非线性问题,进而完成多观测样本的分类。 其算法复杂度与样本维数无关。然而,与传统分类 虽然KMSM和KPA考虑了数据的非线性分布,但是 方法的不同在于,该方法无需对分类器进行训练或 这2种方法用到的核函数对参数的依赖性较大。以 提前对训练集进行特征表示,而是将测试集和训练 上这些方法都没有考虑到通过转换数据可以提取到 集作为一个整体,充分利用特征空间中同类样本连 更多的判别信息,T.K.Kim等to提出DCC(discrimi- 续分布这一特点,使得分类更加准确
能提供更多关于测试模式的信息袁从而提高分类精 度咱员暂 遥 由此可以预见袁多观测样本分类问题将得到 国内外研究学者的广泛关注遥 目前袁多观测样本的分类方法主要有 圆 类院一类 是基于参数模型的方法遥 例如袁文献咱圆暂 提出了基 于概率密度的 运蕴阅渊运蕴鄄凿蚤增藻则早藻灶糟藻冤 袁该方法把所有 样本集看作是独立的袁并且服从高斯分布袁然后通过 计算测试样本集和各个训练样本集间的 运蕴 散度来 确定多观测样本的类别遥 但是此方法仅仅对那些服 从单高斯分布的样本集比较适用袁难以精确地描述 数据 呈 非 线 性 分 布 的 情 况遥 针对这一情况袁 韵援粤则葬灶凿躁藻造燥增蚤糟 等咱猿暂提出了半参数混合高斯模型袁并 将其应用在 运蕴 散度的计算中袁从而解决了非线性 分布的多观测样本分类问题遥 然而袁此方法的计算 复杂度相对较大遥 云援 悦葬则凿蚤灶葬怎曾 等咱源暂 通过嵌入局部 特征来扩展 郧酝酝渊 郧葬怎泽泽蚤葬灶 皂蚤曾贼怎则藻 皂燥凿藻造冤 袁在保证 低复杂度的同时进一步提高了分类性能遥 文献咱缘暂 提出了一种基于核函数的分类方法袁该方法利用信 息论的相关知识袁把 砸粤阅渊 则藻泽蚤泽贼燥则鄄葬增藻则葬早藻 凿蚤泽贼葬灶糟藻冤 看作是多观测样本间的相似度来完成多观测样本的 分类遥 以上这些方法的不足在于它们不但要解决复 杂的参数估计问题袁而且当多观测样本和测试样本 集之间的统计相关性较弱时袁它们的性能会有大的 波动遥 另一类是基于非参数模型的方法袁其中最具 代表性的是基于子空间的方法袁此类方法把子空间 的相似度作为多观测样的分类依据袁例如袁文献咱远暂 提出的 酝杂酝 渊皂怎贼怎葬造 泽怎遭泽责葬糟藻 皂藻贼澡燥凿冤 袁首先用 孕悦粤 特征子空间来表示每一类的训练样本集和多观测样 本袁再利用子空间之间的主成分角作为相似性度量袁 最后用子空间的典型相关性渊 糟葬灶燥灶蚤糟葬造 糟燥则则藻造葬贼蚤燥灶冤 来实现多观测样本的分类袁但该算法对数据的变化 较为敏感遥 为此袁运援 云怎噪怎蚤 等咱苑暂 又提出 悦酝杂酝渊 糟燥灶鄄 泽贼则葬蚤灶贼 皂怎贼怎葬造 泽怎遭泽责葬糟藻 皂藻贼澡燥凿冤来消除 酝杂酝 的数据 敏感性袁将原空间的所有样本集都映射到同一约束 子空间袁在此约束空间中计算样本集间的主成分角袁 再用子空间的典型相关性完成多观测样本的分类遥 但上述 圆 种方法并没有考虑到数据的非线性分布问 题袁针对这一问题袁匀援 杂葬噪葬灶燥 等咱愿暂 提出 运酝杂酝渊 噪藻则鄄 灶藻造 皂怎贼怎葬造 泽怎遭泽责葬糟藻 皂藻贼澡燥凿冤算法袁蕴援宰燥造枣 等咱怨暂 提出 运孕粤渊 噪藻则灶藻造 责则蚤灶糟蚤责葬造 葬灶早造藻泽冤算法袁使用核函数来解 决数据的非线性问题袁进而完成多观测样本的分类遥 虽然 运酝杂酝 和 运孕粤 考虑了数据的非线性分布袁但是 这 圆 种方法用到的核函数对参数的依赖性较大遥 以 上这些方法都没有考虑到通过转换数据可以提取到 更多的判别信息袁栽援运援运蚤皂 等咱员园暂提出 阅悦悦渊 凿蚤泽糟则蚤皂蚤鄄 灶葬灶贼 糟葬灶燥灶蚤糟葬造 糟燥则则藻造葬贼蚤燥灶冤 算法袁其首先通过训练获 得一个能使类内典型相关性最大而类间典型相关性 最小的判别转换矩阵袁然后把原空间数据映射到新 的子空间上袁在此基础上把典型差分相关性作为相 似度量进行分类袁此方法存在未考虑数据非线性分 布的缺点遥 一些研究者曾认为所有典型相关性对分 类的贡献是相同的袁即权值相等遥 但后来 栽援运援运蚤皂 等咱员员暂发现在分类中不同的典型相关性所起的作用 是不同的袁 继而提出了 月燥酝孕粤 渊 遭燥燥泽贼藻凿 皂葬灶蚤枣燥造凿 责则蚤灶糟蚤责葬造 葬灶早造藻泽冤算法袁该算法首先通过 孕孕悦粤渊 责则燥遭鄄 葬遭蚤造蚤泽贼蚤糟 孕悦粤冤搜索局部线性模块袁并将得到的所有 模块表示成 孕悦粤 子空间的形式袁进而计算子空间之 间的典型相关性袁然后把训练集表示为正负样本特 征的形式袁同时采用 粤凿葬月燥燥泽贼 算法得到相应的权 值袁最后用加权后的主成分角来度量子空间的相似 性袁实现多观测样本的分类遥 在此基础上袁 载援 蕴蚤 等咱员圆暂提出 月燥燥泽贼藻凿 全局和局部主成分角联合的分类 算法遥 文献咱 员猿暂 提出 酝酝阅 渊 皂葬灶蚤枣燥造凿鄄皂葬灶蚤枣燥造凿 凿蚤泽鄄 贼葬灶糟藻冤方法袁该方法将典型相关性和局部线性模块 结合起来袁首先用联合局部线性模型的集合来表示 子空间所描述的流形袁从而把 酝酝阅 转换为线性模 块的组合袁最终通过 酝酝阅 的计算来对观测样本进 行分类袁但该方法的计算量和复杂度相对较大遥 宰援 杂援悦澡怎 咱员源暂提出 运阅栽 渊 噪藻则灶藻造 凿蚤泽糟则蚤皂蚤灶葬灶贼 贼则葬灶泽枣燥则皂葬鄄 贼蚤燥灶冤来解决多观测样本的分类问题袁该方法用核子 空间来表示每个样本集袁同时定义一个能使类内核 子空间相似性最大而类间核子空间相似性最小的 运阅栽 矩阵袁从而把多观测样本的分类问题转换为寻 求 运阅栽 矩阵的最优解问题遥 近来袁 耘援 运燥噪蚤燥责燥怎造燥怎 等咱员缘暂在标记传播算法的基础上提出了 酝粤杂悦渊 皂粤灶鄄 蚤枣造燥凿鄄遭葬泽藻凿 泽皂燥燥贼澡蚤灶早 怎灶凿藻则 糟燥灶泽贼则葬蚤灶冤 算法袁该算法 将 噪鄄近邻图运用到多观测样本的分类问题中袁但是 噪鄄近邻图的边权值的计算采用了欧式距离下的高斯 核函数袁而基于欧式距离的测度无法全面反映数据 的空间分布特性遥 由上述可知袁目前的多观测样本分类算法都有 一定的不足和局限性遥 本文在经典 杂灾酝 算法的基 础上袁用 杂灾酝 的相关理论来实现多观测样本的分 类遥 与传统的 杂灾酝 算法相同袁本文方法适用于小样 本情况袁利用核函数解决了非线性问题和维数问题袁 其算法复杂度与样本维数无关遥 然而袁与传统分类 方法的不同在于袁该方法无需对分类器进行训练或 提前对训练集进行特征表示袁而是将测试集和训练 集作为一个整体袁充分利用特征空间中同类样本连 续分布这一特点袁使得分类更加准确遥 第 源 期摇摇摇摇摇摇摇摇摇摇摇摇摇摇 李欢袁等院 支持向量机的多观测样本二分类算法 窑猿怨猿窑
.394. 智能系统学报 第9卷 习所解决的分类问题中,测试集中的样本是属于多 1多观测样本二分类问题的描述 个类别的。因此,经典的半监督学习分类算法并不 多观测样本形成示意图如图1所示。在多观测 适合解决多观测样本二分类问题。同时,目前已有 样本的二分类问题中,若假设测试模式为s,则该问 的多观测样本算法都存在着一定的不足。针对上问 题就是将测试模式的多观测样本确定为2种类别中 题,本文提出了一种新的算法,即基于SVM的多观 的一类。 测样本二分类算法。 11 2基于SVM的多观测样本二分类 2.1支持向量机 支持向量机(support vector machine,.SVM)是一 种基于结构风险最小化(structural risk minimization, SRM)原理,在统计学习理论的基础上发展起来的机 器学习方法[6。SVM的基本实现方法就是在原空 间或者经过投影后的高维空间中构造最优分类面, 并将此分类面作为分类决策面进行数据分类。 SVM最基本的理论是用来解决二分类问题的, SVM的目标就是构造线性最优分类超平面,使其将 图1多观测样本形成示意图 2类样本完全正确地分开,同时使分类间隔最大。 Fig.1 Schematic diagram of producing multiple observations 对于给定的样本集,(x,y),i=1,2,,l,:∈ 假定测试模式s的多测样本为 R,y:=±1,当样本集线性可分时,对应的线性判别 x0=o(s),i=1,2,…,m (1) 函数的一般形式为:g(x)=(w'x)+b,其中w、b为 式中:上标()表示各个观测样本是未标记的,m n维向量,对判别函数作归一化处理,使离分类面最 表示观测样本的数目,(s)表示模式s的第i个单 近的样本满足g(x)=1,则分类间隔等于 观测样本,它可能是模式s经过平移、旋转、缩放或 2/‖wI,使分类间隔最大等价于使Iw‖2最小: 者是透视投影得到的,也可能是模式s在某一特定 要求分类面能将所有样本正确分类,也就是要求它 时刻的观察记录。 满足: 多观测样本二分类问题的数据集可表示为X= y(w'x:+b)≥1,i=1,2,…,n (2) {XD,X@},其中X0={x1,x2,…,x}CR,d为 且使‖w‖2最小的分类面就是最优分类面。 样本维数,X0表示已知标签的样本集,含有1个样 综上所述,最优分类面的求解问题等价于在式 本,X0涵盖了所有类别的数据。X={x+1,+2, (2)的约束下最小化式(3): …,xn}CR,n=l+m,Xm表示未知标签的样本 w)=IwI2=之w (3) 集,含有m个样本,并且所有样本属于同一类别,其 而这一问题可以通过定义拉格朗日函数(式 对应于式(1)的多观测样本,即X={x+1,x1+2,…, (4))来求解: xn}△{x,x,…,x四!。因为二分类问题中的 所用数据样本只属于2个类别,所以可以将数据的 L(w,b,a)=‖wI2/2- ∑a[(wx:+b)-1刂 标签集表示为:Y={-1,+1}。 (4) 综上所述,多观测样本二分类问题可正式定义 式中:a:≥0为Lagrange系数,则问题转换成对w 为:给定已知标签的样本集X和未知标签的样本 和b求Lagrange函数的最小值。式(4)分别对w、b 集X,而X对应于模式s的多观测样本,即 求偏微分,并令结果为零,则有 Xm△{xm=o,(s),j=1,2,…,m},问题就是确定 aL 未知标签的多观测样本的正确类别。其实,多观测 =0→w= ow ∑y (5) 样本二分类问题就是一种特殊的半监督学习,限制 aL 测试集中的所有样本属于同一类别,进而把多观测 b =0=2aX=0 样本作为一个整体进行测试。而在一般的半监督学 将式(5)代入式(4),则原问题可以进一步转化为凸
员摇 多观测样本二分类问题的描述 多观测样本形成示意图如图 员 所示遥 在多观测 样本的二分类问题中袁若假设测试模式为 泽袁 则该问 题就是将测试模式的多观测样本确定为 圆 种类别中 的一类遥 图 员摇 多观测样本形成示意图 云蚤早援员摇 杂糟澡藻皂葬贼蚤糟 凿蚤葬早则葬皂 燥枣 责则燥凿怎糟蚤灶早 皂怎造贼蚤责造藻 燥遭泽藻则增葬贼蚤燥灶泽 摇 摇 假定测试模式 泽 的多测样本为 曾渊怎冤 蚤 越 燥蚤 渊泽冤 袁蚤 越 员袁圆袁噎袁皂 渊员冤 式中院上标 渊怎冤 表示各个观测样本是未标记的袁 皂 表示观测样本的数目袁 燥蚤 渊泽冤 表示模式 泽 的第 蚤 个单 观测样本袁它可能是模式 泽 经过平移尧旋转尧缩放或 者是透视投影得到的袁也可能是模式 泽 在某一特定 时刻的观察记录遥 多观测样本二分类问题的数据集可表示为 载 越 喳载渊造冤 袁载渊怎冤 札 袁其中 载渊造冤 越 喳曾员 袁曾圆 袁噎袁曾造札 奂 砸凿 袁 凿 为 样本维数袁 载渊造冤 表示已知标签的样本集袁含有 造 个样 本袁 载渊造冤 涵盖了所有类别的数据遥 载渊怎冤 越 喳曾造 垣员 袁曾造垣圆 袁 噎袁曾灶 札 奂 砸凿 袁 灶 越 造 垣 皂 袁 载渊怎冤 表示未知标签的样本 集袁含有 皂 个样本袁并且所有样本属于同一类别袁其 对应于式渊员冤的多观测样本袁即 载渊怎冤 越 喳曾造 垣员 袁曾造垣圆 袁噎袁 曾灶 札勖喳曾渊怎冤 员 袁曾渊怎冤 圆 袁噎袁曾渊怎冤 皂 札 遥 因为二分类问题中的 所用数据样本只属于 圆 个类别袁所以可以将数据的 标签集表示为院 再 越 原 员袁 垣 员 遥 综上所述袁多观测样本二分类问题可正式定义 为院给定已知标签的样本集 载渊造冤 和未知标签的样本 集 载渊怎冤 袁而 载渊怎冤 对应于模式 泽 的多观测样本袁 即 载渊怎冤 勖 喳曾躁 渊怎冤 越 燥躁 渊泽冤 袁躁 越 员袁圆袁噎袁皂札 袁问题就是确定 未知标签的多观测样本的正确类别遥 其实袁多观测 样本二分类问题就是一种特殊的半监督学习袁限制 测试集中的所有样本属于同一类别袁进而把多观测 样本作为一个整体进行测试遥 而在一般的半监督学 习所解决的分类问题中袁测试集中的样本是属于多 个类别的遥 因此袁经典的半监督学习分类算法并不 适合解决多观测样本二分类问题遥 同时袁目前已有 的多观测样本算法都存在着一定的不足遥 针对上问 题袁本文提出了一种新的算法袁即基于 杂灾酝 的多观 测样本二分类算法遥 圆摇 基于 杂灾酝 的多观测样本二分类 圆援员摇 支持向量机 支持向量机渊 泽怎责责燥则贼 增藻糟贼燥则 皂葬糟澡蚤灶藻袁 杂灾酝冤是一 种基于结构风险最小化渊 泽贼则怎糟贼怎则葬造 则蚤泽噪 皂蚤灶蚤皂蚤扎葬贼蚤燥灶袁 杂砸酝冤原理袁在统计学习理论的基础上发展起来的机 器学习方法咱员远暂 遥 杂灾酝 的基本实现方法就是在原空 间或者经过投影后的高维空间中构造最优分类面袁 并将此分类面作为分类决策面进行数据分类遥 杂灾酝 最基本的理论是用来解决二分类问题的袁 杂灾酝 的目标就是构造线性最优分类超平面袁使其将 圆 类样本完全正确地分开袁同时使分类间隔最大遥 对于给定的样本集袁 渊曾蚤袁赠蚤冤 袁蚤 越 员袁圆袁噎袁造 袁 曾蚤 沂 砸凿 袁赠蚤 越 依 员袁当样本集线性可分时袁对应的线性判别 函数的一般形式为院 早渊曾冤 越 渊憎栽 曾冤 垣 遭 袁其中 憎尧遭 为 灶 维向量袁对判别函数作归一化处理袁使离分类面最 近的样本满足 早渊曾冤 越 员袁 则分类间隔等于 圆 辕 椰憎椰袁 使分类间隔最大等价于使 椰憎椰圆 最小曰 要求分类面能将所有样本正确分类袁也就是要求它 满足院 赠蚤 渊憎栽 曾蚤 垣 遭冤 逸 员袁蚤 越 员袁圆袁噎袁灶 渊圆冤 且使 椰憎椰圆 最小的分类面就是最优分类面遥 综上所述袁最优分类面的求解问题等价于在式 渊圆冤的约束下最小化式渊猿冤院 椎渊憎冤 越 员 圆 椰憎椰圆 越 员 圆 憎栽 憎 渊猿冤 摇 摇 而这一问题可以通过定义拉格朗日函数渊式 渊源冤冤来求解院 蕴渊憎袁遭袁葬冤 越 椰憎椰圆 辕 圆 原 移 灶 蚤 越 员 琢蚤咱赠蚤 渊憎栽 曾蚤 垣 遭冤 原 员暂 渊源冤 式中院 琢蚤 逸 园 为 蕴葬早则葬灶早藻 系数袁则问题转换成对 憎 和 遭 求 蕴葬早则葬灶早藻 函数的最小值遥 式渊源冤分别对 憎尧遭 求偏微分袁并令结果为零袁则有 鄣蕴 鄣憎 越 园圯憎 越 移 灶 蚤 越 员 琢蚤赠蚤曾蚤 鄣蕴 鄣遭 越 园圯移 灶 蚤 越 员 琢蚤赠蚤 越 园 渊缘冤 将式渊缘冤代入式渊源冤袁则原问题可以进一步转化为凸 窑猿怨源窑 智 能 系 统 学 报摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇 第 怨 卷
第4期 李欢,等:支持向量机的多观测样本二分类算法 ·395· 二次规划的对偶问题: 2.2基于SVM的多观测样本二分类 mas-p 由于支持向量机具有结构简单、推广性能好、优 化求解时具有惟一最优解等优点,本文将用SVM的 =1 相关理论来解决多观测样本二分类问题,确定多观 s.t. a≥0,i=1,2,…,n (6) g%0 测样本的类别。根据SVM的原理可知,SVM要解 决的数学问题为 在式(6)所得的结果中,只有少数的α:不等于 min21w2+c}车 零,其对应的样本离最优分类面最近,这些样本被称 s.t.y:(wp(x)+b)≥1-专,i=1,2,,n 为支持向量。上述问题存在惟一最优解,若最优解 5:≥0,i=1,2,…,n 为a,”,则w=∑ayx,b可由式(2)取等号 (7) 时得到,因此,最终的最优分类函数为 而从多观测样本二分类问题的描述可知,二分 f(x)=sg((w)'x+b·)= 类问题中的所有数据只属于2个类别,数据的标签 集为{-1,+1},设多观测样本集X)的标签为 m(宫a+b) y,则y=-1或y=+1。因此可以通过假设多观测 对于样本集非线性可分的情况,可以先把原始 样本的标签来增加式(7)的约束条件: 空间的样本集通过非线性变换”映射到一个高维 1 min2 IwI2+c∑专 的特征空间,使得样本集在新的空间线性可分,然后 构造最优分类平面。这种非线性变换可以通过引入 st.y:(wp(x)+b)≥1-5,i=1,2,,l 适当的核函数来实现,用k(x:,x)=P(x:)·p() y(w'p(x)+b)≥1,j=l+1,2,…,n 代替线性可分情况下的点积(x,),式(6)中的优 y41=142=…=yn=y 化函数变为 5≥0,i=1,2,…,l Q(a)= 0,ayyk(r,x)/2 (8) =1 可以先假设y=-1,求解得到目标函数值g1。 最终的分类函数为 再假设y=+1,求解得到目标函数值g2。只有当假 fx)=sg(∑ayk(x,x)+b) 设的标签与多观测样本的实际标签相同时,相应得 到的目标函数值才是最优解。因此,可以通过比较 在线性不可分的问题中,SVM还引入了惩罚因 两次得到的目标函数值来确定待测试的多观测样本 子C和松弛变量专,此时最优分类面的求解问题可 的标签。如式(9)所示: 描述为 -1,81>82 (9) min wC y= +1,81≤82 为求解式(8)所述的优化问题,引入拉格朗日 s.t.y(wp(x:)+b)≥1-,i=1,2,,n 函数L: ≥0,i=1,2,…,n 同样地,通过定义拉格朗日函数的方法可以将 (w,b,5,aB)=2Iw2+C:- 原问题转换为凸二次规划的对偶问题: ∑a,[y(w'e(x)+b)-1+]- max∑a:-2,a ayiyk(x:) a i=l 2r右.-2B,[(w'(x)+b)-1](10) s.t. 0≤a:≤C,i=1,2,,n 式中:a:B:J:为Lagrange系数,a:≥0,B,≥0,:≥ 0,5:≥0。要使函数L关于w、b、5:最小化,由极值 存在的必要条件可知,函数L的极值满足下列条件: 对应的最优分类函数为 (aL/aw =0 aL/ab=0 (11) f(x)sgn(aiyk(x.x)+b') aL/aξ:=0
二次规划的对偶问题院 皂葬曾 琢 移 灶 蚤 越 员 琢蚤 原 移 灶 蚤袁躁 越 员 琢蚤琢躁 赠蚤赠躁 曾蚤 栽 曾躁 辕 圆 泽援贼援摇 琢蚤 逸 园袁蚤 越 员袁圆袁噎袁灶 移 灶 蚤 越 员 琢蚤赠蚤 越 园 渊远冤 摇 摇 在式渊远冤所得的结果中袁只有少数的 琢蚤 不等于 零袁其对应的样本离最优分类面最近袁这些样本被称 为支持向量遥 上述问题存在惟一最优解袁若最优解 为 琢蚤 鄢 袁则 憎鄢 越 移 灶 蚤 越 员 琢鄢 蚤 赠蚤曾蚤袁 遭鄢 可由式渊圆冤取等号 时得到袁因此袁最终的最优分类函数为 枣渊曾冤 越 泽早灶渊渊憎鄢冤 栽 曾 垣 遭鄢冤 越 泽早灶渊移 灶 蚤 越 员 琢鄢 蚤 赠蚤曾蚤 栽 曾 垣 遭鄢冤 摇 摇 对于样本集非线性可分的情况袁可以先把原始 空间的样本集通过非线性变换 渍 映射到一个高维 的特征空间袁使得样本集在新的空间线性可分袁然后 构造最优分类平面遥 这种非线性变换可以通过引入 适当的核函数来实现袁用 噪渊曾蚤袁曾躁 冤 越 渍渊曾蚤冤窑渍渊曾躁 冤 代替线性可分情况下的点积 渊曾栽 蚤 袁曾躁 冤 袁式渊远冤中的优 化函数变为 匝渊琢冤 越 移 灶 蚤 越 员 琢蚤 原 移 灶 蚤袁躁 越 员 琢蚤琢躁 赠蚤赠躁 噪渊曾蚤袁曾躁 冤 辕 圆 最终的分类函数为 枣渊曾冤 越 泽早灶渊移 灶 蚤 越 员 琢鄢 蚤 赠蚤噪渊曾蚤袁曾冤 垣 遭鄢冤 摇 摇 在线性不可分的问题中袁杂灾酝 还引入了惩罚因 子 悦 和松弛变量 孜 袁此时最优分类面的求解问题可 描述为 皂蚤灶 椰憎椰圆 辕 圆 垣 悦移 灶 蚤 越 员 孜蚤 泽援贼援摇 赠蚤 渊憎栽 渍渊曾蚤冤 垣 遭冤逸员 原 孜蚤袁蚤 越 员袁圆袁援援援袁灶 孜蚤 逸 园袁蚤 越 员袁圆袁噎袁灶 摇 摇 同样地袁通过定义拉格朗日函数的方法可以将 原问题转换为凸二次规划的对偶问题院 皂葬曾 琢 移 灶 蚤 越 员 琢蚤 原 员 圆 移 灶 蚤袁躁 越 员 琢蚤琢躁 赠蚤赠躁 噪渊曾蚤袁曾躁 冤 泽援贼援摇 园 臆 琢蚤 臆 悦袁蚤 越 员袁圆袁援援援袁灶 移 灶 蚤 越 员 琢蚤赠蚤 越 园 对应的最优分类函数为 枣渊曾冤 越 泽早灶渊移 灶 蚤 越 员 琢鄢 蚤 赠蚤噪渊曾蚤袁曾冤 垣 遭鄢冤 圆援圆摇 基于 杂灾酝 的多观测样本二分类 由于支持向量机具有结构简单尧推广性能好尧优 化求解时具有惟一最优解等优点袁本文将用 杂灾酝 的 相关理论来解决多观测样本二分类问题袁确定多观 测样本的类别遥 根据 杂灾酝 的原理可知袁杂灾酝 要解 决的数学问题为 皂蚤灶 员 圆 椰憎椰圆 垣 悦移 灶 蚤 越 员 孜蚤 泽援贼援 赠蚤 渊憎栽 渍渊曾蚤冤 垣 遭冤逸员 原 孜蚤袁蚤 越 员袁圆袁援援援袁灶 孜蚤 逸 园袁蚤 越 员袁圆袁噎袁灶 渊苑冤 摇 摇 而从多观测样本二分类问题的描述可知袁二分 类问题中的所有数据只属于 圆 个类别袁数据的标签 集为 原 员袁 垣 员 袁设多观测样本集 载渊怎冤 的标签为 赠 袁则 赠 越 原 员 或 赠 越 垣 员遥 因此可以通过假设多观测 样本的标签来增加式渊苑冤的约束条件院 皂蚤灶 员 圆 椰憎椰圆 垣 悦移 造 蚤 越 员 孜蚤 泽援贼援摇 赠蚤 渊憎栽 渍渊曾蚤冤 垣 遭冤逸员 原 孜蚤袁蚤 越 员袁圆袁援援援袁造 赠躁 渊憎栽 渍渊曾躁 冤 垣 遭冤 逸 员袁躁 越 造 垣 员袁圆袁援援援袁灶 赠造垣员 越 赠造垣圆 越 噎 越 赠灶 越 赠 孜蚤 逸 园袁蚤 越 员袁圆袁噎袁造 渊愿冤 摇 摇 可以先假设 赠 越 原 员袁求解得到目标函数值 早员 遥 再假设 赠 越 垣 员袁求解得到目标函数值 早圆 遥 只有当假 设的标签与多观测样本的实际标签相同时袁相应得 到的目标函数值才是最优解遥 因此袁可以通过比较 两次得到的目标函数值来确定待测试的多观测样本 的标签遥 如式渊怨冤所示院 赠 赞 越 原 员袁早员 跃 早圆 垣 员袁早员 臆 早圆 渊怨冤 摇 摇 为求解式渊愿冤所述的优化问题袁引入拉格朗日 函数 蕴 院 蕴渊憎袁遭袁孜蚤袁琢蚤袁茁蚤袁则蚤冤 越 员 圆 椰憎椰圆 垣 悦移 造 蚤 越 员 孜蚤 原 移 造 蚤 越 员 琢蚤 咱赠蚤 渊憎栽 渍渊曾蚤冤 垣 遭冤 原 员 垣 孜蚤暂 原 移 造 蚤 越 员 则蚤孜蚤 原 移 灶 蚤 越 造垣员 茁蚤咱赠渊憎栽 渍渊曾蚤冤 垣 遭冤 原 员暂 渊员园冤 式中院 琢蚤尧茁蚤尧则蚤 为 蕴葬早则葬灶早藻 系数袁 琢蚤 逸 园袁茁蚤 逸 园袁则蚤 逸 园袁孜蚤 逸 园遥 要使函数 蕴 关于 憎尧遭尧孜蚤 最小化袁由极值 存在的必要条件可知袁函数 蕴 的极值满足下列条件院 鄣蕴 辕 鄣憎 越 园 鄣蕴 辕 鄣遭 越 园 鄣蕴 辕 鄣孜蚤 越 园 渊员员冤 第 源 期摇摇摇摇摇摇摇摇摇摇摇摇摇摇 李欢袁等院 支持向量机的多观测样本二分类算法 窑猿怨缘窑
·396 智能系统学报 第9卷 解方程(11)可得 3多图像样本集的分类 w=∑ayg(x)+】 3.1手写数字分类 a+A=0 (12) 为了验证基于SVM的多观测样本二分类算法 的有效性,首先在手写数字数据库上进行实验。同 C-a-:=0 类数字不同形式的手写图像组成多观测样本集,对 将式(12)代入式(10)得到优化问题式(8)的对 此类样本集进行分类。实验中,使用2种不同的数 偶形式,即关于α:、B的最大化函数: 据库:Binary手写数字数据库和USPS手写数字数 据库。Binary数据库包含0~9共10类数字的手写 i=l+1 图像,每类数字有39个样本,每个样本用大小为 号多2P明ow)-名豆aA》 20×16的二值图像表示。USPS数据库由0~9共10 类手写数字组成,每类数字有1100个样本,每个样 s.t.0≤a≤C,i=1,2,,l 本用大小为16×16的灰度图像表示。 B≥0,i=l+1,2,,n 模式变换的鲁棒性是多观测样本分类的一种重 a+r=0 要特性。可以使用虚拟样本来扩充已标记样本集, j=1+1 从而加强分类算法的抗变换性。虚拟样本一般通过 原始样本的变换产生,虚拟样本的类别与原始样本 (13) 若设Y=[y1…y1y41…yJT,因为 相同,因此是已知标签的已标记样本。通过在数据 y+1=y+2=…=yn=y,所以Y= 集中添加虚拟样本,分类算法对测试样本的鲁棒性 [y1…yy…yT。令0=[11… 更强。因此,在本文所提的算法中使用这一方法,在 1],A= [a1…aB+1…B]T,则式(13)变为 原始数据集中添加大小为n的样本集X,数据 集变为:X={X0,X),X}。实验中,核函数选 max OA-A((YY)·K)A (14) 2 用高斯核函数,即:(x,y)=exp(- 可以看到,通过求解式(14)可以能得到两次标 ‖x-y‖2/2o2)。为计算参数σ的大小,在数据 签假设对应的目标函数值g,和g2,从而根据式(9) 集X中随机选取1000个样本,并计算两两样本之 确定待测试的多观测样本的标签。 间的欧式距离,σ设置为所有距离的中值的1/2。 2.3基于SVM的多观测样本二分类的算法描述 对于每类数字,首先从对应样本中随机抽取2 基于SVM的多观测样本二分类的算法如下: 个样本组成训练集,剩下的样本组成测试集。再对 输人: 训练集中的每个样本做连续的4次旋转变换,得到 X0、Y):已标记样本集和它的标签集; 的样本放在训练集中,其中旋转角0从[-40°,40°] X):多观测样本集: 的均匀采样序列中得到。这样的区间能避免“6”和 l:已标记样本的数目; “9”2类数字的混淆。为了建立每类数字的多观测 m:多观测样本数目。 样本数据集X),从每类数字的测试集中随机选取 输出: 一个样本并对这个样本进行旋转变换,旋转角0∈ y:多观测样本的类别。 [-40°,40°]。每次测试时,选取2类不同的数字 处理: 进行实验,共有45种组合,即(0,1),(0,2),…, 1)由X四和X)得到样本矩阵X,XCRx4,由 (7,8),(7,9),(8,9)。再由这2类数字的训练样 YD得到标签矩阵Y; 本共同组成算法的训练集X④,而对应的测试集作 2)计算样本矩阵X对应的核矩阵K; 为算法的测试集,即多观测样本。该实验对不同大 3)设y=-1,求解优化问题:max OA- 小的多观测样本进行了实验,样本数m=[5:5: A'(YY)·K)A/2,得到g1;设y=+1,求解优化问 40]。对于不同大小的数据集X,45种组合中的 题:max OA-A'(YY)·K)A/2,得到g2; 每个组合进行10次随机实验,每个组合要对2个测 4)若g1>82则y=-1,否则y=+1。 试集进行测试,所以实验中的每个结果都是900次
解方程渊员员冤可得 憎 越 移 造 蚤 越 员 琢蚤赠蚤渍渊曾蚤冤 垣 移 灶 躁 越 造垣员 茁躁 赠渍渊曾躁 冤 移 造 蚤 越 员 琢蚤赠蚤 垣 移 灶 躁 越 造垣员 茁躁 赠 越 园 悦 原 琢蚤 原 则蚤 越 园 渊员圆冤 摇 摇 将式渊员圆冤代入式渊员园冤得到优化问题式渊愿冤的对 偶形式袁即关于 琢蚤尧 茁躁 的最大化函数院 皂葬曾移 造 蚤 越 员 琢蚤 垣 移 灶 蚤 越 造垣员 茁蚤 原 员 圆 移 造 蚤 越 员 移 造 躁 越 员 琢蚤琢躁 赠蚤赠躁 噪渊曾蚤袁曾躁 冤 原 员 圆 移 灶 蚤 越 造 垣员 移 灶 躁 越 造垣员 茁蚤茁躁 赠蚤赠躁 噪渊曾蚤袁曾躁 冤 原 移 造 蚤 越 员 移 灶 躁 越 造 垣员 琢蚤茁躁 赠蚤赠躁 噪渊曾蚤袁曾躁 冤 泽援贼援摇 园 臆 琢蚤 臆 悦袁蚤 越 员袁圆袁援援援袁造 茁蚤 逸 园袁蚤 越 造 垣 员袁圆袁援援援袁灶 移 造 蚤 越 员 琢蚤赠蚤 垣 移 灶 躁 越 造垣员 茁躁 赠 越 园 渊员猿冤 摇 摇 若设 再 越 赠员 噎 赠造 赠造垣员 噎 赠 灶 栽 袁因为 赠造 垣员 越 赠造垣圆 越 噎 越 赠灶 越 赠 袁 所 以 再 越 赠员 噎 赠造 赠 噎 赠 栽 遥 令 韵 越 员员噎员 袁 粤 越 琢员 噎琢造 茁造 垣员 噎 茁灶 栽 袁则式渊员猿冤变为 皂葬曾 韵粤 原 员 圆 粤栽 渊 渊再再栽 冤窑运冤粤 渊员源冤 摇 摇 可以看到袁通过求解式渊员源冤可以能得到两次标 签假设对应的目标函数值 早员 和 早圆 袁从而根据式渊怨冤 确定待测试的多观测样本的标签遥 圆援猿摇 基于 杂灾酝 的多观测样本二分类的算法描述 基于 杂灾酝 的多观测样本二分类的算法如下院 输入院 载渊造冤 尧 再渊造冤 院已标记样本集和它的标签集曰 载渊怎冤 院多观测样本集曰 造 院已标记样本的数目曰 皂 院多观测样本数目遥 输出院 赠 赞 院多观测样本的类别遥 处理院 员冤由 载渊造冤 和 载渊怎冤 得到样本矩阵 载袁载奂砸灶伊凿 袁由 再渊造冤 得到标签矩阵 再曰 圆冤计算样本矩阵 载 对应的核矩阵 运曰 猿冤 设 赠 越 原 员袁 求解优化问题院 皂葬曾 韵粤 原 粤栽 渊 渊再再栽 冤窑运冤粤辕 圆袁得到 早员 曰设 赠 越 垣 员袁求解优化问 题院 皂葬曾 韵粤 原 粤栽 渊 渊再再栽 冤窑运冤粤辕 圆袁得到 早圆 曰 源冤若 早员 跃 早圆 则 赠 赞 越 原 员袁否则 赠 赞 越 垣 员遥 猿摇 多图像样本集的分类 猿援员摇 手写数字分类 为了验证基于 杂灾酝 的多观测样本二分类算法 的有效性袁首先在手写数字数据库上进行实验遥 同 类数字不同形式的手写图像组成多观测样本集袁对 此类样本集进行分类遥 实验中袁使用 圆 种不同的数 据库院月蚤灶葬则赠 手写数字数据库和 哉杂孕杂 手写数字数 据库遥 月蚤灶葬则赠 数据库包含 园耀怨 共 员园 类数字的手写 图像袁每类数字有 猿怨 个样本袁每个样本用大小为 圆园伊员远 的二值图像表示遥 哉杂孕杂 数据库由 园耀怨 共 员园 类手写数字组成袁每类数字有 员 员园园 个样本袁每个样 本用大小为 员远伊员远 的灰度图像表示遥 模式变换的鲁棒性是多观测样本分类的一种重 要特性遥 可以使用虚拟样本来扩充已标记样本集袁 从而加强分类算法的抗变换性遥 虚拟样本一般通过 原始样本的变换产生袁虚拟样本的类别与原始样本 相同袁因此是已知标签的已标记样本遥 通过在数据 集中添加虚拟样本袁分类算法对测试样本的鲁棒性 更强遥 因此袁在本文所提的算法中使用这一方法袁在 原始数据集中添加大小为 灶增泽 的样本集 载渊增泽冤 袁数据 集变为院 载 越 喳载渊造冤 袁载渊增泽冤 袁载渊怎冤 札 遥 实验中袁核函数选 用高斯核函数袁 即院 噪 曾 袁赠 越 藻曾责渊 原 椰曾 原 赠椰圆 辕 圆滓圆 冤 遥 为计算参数 滓 的大小袁在数据 集 载 中随机选取 员 园园园 个样本袁并计算两两样本之 间的欧式距离袁 滓 设置为所有距离的中值的 员 辕 圆遥 对于每类数字袁首先从对应样本中随机抽取 圆 个样本组成训练集袁剩下的样本组成测试集遥 再对 训练集中的每个样本做连续的 源 次旋转变换袁得到 的样本放在训练集中袁其中旋转角 兹 从 咱 原 源园毅 袁源园毅 暂 的均匀采样序列中得到遥 这样的区间能避免野远冶和 野怨冶 圆 类数字的混淆遥 为了建立每类数字的多观测 样本数据集 载渊怎冤 袁从每类数字的测试集中随机选取 一个样本并对这个样本进行旋转变换袁旋转角 兹 沂 咱 原 源园毅 袁源园毅 暂 遥 每次测试时袁选取 圆 类不同的数字 进行实验袁共有 源缘 种组合袁即 渊园袁员冤 袁 渊园袁圆冤 袁噎袁 渊苑袁愿冤 袁渊苑袁怨冤 袁 渊愿袁怨冤 遥 再由这 圆 类数字的训练样 本共同组成算法的训练集 载渊贼冤 袁而对应的测试集作 为算法的测试集袁即多观测样本遥 该实验对不同大 小的多观测样本进行了实验袁样本数 皂 越 咱缘院缘院 源园暂 遥 对于不同大小的数据集 载渊怎冤 袁源缘 种组合中的 每个组合进行 员园 次随机实验袁每个组合要对 圆 个测 试集进行测试袁所以实验中的每个结果都是 怨园园 次 窑猿怨远窑 智 能 系 统 学 报摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇 第 怨 卷