第17卷第2期 智能系统学报 Vol.17 No.2 2022年3月 CAAI Transactions on Intelligent Systems Mar.2022 D0:10.11992/tis.202012019 网络出版地址:https:/ns.cnki.net/kcms/detail/23.1538.TP.20210621.1427.002.html 对不平衡目标域的多源在线迁移学习 周晶雨,王士同 (江南大学人工智能与计算机学院,江苏无锡214122) 摘要:多源在线迁移学习已经广泛地应用于相关源域中含有大量的标记数据且目标域中数据以数据流的形 式达到的应用中。然而,目标域的类别分布有时是不平衡的,针对目标域每次以在线方式到达多个数据的不平 衡二分类问题,本文提出了一种可以对目标域样本过采样的多源在线迁移学习算法。该算法从前面批次的样 本中寻找当前批次的样本的k近邻,先少量生成多数类样本,再生成少数类使得当前批次样本的类别分布平 衡。每个批次合成样本和真实样本一同训练目标域函数,从而提升目标域函数的分类性能。同时,分别设计了 在目标域的输入空间和特征空间过采样的方法,并且在多个真实世界数据集上进行了综合实验,证明了所提出 算法的有效性。 关键词:多源迁移学习:在线学习;目标域:不平衡数据:过采样:k近邻:输入空间:特征空间 中图分类号:TP181文献标志码:A文章编号:1673-4785(2022)02-0248-09 中文引用格式:周晶雨,王士同.对不平衡目标域的多源在线迁移学习.智能系统学报,2022,17(2):248-256. 英文引用格式:ZHOU Jingyu,.WANG Shitong.Multi--source online transfer learning for imbalanced target domainsJ.CAAI transactions on intelligent systems,2022,17(2):248-256. Multi-source online transfer learning for imbalanced target domains ZHOU Jingyu,WANG Shitong (School of Artificial Intelligence and Computer Science,Jiangnan University,Wuxi 214122,China) Abstract:Multi-source online transfer learning has been widely used in applications where the relevant source domain contains a large amount of labeled data and the data in the target domain is achieved in the form of data flow.However, the class distribution of the target domain is sometimes imbalanced.Aiming at the unbalanced binary classification prob- lem wherein the target domain reaches multiple data online at a time,this paper proposes a multi-source online transfer learning algorithm by means of oversampling the target domain samples.First,the algorithm finds the k-nearest neigh- bors of the current batch of samples from the previous batch,then generates a small number of majority class samples, finally generating a minority class to balance the class distribution of the current batch of samples.Each batch of syn- thetic and real samples train the target domain function together,thereby improving the classification performance of the target domain function.At the same time,methods for oversampling in the input space and feature space of the target domain are designed respectively,and comprehensive experiments are conducted on multiple real-world data sets to prove the effectiveness of the proposed algorithm. Keywords:multi-source transfer learning;online learning;target domain;imbalanced data;oversampling;k-nearest neighbor,input space;feature space 迁移学习的主要目的是利用源域的知识来提 息,可以解决目标域的训练数据有限或标记成本 高目标域的学习性能,多年来进行了广泛的研究"。 太高的问题。在许多实际应用中,与目标域分布 使用一些分布相似的现有数据来提取有用的信 相似的离线源域有多个,所以可以轻松地从这些 源域中收集辅助信息。为了应对不同来源对与目 收稿日期:2020-12-16.网络出版日期:2021-06-21. 基金项目:国家自然科学基金项目(61572236). 标域的贡献不同的问题,许多复杂的基于提升方 通信作者:王士同.E-mail:wxwangst(@aliyun.com 法的多源迁移学习算法1被设计。基于提升方
DOI: 10.11992/tis.202012019 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210621.1427.002.html 对不平衡目标域的多源在线迁移学习 周晶雨,王士同 (江南大学 人工智能与计算机学院,江苏 无锡 214122) 摘 要:多源在线迁移学习已经广泛地应用于相关源域中含有大量的标记数据且目标域中数据以数据流的形 式达到的应用中。然而,目标域的类别分布有时是不平衡的,针对目标域每次以在线方式到达多个数据的不平 衡二分类问题,本文提出了一种可以对目标域样本过采样的多源在线迁移学习算法。该算法从前面批次的样 本中寻找当前批次的样本的 k 近邻,先少量生成多数类样本,再生成少数类使得当前批次样本的类别分布平 衡。每个批次合成样本和真实样本一同训练目标域函数,从而提升目标域函数的分类性能。同时,分别设计了 在目标域的输入空间和特征空间过采样的方法,并且在多个真实世界数据集上进行了综合实验,证明了所提出 算法的有效性。 关键词:多源迁移学习;在线学习;目标域;不平衡数据;过采样;k 近邻;输入空间;特征空间 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2022)02−0248−09 中文引用格式:周晶雨, 王士同. 对不平衡目标域的多源在线迁移学习 [J]. 智能系统学报, 2022, 17(2): 248–256. 英文引用格式:ZHOU Jingyu, WANG Shitong. Multi-source online transfer learning for imbalanced target domains[J]. CAAI transactions on intelligent systems, 2022, 17(2): 248–256. Multi-source online transfer learning for imbalanced target domains ZHOU Jingyu,WANG Shitong (School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China) Abstract: Multi-source online transfer learning has been widely used in applications where the relevant source domain contains a large amount of labeled data and the data in the target domain is achieved in the form of data flow. However, the class distribution of the target domain is sometimes imbalanced. Aiming at the unbalanced binary classification problem wherein the target domain reaches multiple data online at a time, this paper proposes a multi-source online transfer learning algorithm by means of oversampling the target domain samples. First, the algorithm finds the k-nearest neighbors of the current batch of samples from the previous batch, then generates a small number of majority class samples, finally generating a minority class to balance the class distribution of the current batch of samples. Each batch of synthetic and real samples train the target domain function together, thereby improving the classification performance of the target domain function. At the same time, methods for oversampling in the input space and feature space of the target domain are designed respectively, and comprehensive experiments are conducted on multiple real-world data sets to prove the effectiveness of the proposed algorithm. Keywords: multi-source transfer learning; online learning; target domain; imbalanced data; oversampling; k-nearest neighbor; input space; feature space 迁移学习的主要目的是利用源域的知识来提 高目标域的学习性能,多年来进行了广泛的研究[1]。 使用一些分布相似的现有数据来提取有用的信 息,可以解决目标域的训练数据有限或标记成本 太高的问题。在许多实际应用中,与目标域分布 相似的离线源域有多个,所以可以轻松地从这些 源域中收集辅助信息。为了应对不同来源对与目 标域的贡献不同的问题,许多复杂的基于提升方 法的多源迁移学习算法[2-3] 被设计。基于提升方 收稿日期:2020−12−16. 网络出版日期:2021−06−21. 基金项目:国家自然科学基金项目 (61572236). 通信作者:王士同. E-mail:wxwangst@aliyun.com. 第 17 卷第 2 期 智 能 系 统 学 报 Vol.17 No.2 2022 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2022
第2期 周晶雨,等:对不平衡目标域的多源在线迁移学习 ·249· 法的算法根据贡献高低对多个源域附加权重来生 相对平衡。考虑到不同批次的样本之间的特征分 成集成分类器,合理利用每个源域的知识。 布可能发生细微的偏移,生成样本时控制合成样 多源迁移学习通过多个源域中提取的知识来 本近似于当前批次中的样本。最后用新生成的样 改善目标域上的学习任务的性能,近年来得到了越 本去改进目标函数,然后再对当前批次的所有样 来越多的关注。Qian等提出了一个多域鲁棒优 本按序进行在线迁移学习,从而提升整体分类器对 化的框架,用于学习多个域的单一模型。Huffman 少数类的分类性能。此外,还分别设计了在目标 等阿提出了一种确定交叉熵损失和其他损失分布 域的输入空间和特征空间过采样的方法。在目标 加权组合解的多源自适应算法。Peng等提出了 域的输入空间生成数据点来平衡类别分布,可以 多源域自适应矩匹配方法,利用多源域特征分布 提高目标函数对少数类的分类性能,但也可能生 的矩进行动态对齐,将知识从多标记源域转移到 成不代表非线性可分问题的数据点,影响函数精 未标记目标域。Kang等提出了一种在线多源 度。所以设计了在目标域特征空间过采样的方法, 多分类转移学习算法。这些现有的算法可以从多 与文献[16]不同,本文的方法在特征空间生成数 个源域迁移知识到目标域,而本文的目标是解决 据点来训练在线的函数,生成少数样本会导致类 源域和目标域数据类别不平衡的多源在线迁移学 别分布得更具代表性,可以克服非线性问题的局限。 习问题。 现有的大多数迁移学习工作都假设事先提供 1在线迁移学习 了源域和目标域的训练数据。但是,在某些实 简要介绍多源在线迁移学习算法HomOTLMS.。 际应用中,目标域的数据可能以在线的方式到 HomOTLMS根据预先给出的源域数据,在离线 达。近十年,在线学习得到了广泛的研究。 批处理学习范式中构建n个源域的决策函数 在线学习中,分类器在每个回合中接收一个实例 (,,…,)。而在线部分使用被动攻击算法 及其标签,然后预测该实例,并根据预测结果和 (passive aggressive,PA)I7,在目标域上构造一个以 真实标签的损失信息更新分类器。Wang等 在线的方式更新的决策函数,T为目标函数。 提出一种基于最大最小概率机的迁移学习分类算 对于当前到达的实例x,计算目标域决策函数的 法。Zhao等21提出一种可以立即响应的且高效 铰链损失: 的在线学习算法来解决在线迁移学习任务。等间 C,=max(0,1-yh(x》 (1) 提出了一种具有多个源域的在线迁移学习算法, 如果决策函数遭受非零损失,则根据式(2)更 当目标数据到达时,多个源域分类器和目标域分 新目标域函数和添加支持向量: 类器同时做出预测,根据各分类器的权重组合最 =+y) (2) 终预测结果,并更新各分类器的权重。 式中:支持向量系数T=min(C,C/k(x,x从,k,)是 目前,大多数在线迁移学习都默认目标域的 核函数。 类别分布是平衡的,然而现实中存在很多不平衡的 然后使用一个权重向量=(以,,…,)和一 数据。例如,机器的故障诊断,医疗诊断以及军 个权重变量w,去分别表示n个源决策函数和目 事应用等。在大多数现实世界的问题中,少数类 标决策函数的权重。对于做出错误预测的决策函 实例的错误分类代价往往很大,减少少数类错误 数,需要将其权重降低。对于源决策函数,令 分类是至关重要的。处理不平衡数据集的方法可 +1=;对于目标决策函数,令w1=w,a,其中 以分为对数据的采样方法、成本敏感方法和算 α∈(0,1)是权重折扣参数。与此同时要保持所有 法级方法。采样方法对数据集进行预处理,将 决策函数前面的权重之和为1,所以需要归一化 类别修改至相对平衡。成本敏感方法对错误分类 权重,即 少数类实例的决策函数施加更大的惩罚。算法级 的方法直接修改分类器来处理不平衡问题。 (3 因此,本文提出一种针对目标域不平衡的多 源在线迁移学习算法。其中,目标域每次到达一 式中:卫和9分别是第j个实例到来时,第i个源 批数据。在算法中,从前面已经到达的批次中寻 决策函数和目标决策函数前面的权重。所以最终 找当前批次样本的k近邻,形成种子和邻居对。然 集成的决策函数为 后在样本对之间的线段上适量生成合成的多数类 (4 样本,再合成少数类样本使当前批次的类别分布 fe=ePsie+i(
法的算法根据贡献高低对多个源域附加权重来生 成集成分类器,合理利用每个源域的知识。 多源迁移学习通过多个源域中提取的知识来 改善目标域上的学习任务的性能,近年来得到了越 来越多的关注。Qian 等 [4] 提出了一个多域鲁棒优 化的框架,用于学习多个域的单一模型。Huffman 等 [5] 提出了一种确定交叉熵损失和其他损失分布 加权组合解的多源自适应算法。Peng 等 [6] 提出了 多源域自适应矩匹配方法,利用多源域特征分布 的矩进行动态对齐,将知识从多标记源域转移到 未标记目标域。Kang 等 [7] 提出了一种在线多源 多分类转移学习算法。这些现有的算法可以从多 个源域迁移知识到目标域,而本文的目标是解决 源域和目标域数据类别不平衡的多源在线迁移学 习问题。 现有的大多数迁移学习工作都假设事先提供 了源域和目标域的训练数据[8]。但是,在某些实 际应用中,目标域的数据可能以在线的方式到 达。近十年,在线学习[9-10] 得到了广泛的研究。 在线学习中,分类器在每个回合中接收一个实例 及其标签,然后预测该实例,并根据预测结果和 真实标签的损失信息更新分类器。Wang 等 [11] 提出一种基于最大最小概率机的迁移学习分类算 法。Zhao 等 [12] 提出一种可以立即响应的且高效 的在线学习算法来解决在线迁移学习任务。Wu 等 [13] 提出了一种具有多个源域的在线迁移学习算法, 当目标数据到达时,多个源域分类器和目标域分 类器同时做出预测,根据各分类器的权重组合最 终预测结果,并更新各分类器的权重。 目前,大多数在线迁移学习都默认目标域的 类别分布是平衡的,然而现实中存在很多不平衡的 数据。例如,机器的故障诊断,医疗诊断以及军 事应用等。在大多数现实世界的问题中,少数类 实例的错误分类代价往往很大,减少少数类错误 分类是至关重要的。处理不平衡数据集的方法可 以分为对数据的采样方法[14] 、成本敏感方法和算 法级方法[15]。采样方法对数据集进行预处理,将 类别修改至相对平衡。成本敏感方法对错误分类 少数类实例的决策函数施加更大的惩罚。算法级 的方法直接修改分类器来处理不平衡问题。 因此,本文提出一种针对目标域不平衡的多 源在线迁移学习算法。其中,目标域每次到达一 批数据。在算法中,从前面已经到达的批次中寻 找当前批次样本的 k 近邻,形成种子和邻居对。然 后在样本对之间的线段上适量生成合成的多数类 样本,再合成少数类样本使当前批次的类别分布 相对平衡。考虑到不同批次的样本之间的特征分 布可能发生细微的偏移,生成样本时控制合成样 本近似于当前批次中的样本。最后用新生成的样 本去改进目标函数,然后再对当前批次的所有样 本按序进行在线迁移学习,从而提升整体分类器对 少数类的分类性能。此外,还分别设计了在目标 域的输入空间和特征空间过采样的方法。在目标 域的输入空间生成数据点来平衡类别分布,可以 提高目标函数对少数类的分类性能,但也可能生 成不代表非线性可分问题的数据点,影响函数精 度。所以设计了在目标域特征空间过采样的方法, 与文献 [16] 不同,本文的方法在特征空间生成数 据点来训练在线的函数,生成少数样本会导致类 别分布得更具代表性,可以克服非线性问题的局限。 1 在线迁移学习 (h S 1 ,h S 2 ,··· ,h S n ) h T xj 简要介绍多源在线迁移学习算法 HomOTLMS。 HomOTLMS 根据预先给出的源域数据,在离线 批处理学习范式中构建 n 个源域的决策函数 。而在线部分使用被动攻击算法 (passive aggressive, PA)[17] ,在目标域上构造一个以 在线的方式更新的决策函数 ,T 为目标函数。 对于当前到达的实例 ,计算目标域决策函数的 铰链损失: ℓj = max(0,1−yjh T (xj)) (1) 如果决策函数遭受非零损失,则根据式 (2) 更 新目标域函数和添加支持向量: h T j+1 = h T j +τjyjk(xj ,·) (2) τj = min{C, ℓj/k(xj 式中:支持向量系数 , xj)},k(·,·) 是 核函数。 vj = (v 1 j , v 2 j ,··· , v n j ) wj v n j+1 = v n jα wj+1 = wjα α ∈ (0,1) 然后使用一个权重向量 和一 个权重变量 去分别表示 n 个源决策函数和目 标决策函数的权重。对于做出错误预测的决策函 数,需要将其权重降低。对于源决策函数,令 ;对于目标决策函数,令 ,其中 是权重折扣参数。与此同时要保持所有 决策函数前面的权重之和为 1,所以需要归一化 权重,即 p i j = v i j / ∑n i=1 v i j +wj ,qj = wj/ ∑n i=1 v i j +wj (3) p i j 式中: 和 qj 分别是第 j 个实例到来时,第 i 个源 决策函数和目标决策函数前面的权重。所以最终 集成的决策函数为 f(x) = sign ∑n i=1 p i j sign( h S i (xj) ) +qjsign( h T j (xj) ) (4) 第 2 期 周晶雨,等:对不平衡目标域的多源在线迁移学习 ·249·
·250· 智能系统学报 第17卷 上述算法能够有效解决多个源域的在线迁移 然后将种子和邻居组合成样本对{xx,),一 学习问题,但并不能应对目标域不平衡的情况。 共g×k个,g是当前批次b中少数类实例的个 下面介绍了一种新的在线迁移学习方法,可以在 数。以同样的方式,可以得到当前批次中多数类 在线预测的过程中,人工平衡目标域类别的分 实例形成的样本对x,xg),共xk个。从 布,从而降低总体分类误差。 少数类和多数类的样本对中分别选取min num 2不平衡目标域的在线迁移学习 min_num和maj_nummaj_.num个,用于生成新样 本。maj_nummaj num的大小决定了当前批次生 2.1问题描述 成样本和真实样本整体的规模,min nummin num 在多源迁移学习的问题中,对于给定的n个 使得当前批次类别平衡。根据式(6)在每个样本 源域,用D={D,D:,…,D}表示,目标域用D 对之间的线段上生成新样本。 表示。对于第i个源域D,源域数据空间用 Xpew =xp+(Xg-xp)Xo (6) Xs,×y,表示,其中特征空间是Xs,=R4。用 同时,考虑到不同批次样本之间的特征分布 X×少表示目标域的数据空间,其中特征空间是 可能会发生细微的偏移,所以控制均匀分布的随 X=R。这里,源域和目标域共享相同的标签空 机数6∈[0,0.5],使得生成的新样本更加靠近当前 间ys=y={+1,-1。 批次中的样本。 在在线学习的部分,目标域数据{cy),∈ 对生成的一共1个新样本分配相应的标签, X×少的类别分布是不平衡的,正类样本少于负 在当前批次的样本训练之前,使用新生成的样本 类样本。当目标数据以在线的方式到达,并且每 {x,y)H改进目标函数,根据式(7): 次到达一批数据时,每批数据中正类和负类样本 )=F()+∑ry,xx) (7) 的分布也是不平衡的。目标域第b个批次的数据 可以表示为{(xy)= 使用在线被动攻击算法可以轻松学得用新样 目标域采用被动攻击算法(PA)学习决策函 本改进后的分类器,即根据式(2)对将铰链损失 数,当目标域的数据不平衡时,目标决策函数会 (>0的新实例都作为支持向量添加到支持向量集 更加偏向于多数类。若能在在线学习的过程中, 中。最后再使用集成决策函数(式(4))分别训练 扩充每个批次少数类的样本,就可能实现目标领 当前批次到达的所有实例.并按照上述方法对后 域对少数类更准确的分类。考虑到目标域整体的 面所有批次进行同样的操作可以得到训练好的集 样本个数有限,可以通过先扩增每个批次的多数 成函数。 类,然后再扩增少数类样本至平衡,提高目标域 2.3在特征空间过采样的在线迁移学习 函数的整体分类性能,从而更好地实现知识迁移。 与在输入空间过采样不同,本节提出了一种 2.2在输入空间过采样的在线迁移学习 称为OTLMS_FO(online transfer learning multi- 本节提出一种称为OTLMS_IO(online transfer source feature space oversampling)的算法,该算法 learning multi-source input space oversampling) 表示在特征空间过采样的多源在线迁移学习。目 法,该算法代表在目标域的输入空间进行过采样 标域的函数通过核函数进行预测,所以OTLMS 的多源在线迁移学习。OTLMS IO通过增加每个 FO能利用与SVM分类器相同的核技巧,合成样 批次中多数类和少数类样本的个数来提升目标域 本利用特征空间中的点积生成而不需要知道特征 函数的性能。 映射函数(x)。特征空间生成数据点在高维的 目标域的数据以在线的方式分批到达,每次 空间具有更好的线性可分性,可以用来改进目标 到达多个实例。第b个批次到达的实例是 函数。 xy),对于其中每个少数类实例,都以欧氏距 OTLMS FO算法在目标域第b个批次的样本 离(式(⑤))为标准计算它到前面已经到达批次的 :y,到达时,从中挑选出少数类样本和多数 所有少数类实例的距离,得到其k近邻。 类样本。然后从前面已经到达的批次中分别找到 当前到达批次中少数类和多数类样本的k近邻。 dist(p pa-xgd) (5) 由于是在特征空间中计算样本间的距离,需要将 种子x。和近邻xg映射为特征空间的x)和 式中:x,是当前批次中的实例,称为种子;x,是前 xg),然后计算两个实例之间的距离。特征空间 面批次中的实例,称为邻居,m是实例的维数。 中,两个实例之间的距离为
上述算法能够有效解决多个源域的在线迁移 学习问题,但并不能应对目标域不平衡的情况。 下面介绍了一种新的在线迁移学习方法,可以在 在线预测的过程中,人工平衡目标域类别的分 布,从而降低总体分类误差。 2 不平衡目标域的在线迁移学习 2.1 问题描述 D S = {D S 1 ,D S 2 ,··· ,D S n } D T D S i XS i × YS i XS i = R di X × Y X = R d YS i = Y = {+1,−1} 在多源迁移学习的问题中,对于给定的 n 个 源域,用 表示,目标域用 表示。对于 第 i 个源域 ,源域数据空间用 表示,其中特征空间是 。 用 表示目标域的数据空间,其中特征空间是 。这里,源域和目标域共享相同的标签空 间 。 {(xj , yj)} m j=1 ∈ X × Y {(xj , yj)} lb j=1 在在线学习的部分,目标域数据 的类别分布是不平衡的,正类样本少于负 类样本。当目标数据以在线的方式到达,并且每 次到达一批数据时,每批数据中正类和负类样本 的分布也是不平衡的。目标域第 b 个批次的数据 可以表示为 。 目标域采用被动攻击算法 (PA) 学习决策函 数,当目标域的数据不平衡时,目标决策函数会 更加偏向于多数类。若能在在线学习的过程中, 扩充每个批次少数类的样本,就可能实现目标领 域对少数类更准确的分类。考虑到目标域整体的 样本个数有限,可以通过先扩增每个批次的多数 类,然后再扩增少数类样本至平衡,提高目标域 函数的整体分类性能,从而更好地实现知识迁移。 2.2 在输入空间过采样的在线迁移学习 本节提出一种称为 OTLMS_IO(online transfer learning multi-source input space oversampling) 的算 法,该算法代表在目标域的输入空间进行过采样 的多源在线迁移学习。OTLMS_IO 通过增加每个 批次中多数类和少数类样本的个数来提升目标域 函数的性能。 {(xj , yj)} lb j=1 目标域的数据以在线的方式分批到达,每次 到达多个实例。 第 b 个批次到达的实例是 ,对于其中每个少数类实例,都以欧氏距 离 (式 (5)) 为标准计算它到前面已经到达批次的 所有少数类实例的距离,得到其 k 近邻。 dist(xp , xq) = vt∑m d=1 (xp,d − xq,d) 2 (5) 式中: xp 是当前批次中的实例,称为种子; xq 是前 面批次中的实例,称为邻居,m 是实例的维数。 {(xp , xq)j} l min b ×k j=1 l min b ×k l min b {(xp , xq)j} l maj b ×k j=1 l maj b ×k min_num maj_num maj_num min_num 然后将种子和邻居组合成样本对 ,一 共 个, 是当前批次 b 中少数类实例的个 数。以同样的方式,可以得到当前批次中多数类 实例形成的样本对 ,共 个。从 少数类和多数类的样本对中分别选取 min_num 和 maj_num 个,用于生成新样 本。 maj_num 的大小决定了当前批次生 成样本和真实样本整体的规模, min_num 使得当前批次类别平衡。根据式 (6) 在每个样本 对之间的线段上生成新样本。 xnew = xp +(xq − xp)×δ (6) δ ∈ [0,0.5] 同时,考虑到不同批次样本之间的特征分布 可能会发生细微的偏移,所以控制均匀分布的随 机数 ,使得生成的新样本更加靠近当前 批次中的样本。 {(xj , yj)} t j=1 对生成的一共 t 个新样本分配相应的标签, 在当前批次的样本训练之前,使用新生成的样本 改进目标函数,根据式 (7): h T b (x) = h T (x)+ ∑t j=1 τjyj(xj , x) (7) ℓ 使用在线被动攻击算法可以轻松学得用新样 本改进后的分类器,即根据式 (2) 对将铰链损失 >0 的新实例都作为支持向量添加到支持向量集 中。最后再使用集成决策函数 (式 (4)) 分别训练 当前批次到达的所有实例,并按照上述方法对后 面所有批次进行同样的操作可以得到训练好的集 成函数。 2.3 在特征空间过采样的在线迁移学习 ϕ(x) 与在输入空间过采样不同,本节提出了一种 称为 OTLMS_FO(online transfer learning multisource feature space oversampling) 的算法,该算法 表示在特征空间过采样的多源在线迁移学习。目 标域的函数通过核函数进行预测,所以 OTLMS_ FO 能利用与 SVM 分类器相同的核技巧,合成样 本利用特征空间中的点积生成而不需要知道特征 映射函数 。特征空间生成数据点在高维的 空间具有更好的线性可分性,可以用来改进目标 函数。 {(xj , yj)} lb j=1 xp xq ϕ(xp) ϕ(xq) OTLMS_FO 算法在目标域第 b 个批次的样本 到达时,从中挑选出少数类样本和多数 类样本。然后从前面已经到达的批次中分别找到 当前到达批次中少数类和多数类样本的 k 近邻。 由于是在特征空间中计算样本间的距离,需要将 种子 和近邻 映射为特征空间的 和 ,然后计算两个实例之间的距离。特征空间 中,两个实例之间的距离为 ·250· 智 能 系 统 学 报 第 17 卷
第2期 周晶雨,等:对不平衡目标域的多源在线迁移学习 ·251· 产xpxg}2=lx,)-xg= 示为 (8) k(xp.Xp)-2k(xp.xq)+k(xq:xq) F田)=k,) (13) 根据式(8)可以找到当前批次中的每个少数 =1 类样本的k近邻,种子和邻居组成的样本对构成 假设当前批次的样本(xy):,在目标域的 集合xxg),一共×k个,给少数类样本 特征空间是线性可分的,从而可以得到: 对分配+1标签。然后以同样的方法生成当前批 次多数类的集合xx,),,并分配-1标签。从 yhx》=y∑ykx,x)≥0je1,2…h (14) 集合中随机选择min num个少数类的样本对和 将式(9)生成少数类样本(x)代入目标函数: maj num个多数类的样本对,在特征空间中合成 新的实例,生成新实例的式子可以写成: Ncn=∑(y》= (x四)=(p)+四((xg)-xp)】 (9) 1-)>Tyk()ryk(.x) (15) 式中:6四是一个0~0.5的随机数,在特征空间同样 控制生成的数据点更加靠近当前批次的样本,使 得扩增的样本和当前批次中的样本的特征分布更 (1-)h(xP)+69h(xr)≥0 式中:h(x)和h(x)都不小于0,xP和x都属于 加相似。 对当前批次的样本进行训练之前,先用生成 少数类:6∈0,0.5]。 的样本改进目标决策函数。最后使用集成决策函 所以在目标域的特征空间中生成的样本同样 数(式(4))依次对当前批次的所有实例进行预 可以保证类别可分。每批次生成的新样本都会优 测。然而,使用式(7)生成的新少数类实例利用 化目标函数在特征空间中的超平面,提高目标函 数的性能,从而最终提高整体函数的性能。 通常未知的特征转换函数(x),所以新的合成实 例(x)并不能具体得到。目标域通过决策函数 2.4算法描述和复杂度分析 中支持向量的核函数计算两个特征空间中实例的 OTLMS IO和OTLMS FO算法的步骤近似, 下面提供OTLMS FO算法的算法描述和复杂度 内积来训练,可以将合成实例代入目标域决策函 数的核函数中计算,其中核函数的计算分为2种 分析。 情况: 算法OTLMS FO的算法描述 输入源分类器(r,,·,),初始折衷C, 1)x,是合成实例,x是普通实例时,它们在特 征空间的内积为 权重折扣参数B∈(O,l),每批次扩充min num个 少数类和maj_num个多数类。 k(x9,x)=(x)(x)= 初始化:h(x)=0,v=2=…==w=1/n+1)。 [(x)+6((x)-(x](x)= (10) 1)For循环目标域的每个批次。 (1-6)k(x,x)+6k(x,x) ①寻找当前批次少数类和多数类样本的k近 2)x和x都是合成样本时,特征空间的内积: 邻组成种子和邻居对,分别是xx,后和 k(x,x)=()(x)= 任px,。 [(x))+6P9((x)-(x)]T× ②随机从少数类和多数类的样本对中选取 [(x)+6((x")-(r)川= (11) min_num和maj_num个样本对,根据式(9)生成新 (1-6)1-0)k(x,x)+ 样本。 (1-6)6k(x,x)+ ③For循环用于生成新样本的样本对。 (1-6)6k(x,)+696k(x,x) a.计算损失(和支持向量前的参数四= 使用合成实例改进目标域决策函数,当铰链 miniC.ti/k(x) 损失大于0时,将合成实例作为支持向量添加到 b.损失大于0时,根据式(12)更新目标域函 支持向量集,并且也能保持特征空间的可分性,即 数,其中核函数根据式(10)和式(11)。 层)=h)+∑y) (12) ④For循环当前批次的每个实例。 a.根据式(4)预测,其中核函数使用式(10)和 定理1在目标域的特征空间中添加合成样 式(11) 本同样能保证类别可分。 b.使用式(3)更新权重。 证明目标域函数由支持向量组成,可以表 c.使用式(2)更新目标域
d ϕ (xp, xq) 2 = ϕ(xp)−ϕ(xq) 2 = k(xp, xp)−2k(xp, xq)+k(xq, xq) (8) {(xp , xq)j} l min b ×k j=1 l min b ×k {(xp , xq)j} l maj b ×k j=1 根据式 (8) 可以找到当前批次中的每个少数 类样本的 k 近邻,种子和邻居组成的样本对构成 集合 ,一共 个,给少数类样本 对分配+1 标签。然后以同样的方法生成当前批 次多数类的集合 ,并分配−1 标签。从 集合中随机选择 min_num 个少数类的样本对和 maj_num 个多数类的样本对,在特征空间中合成 新的实例,生成新实例的式子可以写成: ϕ(x pq) = ϕ(xp)+δ pq(ϕ(xq)−ϕ(xp)) (9) δ 式中: pq 是一个 0~0.5 的随机数,在特征空间同样 控制生成的数据点更加靠近当前批次的样本,使 得扩增的样本和当前批次中的样本的特征分布更 加相似。 ϕ(x) ϕ(x pq) 对当前批次的样本进行训练之前,先用生成 的样本改进目标决策函数。最后使用集成决策函 数 (式 (4)) 依次对当前批次的所有实例进行预 测。然而,使用式 (7) 生成的新少数类实例利用 通常未知的特征转换函数 ,所以新的合成实 例 并不能具体得到。目标域通过决策函数 中支持向量的核函数计算两个特征空间中实例的 内积来训练,可以将合成实例代入目标域决策函 数的核函数中计算,其中核函数的计算分为 2 种 情况: 1) xj 是合成实例, x 是普通实例时,它们在特 征空间的内积为 k(x pq j , x) = ϕ(x pq j )ϕ(x) = [ϕ(x p j )+δ pq(ϕ(x q j )−ϕ(x p j ))]T ϕ(x) = (1−δ pq)k(x p j , x)+δ pqk(x q j , x) (10) 2) xj 和 x 都是合成样本时,特征空间的内积: k(x pq j , x lm) = ϕ(x pq j ) T ϕ(x lm) = [ϕ(x p j )+δ pq(ϕ(x q j )−ϕ(x p j ))]T× [ϕ(x l )+δ lm(ϕ(x m )−ϕ(x l ))] = (1−δ pq)(1−δ lm)k(x p j , x l )+ (1−δ pq)δ lmk(x p j , x m )+ (1−δ lm)δ pqk(x q j , x l )+δ pqδ lmk(x q j , x m ) (11) 使用合成实例改进目标域决策函数,当铰链 损失大于 0 时,将合成实例作为支持向量添加到 支持向量集,并且也能保持特征空间的可分性,即 h T b (x) = h T (x)+ ∑t j=1 τ pq j yjk(x pq j , x) (12) 定理 1 在目标域的特征空间中添加合成样 本同样能保证类别可分。 证明 目标域函数由支持向量组成,可以表 示为 h T (x) = ∑N i=1 τiyik(x, xi) (13) {(xj , yj)} lb 假设当前批次的样本 j=1 在目标域的 特征空间是线性可分的,从而可以得到: yjh T (xj) = yj ∑N i=1 τiyik(xj , xi) ⩾ 0, j ∈ 1,2,··· ,lb (14) ϕ(x pq 将式 (9) 生成少数类样本 ) 代入目标函数: h T (x pq) = ∑N i=1 τiyi(ϕ(x pq) T ϕ(xi)) = (1−δ pq) ∑N i=1 τiyik(xp , xi)+δ pq∑N i=1 τiyik(xq , xi) = (1−δ pq)h T (x p )+δ pqh T (x q ) ⩾ 0 (15) h T (x p ) h T (x q ) x p x q δ pq ∈ [0,0.5] 式中: 和 都不小于 0, 和 都属于 少数类; 。 所以在目标域的特征空间中生成的样本同样 可以保证类别可分。每批次生成的新样本都会优 化目标函数在特征空间中的超平面,提高目标函 数的性能,从而最终提高整体函数的性能。 2.4 算法描述和复杂度分析 OTLMS_IO 和 OTLMS_FO 算法的步骤近似, 下面提供 OTLMS_FO 算法的算法描述和复杂度 分析。 算法 OTLMS_FO 的算法描述 (h S 1 ,h S 2 ,··· ,h S n ) β ∈ (0,1) 输入 源分类器 ,初始折衷 C, 权重折扣参数 ,每批次扩充 min_num 个 少数类和 maj_num 个多数类。 h T (x) = Ø v 1 =v 2 =···=v n 初始化: , =w=1/(n+1)。 1) For 循环目标域的每个批次。 {(xp , xq)j} l min b ×k j=1 {(xp , xq)j} l maj b ×k j=1 ①寻找当前批次少数类和多数类样本的 k 近 邻组成种子和邻居对,分别是 和 。 ②随机从少数类和多数类的样本对中选取 min_num 和 maj_num 个样本对,根据式 (9) 生成新 样本。 ③ For 循环用于生成新样本的样本对。 ℓ τ pq = min{C, ℓj/k(x pq j , x pq j )} a. 计算损失 和支持向量前的参数 。 b. 损失大于 0 时,根据式 (12) 更新目标域函 数,其中核函数根据式 (10) 和式 (11)。 ④ For 循环当前批次的每个实例。 a. 根据式 (4) 预测,其中核函数使用式 (10) 和 式 (11)。 b. 使用式 (3) 更新权重。 c. 使用式 (2) 更新目标域。 第 2 期 周晶雨,等:对不平衡目标域的多源在线迁移学习 ·251·
·252· 智能系统学报 第17卷 2)输出训练好的集成决策函数(见式(4))。 的类别构成一组迁移学习任务,一共生成了16组 上述算法中,①寻找k近邻的时间复杂度是 任务。 O(3m1m2d+3M1M2d,其中m1、M1和m2、M2分别是 3.1.320 newsgroups数据集 当前批次和前面批次中的少数类和多数类,d是 20 newsgroups数据集(http://qwone.com/~jason// 样本的维数。③使用新样本改进目标函数的时间 20 Newsgroups/)由大约20000个不同主题的新闻 复杂度是O(4svd),s是合成样本的总数,v是支持 组文档组成,这些数据被组织成20个不同的新闻 向量的个数。④训练当前批次真实样本的时间复 组,每个组对应一个不同的主题,一共5个主题。 杂度是O2vd,一共n个真实样本。在输入空间 例如:os、ibm、mac和x是comp主题的新闻组, 训练一个批次样本的复杂度是O(3m1m2d+3M1M2d+ cypt、electronics、med和space是sci主题的新闻 4svd+2vd),整个目标域一共N个批次,所以总的 组。其中comp主题的新闻组标记为正例,而 时间复杂度是ON(3m1m2d+3M1M2d+4svd+2nvd), sci主题的新闻组标记为负例,一共构成4个学习 可以近似为O(N(mm2d+M1M2d+svd+vd)g 任务:os_vs_crypt、.ibm_vs_electronics、mac_vs_med 3实验结果与分析 和x_vs_space。随机选择一个作为目标域,其余 作为源域,一共构成4组迁移任务。 本文对提出的算法和在线迁移学习的基线算 3.2基线算法和评价指标 法进行了比较,并在多个真实数据集上进行了实 为了评估算法的性能,将提出的算法和最新 验:Office-Home数据集、Office-31数据集和 的几种方法进行了比较。在线被动攻击PA算法 2 ONewsgroups数据集。为了获得可靠的结果,在 是一种传统的在线学习算法叨,采用PA作为基 相同参数设置的前提下,通过更改测试实例的到 线方法,无需知识迁移。考虑到被动攻击PA并 达顺序来将每个实验重复10次。结果表明,本文 非针对迁移学习问题而设计,通过使用在整个源 提出的算法比基线算法获得了更好的性能。 域中训练过的分类器初始化PA,来实现PA算法 3.1数据集介绍 的一种变体,称为在线迁移学习的“PAIO”。还与 3.1.1 Office-Home数据集 种著名的在线迁移学习算法HomOTLMS进行 Office-Home数据集81由4个不同领域的图 了比较,该算法从多个源域迁移知识来增强目标 像组成:艺术图像(Art)、剪贴画(Clipart)、产品图 域的性能。所有的算法均使用Python语言实现 像(Product)和现实世界图像(Real World),一共大约 和运行。 15500张图像。对于每个域,数据集包含65个类 为了验证算法的可靠性,实验结果采用分类 别的图像。在我们的实验中,将现实世界图像域 精度和G-mean作为评价指标。其中G-mean是正 作为目标域,其余3个领域作为源域。并在目标 例准确率与负例准确率的综合指标。当数据不平 域中随机选择一个样本数小于50的类别作为负 衡时,可以评价模型表现,若所有样本都被划分 类(少数类),选一个样本数大于80的类别作为正 为同一个类别,G-mean值是0。表1是二分类混 类(多数类),3个源域也选取这两个类别,然后构 淆矩阵,G-mean的计算公式为 成一个迁移学习任务。并对原始图片进行了预处 TN TP G-mean VTN+EP+TP+FN (16) 理,每张图片都对应一个1×10000的向量。实验 一共生成了30组迁移学习任务。 表1二分类混淆矩阵 3.1.2 Office-31数据集 Table 1 Two-classification confusion matrix Oice-31数据集u是一个用于图像分类的迁 预测结果 真实情况 移学习数据集。其包含3个领域的子集:Amazon 正例 反例 (A)、Webcam(w、Dslr(D),分为31个类别,共有4652 正例 TP(真正例) FN(假反例 张图片。在Office-31数据集中,不仅各个领域的 反例 FP(假正例) TN(真反例) 样本总数不同,而且各个域内部类别分布也不平 衡,所以可以通过不平衡方法处理Ofce-31数据 3.3 实验结果及参数设置 集,促使迁移学习效果提升。实验中,预处理数 3.3.1参数设置 据集,每个图片都是1×10000的向量。将Web- 首先将OTLMS IO和OTLMS FO算法与Of. cam作为目标域,其余两个域作为源域。然后选 fice-Home、Office-.31和20 newsgroups数据集上的 取Webcam中的一个样本数多的和一个样本数少 所有基线算法进行比较。在3个数据集上,设置
2) 输出训练好的集成决策函数 (见式 (4))。 O(3m1m2d +3M1M2d) m1 M1 m2 M2 O(4svd) O(2nvd) O(3m1m2d +3M1M2d+ 4svd +2nvd) O(N(3m1m2d +3M1M2d +4svd +2nvd)) O(N(m1m2d + M1M2d + svd +nvd)) 上述算法中,①寻找 k 近邻的时间复杂度是 ,其中 、 和 、 分别是 当前批次和前面批次中的少数类和多数类,d 是 样本的维数。③使用新样本改进目标函数的时间 复杂度是 ,s 是合成样本的总数,v 是支持 向量的个数。④训练当前批次真实样本的时间复 杂度是 ,一共 n 个真实样本。在输入空间 训练一个批次样本的复杂度是 ,整个目标域一共 N 个批次,所以总的 时间复杂度是 , 可以近似为 。 3 实验结果与分析 本文对提出的算法和在线迁移学习的基线算 法进行了比较,并在多个真实数据集上进行了实 验 :Office-Home 数据集、Office-31 数据集和 20Newsgroups 数据集。为了获得可靠的结果,在 相同参数设置的前提下,通过更改测试实例的到 达顺序来将每个实验重复 10 次。结果表明,本文 提出的算法比基线算法获得了更好的性能。 3.1 数据集介绍 3.1.1 Office-Home 数据集 Office-Home 数据集[18] 由 4 个不同领域的图 像组成:艺术图像 (Art)、剪贴画 (Clipart)、产品图 像 (Product) 和现实世界图像 (Real World),一共大约 15 500 张图像。对于每个域,数据集包含 65 个类 别的图像。在我们的实验中,将现实世界图像域 作为目标域,其余 3 个领域作为源域。并在目标 域中随机选择一个样本数小于 50 的类别作为负 类 (少数类),选一个样本数大于 80 的类别作为正 类 (多数类),3 个源域也选取这两个类别,然后构 成一个迁移学习任务。并对原始图片进行了预处 理,每张图片都对应一个 1×10 000 的向量。实验 一共生成了 30 组迁移学习任务。 3.1.2 Office-31 数据集 Office-31 数据集[19] 是一个用于图像分类的迁 移学习数据集。其包含 3 个领域的子集:Amazon (A)、Webcam(w)、Dslr(D),分为 31 个类别,共有 4652 张图片。在 Office-31 数据集中,不仅各个领域的 样本总数不同,而且各个域内部类别分布也不平 衡,所以可以通过不平衡方法处理 Office-31 数据 集,促使迁移学习效果提升。实验中,预处理数 据集,每个图片都是 1×10 000 的向量。将 Webcam 作为目标域,其余两个域作为源域。然后选 取 Webcam 中的一个样本数多的和一个样本数少 的类别构成一组迁移学习任务,一共生成了 16 组 任务。 3.1.3 20newsgroups 数据集 20newsgroups 数据集 (http://qwone.com/~jason/ 20Newsgroups/) 由大约 20 000 个不同主题的新闻 组文档组成,这些数据被组织成 20 个不同的新闻 组,每个组对应一个不同的主题,一共 5 个主题。 例如:os、ibm、mac 和 x 是 comp 主题的新闻组, crypt、electronics、med 和 space 是 sci 主题的新闻 组。其中 comp 主题的新闻组标记为正例,而 sci 主题的新闻组标记为负例,一共构成 4 个学习 任务:os_vs_crypt、ibm_vs_electronics、mac_vs_med 和 x_vs_space。随机选择一个作为目标域,其余 作为源域,一共构成 4 组迁移任务。 3.2 基线算法和评价指标 为了评估算法的性能,将提出的算法和最新 的几种方法进行了比较。在线被动攻击 PA 算法 是一种传统的在线学习算法[17] ,采用 PA 作为基 线方法,无需知识迁移。考虑到被动攻击 PA 并 非针对迁移学习问题而设计,通过使用在整个源 域中训练过的分类器初始化 PA,来实现 PA 算法 的一种变体,称为在线迁移学习的“PAIO”。还与 一种著名的在线迁移学习算法 HomOTLMS 进行 了比较,该算法从多个源域迁移知识来增强目标 域的性能。所有的算法均使用 Python 语言实现 和运行。 为了验证算法的可靠性,实验结果采用分类 精度和 G-mean 作为评价指标。其中 G-mean 是正 例准确率与负例准确率的综合指标。当数据不平 衡时,可以评价模型表现,若所有样本都被划分 为同一个类别,G-mean 值是 0。表 1 是二分类混 淆矩阵,G-mean 的计算公式为 G-mean = √ TN TN+FP + TP TP+FN (16) 表 1 二分类混淆矩阵 Table 1 Two-classification confusion matrix 真实情况 预测结果 正例 反例 正例 TP(真正例) FN(假反例) 反例 FP(假正例) TN(真反例) 3.3 实验结果及参数设置 3.3.1 参数设置 首先将 OTLMS_IO 和 OTLMS_FO 算法与 Office-Home、Office-31 和 20newsgroups 数据集上的 所有基线算法进行比较。在 3 个数据集上,设置 ·252· 智 能 系 统 学 报 第 17 卷