当前位置：和泉文库 > 电气与自动化 > 浏览文档

【机器学习】对不平衡目标域的多源在线迁移学习

文件格式：PDF，文件大小：3.6MB，售价：3.51元

文档详细内容（约9页）

第17卷第2期智能系统学报 Vol.17 No.2 2022年3月 CAAI Transactions on Intelligent Systems Mar.2022 D0:10.11992/tis.202012019 网络出版地址：https:/ns.cnki.net/kcms/detail/23.1538.TP.20210621.1427.002.html 对不平衡目标域的多源在线迁移学习周晶雨，王士同 (江南大学人工智能与计算机学院，江苏无锡214122) 摘要：多源在线迁移学习已经广泛地应用于相关源域中含有大量的标记数据且目标域中数据以数据流的形式达到的应用中。然而，目标域的类别分布有时是不平衡的，针对目标域每次以在线方式到达多个数据的不平衡二分类问题，本文提出了一种可以对目标域样本过采样的多源在线迁移学习算法。该算法从前面批次的样本中寻找当前批次的样本的k近邻，先少量生成多数类样本，再生成少数类使得当前批次样本的类别分布平衡。每个批次合成样本和真实样本一同训练目标域函数，从而提升目标域函数的分类性能。同时，分别设计了在目标域的输入空间和特征空间过采样的方法，并且在多个真实世界数据集上进行了综合实验，证明了所提出算法的有效性。关键词：多源迁移学习：在线学习；目标域：不平衡数据：过采样：k近邻：输入空间：特征空间中图分类号：TP181文献标志码：A文章编号：1673-4785(2022)02-0248-09 中文引用格式：周晶雨，王士同.对不平衡目标域的多源在线迁移学习.智能系统学报，2022,17(2)：248-256. 英文引用格式：ZHOU Jingyu,.WANG Shitong.Multi--source online transfer learning for imbalanced target domainsJ.CAAI transactions on intelligent systems,2022,17(2):248-256. Multi-source online transfer learning for imbalanced target domains ZHOU Jingyu,WANG Shitong (School of Artificial Intelligence and Computer Science,Jiangnan University,Wuxi 214122,China) Abstract:Multi-source online transfer learning has been widely used in applications where the relevant source domain contains a large amount of labeled data and the data in the target domain is achieved in the form of data flow.However, the class distribution of the target domain is sometimes imbalanced.Aiming at the unbalanced binary classification prob- lem wherein the target domain reaches multiple data online at a time,this paper proposes a multi-source online transfer learning algorithm by means of oversampling the target domain samples.First,the algorithm finds the k-nearest neigh- bors of the current batch of samples from the previous batch,then generates a small number of majority class samples, finally generating a minority class to balance the class distribution of the current batch of samples.Each batch of syn- thetic and real samples train the target domain function together,thereby improving the classification performance of the target domain function.At the same time,methods for oversampling in the input space and feature space of the target domain are designed respectively,and comprehensive experiments are conducted on multiple real-world data sets to prove the effectiveness of the proposed algorithm. Keywords:multi-source transfer learning;online learning;target domain;imbalanced data;oversampling;k-nearest neighbor,input space;feature space 迁移学习的主要目的是利用源域的知识来提息，可以解决目标域的训练数据有限或标记成本高目标域的学习性能，多年来进行了广泛的研究"。太高的问题。在许多实际应用中，与目标域分布使用一些分布相似的现有数据来提取有用的信相似的离线源域有多个，所以可以轻松地从这些源域中收集辅助信息。为了应对不同来源对与目收稿日期：2020-12-16.网络出版日期：2021-06-21. 基金项目：国家自然科学基金项目(61572236). 标域的贡献不同的问题，许多复杂的基于提升方通信作者：王士同.E-mail:wxwangst(@aliyun.com 法的多源迁移学习算法1被设计。基于提升方

DOI: 10.11992/tis.202012019 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210621.1427.002.html 对不平衡目标域的多源在线迁移学习周晶雨，王士同（江南大学人工智能与计算机学院，江苏无锡 214122）摘要：多源在线迁移学习已经广泛地应用于相关源域中含有大量的标记数据且目标域中数据以数据流的形式达到的应用中。然而，目标域的类别分布有时是不平衡的，针对目标域每次以在线方式到达多个数据的不平衡二分类问题，本文提出了一种可以对目标域样本过采样的多源在线迁移学习算法。该算法从前面批次的样本中寻找当前批次的样本的 k 近邻，先少量生成多数类样本，再生成少数类使得当前批次样本的类别分布平衡。每个批次合成样本和真实样本一同训练目标域函数，从而提升目标域函数的分类性能。同时，分别设计了在目标域的输入空间和特征空间过采样的方法，并且在多个真实世界数据集上进行了综合实验，证明了所提出算法的有效性。关键词：多源迁移学习；在线学习；目标域；不平衡数据；过采样；k 近邻；输入空间；特征空间中图分类号：TP181 文献标志码：A 文章编号：1673−4785(2022)02−0248−09 中文引用格式：周晶雨, 王士同. 对不平衡目标域的多源在线迁移学习 [J]. 智能系统学报, 2022, 17(2): 248–256. 英文引用格式：ZHOU Jingyu, WANG Shitong. Multi-source online transfer learning for imbalanced target domains[J]. CAAI transactions on intelligent systems, 2022, 17(2): 248–256. Multi-source online transfer learning for imbalanced target domains ZHOU Jingyu，WANG Shitong (School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China) Abstract: Multi-source online transfer learning has been widely used in applications where the relevant source domain contains a large amount of labeled data and the data in the target domain is achieved in the form of data flow. However, the class distribution of the target domain is sometimes imbalanced. Aiming at the unbalanced binary classification problem wherein the target domain reaches multiple data online at a time, this paper proposes a multi-source online transfer learning algorithm by means of oversampling the target domain samples. First, the algorithm finds the k-nearest neighbors of the current batch of samples from the previous batch, then generates a small number of majority class samples, finally generating a minority class to balance the class distribution of the current batch of samples. Each batch of synthetic and real samples train the target domain function together, thereby improving the classification performance of the target domain function. At the same time, methods for oversampling in the input space and feature space of the target domain are designed respectively, and comprehensive experiments are conducted on multiple real-world data sets to prove the effectiveness of the proposed algorithm. Keywords: multi-source transfer learning; online learning; target domain; imbalanced data; oversampling; k-nearest neighbor; input space; feature space 迁移学习的主要目的是利用源域的知识来提高目标域的学习性能，多年来进行了广泛的研究[1]。使用一些分布相似的现有数据来提取有用的信息，可以解决目标域的训练数据有限或标记成本太高的问题。在许多实际应用中，与目标域分布相似的离线源域有多个，所以可以轻松地从这些源域中收集辅助信息。为了应对不同来源对与目标域的贡献不同的问题，许多复杂的基于提升方法的多源迁移学习算法[2-3] 被设计。基于提升方收稿日期：2020−12−16. 网络出版日期：2021−06−21. 基金项目：国家自然科学基金项目 (61572236). 通信作者：王士同. E-mail：wxwangst@aliyun.com. 第 17 卷第 2 期智能系统学报 Vol.17 No.2 2022 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2022

第2期周晶雨，等：对不平衡目标域的多源在线迁移学习 ·249· 法的算法根据贡献高低对多个源域附加权重来生相对平衡。考虑到不同批次的样本之间的特征分成集成分类器，合理利用每个源域的知识。布可能发生细微的偏移，生成样本时控制合成样多源迁移学习通过多个源域中提取的知识来本近似于当前批次中的样本。最后用新生成的样改善目标域上的学习任务的性能，近年来得到了越本去改进目标函数，然后再对当前批次的所有样来越多的关注。Qian等提出了一个多域鲁棒优本按序进行在线迁移学习，从而提升整体分类器对化的框架，用于学习多个域的单一模型。Huffman 少数类的分类性能。此外，还分别设计了在目标等阿提出了一种确定交叉熵损失和其他损失分布域的输入空间和特征空间过采样的方法。在目标加权组合解的多源自适应算法。Peng等提出了域的输入空间生成数据点来平衡类别分布，可以多源域自适应矩匹配方法，利用多源域特征分布提高目标函数对少数类的分类性能，但也可能生的矩进行动态对齐，将知识从多标记源域转移到成不代表非线性可分问题的数据点，影响函数精未标记目标域。Kang等提出了一种在线多源度。所以设计了在目标域特征空间过采样的方法，多分类转移学习算法。这些现有的算法可以从多与文献[16]不同，本文的方法在特征空间生成数个源域迁移知识到目标域，而本文的目标是解决据点来训练在线的函数，生成少数样本会导致类源域和目标域数据类别不平衡的多源在线迁移学别分布得更具代表性，可以克服非线性问题的局限。习问题。现有的大多数迁移学习工作都假设事先提供 1在线迁移学习了源域和目标域的训练数据。但是，在某些实简要介绍多源在线迁移学习算法HomOTLMS.。际应用中，目标域的数据可能以在线的方式到 HomOTLMS根据预先给出的源域数据，在离线达。近十年，在线学习得到了广泛的研究。批处理学习范式中构建n个源域的决策函数在线学习中，分类器在每个回合中接收一个实例 (,,…,)。而在线部分使用被动攻击算法及其标签，然后预测该实例，并根据预测结果和 (passive aggressive,PA)I7,在目标域上构造一个以真实标签的损失信息更新分类器。Wang等在线的方式更新的决策函数，T为目标函数。提出一种基于最大最小概率机的迁移学习分类算对于当前到达的实例x,计算目标域决策函数的法。Zhao等21提出一种可以立即响应的且高效铰链损失：的在线学习算法来解决在线迁移学习任务。等间 C,=max(0,1-yh(x》 (1) 提出了一种具有多个源域的在线迁移学习算法，如果决策函数遭受非零损失，则根据式(2)更当目标数据到达时，多个源域分类器和目标域分新目标域函数和添加支持向量：类器同时做出预测，根据各分类器的权重组合最 =+y) (2) 终预测结果，并更新各分类器的权重。式中：支持向量系数T=min(C,C/k(x,x从，k,)是目前，大多数在线迁移学习都默认目标域的核函数。类别分布是平衡的，然而现实中存在很多不平衡的然后使用一个权重向量=（以，，…，）和一数据。例如，机器的故障诊断，医疗诊断以及军个权重变量w,去分别表示n个源决策函数和目事应用等。在大多数现实世界的问题中，少数类标决策函数的权重。对于做出错误预测的决策函实例的错误分类代价往往很大，减少少数类错误数，需要将其权重降低。对于源决策函数，令分类是至关重要的。处理不平衡数据集的方法可 +1=;对于目标决策函数，令w1=w,a,其中以分为对数据的采样方法、成本敏感方法和算 α∈(0,1)是权重折扣参数。与此同时要保持所有法级方法。采样方法对数据集进行预处理，将决策函数前面的权重之和为1，所以需要归一化类别修改至相对平衡。成本敏感方法对错误分类权重，即少数类实例的决策函数施加更大的惩罚。算法级的方法直接修改分类器来处理不平衡问题。 (3 因此，本文提出一种针对目标域不平衡的多源在线迁移学习算法。其中，目标域每次到达一式中：卫和9分别是第j个实例到来时，第i个源批数据。在算法中，从前面已经到达的批次中寻决策函数和目标决策函数前面的权重。所以最终找当前批次样本的k近邻，形成种子和邻居对。然集成的决策函数为后在样本对之间的线段上适量生成合成的多数类 (4 样本，再合成少数类样本使当前批次的类别分布 fe=ePsie+i(

法的算法根据贡献高低对多个源域附加权重来生成集成分类器，合理利用每个源域的知识。多源迁移学习通过多个源域中提取的知识来改善目标域上的学习任务的性能，近年来得到了越来越多的关注。Qian 等 [4] 提出了一个多域鲁棒优化的框架，用于学习多个域的单一模型。Huffman 等 [5] 提出了一种确定交叉熵损失和其他损失分布加权组合解的多源自适应算法。Peng 等 [6] 提出了多源域自适应矩匹配方法，利用多源域特征分布的矩进行动态对齐，将知识从多标记源域转移到未标记目标域。Kang 等 [7] 提出了一种在线多源多分类转移学习算法。这些现有的算法可以从多个源域迁移知识到目标域，而本文的目标是解决源域和目标域数据类别不平衡的多源在线迁移学习问题。现有的大多数迁移学习工作都假设事先提供了源域和目标域的训练数据[8]。但是，在某些实际应用中，目标域的数据可能以在线的方式到达。近十年，在线学习[9-10] 得到了广泛的研究。在线学习中，分类器在每个回合中接收一个实例及其标签，然后预测该实例，并根据预测结果和真实标签的损失信息更新分类器。Wang 等 [11] 提出一种基于最大最小概率机的迁移学习分类算法。Zhao 等 [12] 提出一种可以立即响应的且高效的在线学习算法来解决在线迁移学习任务。Wu 等 [13] 提出了一种具有多个源域的在线迁移学习算法，当目标数据到达时，多个源域分类器和目标域分类器同时做出预测，根据各分类器的权重组合最终预测结果，并更新各分类器的权重。目前，大多数在线迁移学习都默认目标域的类别分布是平衡的，然而现实中存在很多不平衡的数据。例如，机器的故障诊断，医疗诊断以及军事应用等。在大多数现实世界的问题中，少数类实例的错误分类代价往往很大，减少少数类错误分类是至关重要的。处理不平衡数据集的方法可以分为对数据的采样方法[14] 、成本敏感方法和算法级方法[15]。采样方法对数据集进行预处理，将类别修改至相对平衡。成本敏感方法对错误分类少数类实例的决策函数施加更大的惩罚。算法级的方法直接修改分类器来处理不平衡问题。因此，本文提出一种针对目标域不平衡的多源在线迁移学习算法。其中，目标域每次到达一批数据。在算法中，从前面已经到达的批次中寻找当前批次样本的 k 近邻，形成种子和邻居对。然后在样本对之间的线段上适量生成合成的多数类样本，再合成少数类样本使当前批次的类别分布相对平衡。考虑到不同批次的样本之间的特征分布可能发生细微的偏移，生成样本时控制合成样本近似于当前批次中的样本。最后用新生成的样本去改进目标函数，然后再对当前批次的所有样本按序进行在线迁移学习，从而提升整体分类器对少数类的分类性能。此外，还分别设计了在目标域的输入空间和特征空间过采样的方法。在目标域的输入空间生成数据点来平衡类别分布，可以提高目标函数对少数类的分类性能，但也可能生成不代表非线性可分问题的数据点，影响函数精度。所以设计了在目标域特征空间过采样的方法，与文献 [16] 不同，本文的方法在特征空间生成数据点来训练在线的函数，生成少数样本会导致类别分布得更具代表性，可以克服非线性问题的局限。 1 在线迁移学习 (h S 1 ,h S 2 ,··· ,h S n ) h T xj 简要介绍多源在线迁移学习算法 HomOTLMS。 HomOTLMS 根据预先给出的源域数据，在离线批处理学习范式中构建 n 个源域的决策函数。而在线部分使用被动攻击算法 (passive aggressive, PA)[17] ，在目标域上构造一个以在线的方式更新的决策函数，T 为目标函数。对于当前到达的实例，计算目标域决策函数的铰链损失： ℓj = max(0,1−yjh T (xj)) (1) 如果决策函数遭受非零损失，则根据式 (2) 更新目标域函数和添加支持向量： h T j+1 = h T j +τjyjk(xj ,·) (2) τj = min{C, ℓj/k(xj 式中：支持向量系数 , xj)}，k(·,·) 是核函数。 vj = (v 1 j , v 2 j ,··· , v n j ) wj v n j+1 = v n jα wj+1 = wjα α ∈ (0,1) 然后使用一个权重向量和一个权重变量去分别表示 n 个源决策函数和目标决策函数的权重。对于做出错误预测的决策函数，需要将其权重降低。对于源决策函数，令；对于目标决策函数，令，其中是权重折扣参数。与此同时要保持所有决策函数前面的权重之和为 1，所以需要归一化权重，即 p i j = v i j /   ∑n i=1 v i j +wj   ,qj = wj/   ∑n i=1 v i j +wj   (3) p i j 式中：和 qj 分别是第 j 个实例到来时，第 i 个源决策函数和目标决策函数前面的权重。所以最终集成的决策函数为 f(x) = sign   ∑n i=1 p i j sign( h S i (xj) ) +qjsign( h T j (xj) )   (4) 第 2 期周晶雨，等：对不平衡目标域的多源在线迁移学习 ·249·

·250· 智能系统学报第17卷上述算法能够有效解决多个源域的在线迁移然后将种子和邻居组合成样本对{xx,),一学习问题，但并不能应对目标域不平衡的情况。共g×k个，g是当前批次b中少数类实例的个下面介绍了一种新的在线迁移学习方法，可以在数。以同样的方式，可以得到当前批次中多数类在线预测的过程中，人工平衡目标域类别的分实例形成的样本对x,xg),共xk个。从布，从而降低总体分类误差。少数类和多数类的样本对中分别选取min num 2不平衡目标域的在线迁移学习 min_num和maj_nummaj_.num个，用于生成新样本。maj_nummaj num的大小决定了当前批次生 2.1问题描述成样本和真实样本整体的规模，min nummin num 在多源迁移学习的问题中，对于给定的n个使得当前批次类别平衡。根据式(6)在每个样本源域，用D={D,D:,…,D}表示，目标域用D 对之间的线段上生成新样本。表示。对于第i个源域D,源域数据空间用 Xpew =xp+(Xg-xp)Xo (6) Xs,×y,表示，其中特征空间是Xs,=R4。用同时，考虑到不同批次样本之间的特征分布 X×少表示目标域的数据空间，其中特征空间是可能会发生细微的偏移，所以控制均匀分布的随 X=R。这里，源域和目标域共享相同的标签空机数6∈[0,0.5]，使得生成的新样本更加靠近当前间ys=y={+1,-1。批次中的样本。在在线学习的部分，目标域数据{cy),∈ 对生成的一共1个新样本分配相应的标签， X×少的类别分布是不平衡的，正类样本少于负在当前批次的样本训练之前，使用新生成的样本类样本。当目标数据以在线的方式到达，并且每 {x,y)H改进目标函数，根据式(7)：次到达一批数据时，每批数据中正类和负类样本 )=F()+∑ry,xx) (7) 的分布也是不平衡的。目标域第b个批次的数据可以表示为{(xy)= 使用在线被动攻击算法可以轻松学得用新样目标域采用被动攻击算法(PA)学习决策函本改进后的分类器，即根据式(2)对将铰链损失数，当目标域的数据不平衡时，目标决策函数会 (>0的新实例都作为支持向量添加到支持向量集更加偏向于多数类。若能在在线学习的过程中，中。最后再使用集成决策函数（式(4）)分别训练扩充每个批次少数类的样本，就可能实现目标领当前批次到达的所有实例.并按照上述方法对后域对少数类更准确的分类。考虑到目标域整体的面所有批次进行同样的操作可以得到训练好的集样本个数有限，可以通过先扩增每个批次的多数成函数。类，然后再扩增少数类样本至平衡，提高目标域 2.3在特征空间过采样的在线迁移学习函数的整体分类性能，从而更好地实现知识迁移。与在输入空间过采样不同，本节提出了一种 2.2在输入空间过采样的在线迁移学习称为OTLMS_FO(online transfer learning multi- 本节提出一种称为OTLMS_IO(online transfer source feature space oversampling)的算法，该算法 learning multi-source input space oversampling) 表示在特征空间过采样的多源在线迁移学习。目法，该算法代表在目标域的输入空间进行过采样标域的函数通过核函数进行预测，所以OTLMS 的多源在线迁移学习。OTLMS IO通过增加每个 FO能利用与SVM分类器相同的核技巧，合成样批次中多数类和少数类样本的个数来提升目标域本利用特征空间中的点积生成而不需要知道特征函数的性能。映射函数(x)。特征空间生成数据点在高维的目标域的数据以在线的方式分批到达，每次空间具有更好的线性可分性，可以用来改进目标到达多个实例。第b个批次到达的实例是函数。 xy),对于其中每个少数类实例，都以欧氏距 OTLMS FO算法在目标域第b个批次的样本离（式（⑤）)为标准计算它到前面已经到达批次的 :y,到达时，从中挑选出少数类样本和多数所有少数类实例的距离，得到其k近邻。类样本。然后从前面已经到达的批次中分别找到当前到达批次中少数类和多数类样本的k近邻。 dist(p pa-xgd) (5) 由于是在特征空间中计算样本间的距离，需要将种子x。和近邻xg映射为特征空间的x)和式中：x,是当前批次中的实例，称为种子；x,是前 xg),然后计算两个实例之间的距离。特征空间面批次中的实例，称为邻居，m是实例的维数。中，两个实例之间的距离为

上述算法能够有效解决多个源域的在线迁移学习问题，但并不能应对目标域不平衡的情况。下面介绍了一种新的在线迁移学习方法，可以在在线预测的过程中，人工平衡目标域类别的分布，从而降低总体分类误差。 2 不平衡目标域的在线迁移学习 2.1 问题描述 D S = {D S 1 ,D S 2 ,··· ,D S n } D T D S i XS i × YS i XS i = R di X × Y X = R d YS i = Y = {+1,−1} 在多源迁移学习的问题中，对于给定的 n 个源域，用表示，目标域用表示。对于第 i 个源域，源域数据空间用表示，其中特征空间是。用表示目标域的数据空间，其中特征空间是。这里，源域和目标域共享相同的标签空间。 {(xj , yj)} m j=1 ∈ X × Y {(xj , yj)} lb j=1 在在线学习的部分，目标域数据的类别分布是不平衡的，正类样本少于负类样本。当目标数据以在线的方式到达，并且每次到达一批数据时，每批数据中正类和负类样本的分布也是不平衡的。目标域第 b 个批次的数据可以表示为。目标域采用被动攻击算法 (PA) 学习决策函数，当目标域的数据不平衡时，目标决策函数会更加偏向于多数类。若能在在线学习的过程中，扩充每个批次少数类的样本，就可能实现目标领域对少数类更准确的分类。考虑到目标域整体的样本个数有限，可以通过先扩增每个批次的多数类，然后再扩增少数类样本至平衡，提高目标域函数的整体分类性能，从而更好地实现知识迁移。 2.2 在输入空间过采样的在线迁移学习本节提出一种称为 OTLMS_IO(online transfer learning multi-source input space oversampling) 的算法，该算法代表在目标域的输入空间进行过采样的多源在线迁移学习。OTLMS_IO 通过增加每个批次中多数类和少数类样本的个数来提升目标域函数的性能。 {(xj , yj)} lb j=1 目标域的数据以在线的方式分批到达，每次到达多个实例。第 b 个批次到达的实例是，对于其中每个少数类实例，都以欧氏距离 (式 (5)) 为标准计算它到前面已经到达批次的所有少数类实例的距离，得到其 k 近邻。 dist(xp , xq) = vt∑m d=1 (xp,d − xq,d) 2 (5) 式中： xp 是当前批次中的实例，称为种子； xq 是前面批次中的实例，称为邻居，m 是实例的维数。 {(xp , xq)j} l min b ×k j=1 l min b ×k l min b {(xp , xq)j} l maj b ×k j=1 l maj b ×k min_num maj_num maj_num min_num 然后将种子和邻居组合成样本对，一共个，是当前批次 b 中少数类实例的个数。以同样的方式，可以得到当前批次中多数类实例形成的样本对，共个。从少数类和多数类的样本对中分别选取 min_num 和 maj_num 个，用于生成新样本。 maj_num 的大小决定了当前批次生成样本和真实样本整体的规模， min_num 使得当前批次类别平衡。根据式 (6) 在每个样本对之间的线段上生成新样本。 xnew = xp +(xq − xp)×δ (6) δ ∈ [0,0.5] 同时，考虑到不同批次样本之间的特征分布可能会发生细微的偏移，所以控制均匀分布的随机数，使得生成的新样本更加靠近当前批次中的样本。 {(xj , yj)} t j=1 对生成的一共 t 个新样本分配相应的标签，在当前批次的样本训练之前，使用新生成的样本改进目标函数，根据式 (7)： h T b (x) = h T (x)+ ∑t j=1 τjyj(xj , x) (7) ℓ 使用在线被动攻击算法可以轻松学得用新样本改进后的分类器，即根据式 (2) 对将铰链损失 >0 的新实例都作为支持向量添加到支持向量集中。最后再使用集成决策函数 (式 (4)) 分别训练当前批次到达的所有实例，并按照上述方法对后面所有批次进行同样的操作可以得到训练好的集成函数。 2.3 在特征空间过采样的在线迁移学习 ϕ(x) 与在输入空间过采样不同，本节提出了一种称为 OTLMS_FO(online transfer learning multisource feature space oversampling) 的算法，该算法表示在特征空间过采样的多源在线迁移学习。目标域的函数通过核函数进行预测，所以 OTLMS_ FO 能利用与 SVM 分类器相同的核技巧，合成样本利用特征空间中的点积生成而不需要知道特征映射函数。特征空间生成数据点在高维的空间具有更好的线性可分性，可以用来改进目标函数。 {(xj , yj)} lb j=1 xp xq ϕ(xp) ϕ(xq) OTLMS_FO 算法在目标域第 b 个批次的样本到达时，从中挑选出少数类样本和多数类样本。然后从前面已经到达的批次中分别找到当前到达批次中少数类和多数类样本的 k 近邻。由于是在特征空间中计算样本间的距离，需要将种子和近邻映射为特征空间的和，然后计算两个实例之间的距离。特征空间中，两个实例之间的距离为 ·250· 智能系统学报第 17 卷

第2期周晶雨，等：对不平衡目标域的多源在线迁移学习 ·251· 产xpxg}2=lx,)-xg= 示为 (8) k(xp.Xp)-2k(xp.xq)+k(xq:xq) F田)=k,) (13) 根据式(8)可以找到当前批次中的每个少数 =1 类样本的k近邻，种子和邻居组成的样本对构成假设当前批次的样本(xy):,在目标域的集合xxg),一共×k个，给少数类样本特征空间是线性可分的，从而可以得到：对分配+1标签。然后以同样的方法生成当前批次多数类的集合xx,),,并分配-1标签。从 yhx》=y∑ykx,x)≥0je1,2…h (14) 集合中随机选择min num个少数类的样本对和将式(9)生成少数类样本(x)代入目标函数： maj num个多数类的样本对，在特征空间中合成新的实例，生成新实例的式子可以写成： Ncn=∑(y》= (x四)=(p)+四((xg)-xp)】 (9) 1-)>Tyk()ryk(.x) (15) 式中：6四是一个0~0.5的随机数，在特征空间同样控制生成的数据点更加靠近当前批次的样本，使得扩增的样本和当前批次中的样本的特征分布更 (1-)h(xP)+69h(xr)≥0 式中：h(x)和h(x)都不小于0，xP和x都属于加相似。对当前批次的样本进行训练之前，先用生成少数类：6∈0,0.5]。的样本改进目标决策函数。最后使用集成决策函所以在目标域的特征空间中生成的样本同样数（式(4）)依次对当前批次的所有实例进行预可以保证类别可分。每批次生成的新样本都会优测。然而，使用式(7)生成的新少数类实例利用化目标函数在特征空间中的超平面，提高目标函数的性能，从而最终提高整体函数的性能。通常未知的特征转换函数(x),所以新的合成实例(x)并不能具体得到。目标域通过决策函数 2.4算法描述和复杂度分析中支持向量的核函数计算两个特征空间中实例的 OTLMS IO和OTLMS FO算法的步骤近似，下面提供OTLMS FO算法的算法描述和复杂度内积来训练，可以将合成实例代入目标域决策函数的核函数中计算，其中核函数的计算分为2种分析。情况：算法OTLMS FO的算法描述输入源分类器(r,,·,),初始折衷C, 1)x,是合成实例，x是普通实例时，它们在特征空间的内积为权重折扣参数B∈(O,l),每批次扩充min num个少数类和maj_num个多数类。 k(x9,x)=(x)(x)= 初始化：h(x)=0,v=2=…==w=1/n+1)。 [(x)+6((x)-(x](x)= (10) 1)For循环目标域的每个批次。 (1-6)k(x,x)+6k(x,x) ①寻找当前批次少数类和多数类样本的k近 2)x和x都是合成样本时，特征空间的内积：邻组成种子和邻居对，分别是xx,后和 k(x,x)=()(x)= 任px,。 [(x）)+6P9((x)-(x)]T× ②随机从少数类和多数类的样本对中选取 [(x)+6((x")-(r)川= (11) min_num和maj_num个样本对，根据式(9)生成新 (1-6)1-0)k(x,x)+ 样本。 (1-6)6k(x,x)+ ③For循环用于生成新样本的样本对。 (1-6)6k(x,)+696k(x,x) a.计算损失（和支持向量前的参数四= 使用合成实例改进目标域决策函数，当铰链 miniC.ti/k(x) 损失大于0时，将合成实例作为支持向量添加到 b.损失大于0时，根据式(12)更新目标域函支持向量集，并且也能保持特征空间的可分性，即数，其中核函数根据式(10)和式(11)。层)=h)+∑y) (12) ④For循环当前批次的每个实例。 a.根据式(4)预测，其中核函数使用式(10)和定理1在目标域的特征空间中添加合成样式(11) 本同样能保证类别可分。 b.使用式(3)更新权重。证明目标域函数由支持向量组成，可以表 c.使用式(2)更新目标域

d ϕ (xp, xq) 2 = ϕ(xp)−ϕ(xq) 2 = k(xp, xp)−2k(xp, xq)+k(xq, xq) (8) {(xp , xq)j} l min b ×k j=1 l min b ×k {(xp , xq)j} l maj b ×k j=1 根据式 (8) 可以找到当前批次中的每个少数类样本的 k 近邻，种子和邻居组成的样本对构成集合，一共个，给少数类样本对分配+1 标签。然后以同样的方法生成当前批次多数类的集合，并分配−1 标签。从集合中随机选择 min_num 个少数类的样本对和 maj_num 个多数类的样本对，在特征空间中合成新的实例，生成新实例的式子可以写成： ϕ(x pq) = ϕ(xp)+δ pq(ϕ(xq)−ϕ(xp)) (9) δ 式中： pq 是一个 0~0.5 的随机数，在特征空间同样控制生成的数据点更加靠近当前批次的样本，使得扩增的样本和当前批次中的样本的特征分布更加相似。 ϕ(x) ϕ(x pq) 对当前批次的样本进行训练之前，先用生成的样本改进目标决策函数。最后使用集成决策函数 (式 (4)) 依次对当前批次的所有实例进行预测。然而，使用式 (7) 生成的新少数类实例利用通常未知的特征转换函数，所以新的合成实例并不能具体得到。目标域通过决策函数中支持向量的核函数计算两个特征空间中实例的内积来训练，可以将合成实例代入目标域决策函数的核函数中计算，其中核函数的计算分为 2 种情况： 1) xj 是合成实例， x 是普通实例时，它们在特征空间的内积为 k(x pq j , x) = ϕ(x pq j )ϕ(x) = [ϕ(x p j )+δ pq(ϕ(x q j )−ϕ(x p j ))]T ϕ(x) = (1−δ pq)k(x p j , x)+δ pqk(x q j , x) (10) 2) xj 和 x 都是合成样本时，特征空间的内积： k(x pq j , x lm) = ϕ(x pq j ) T ϕ(x lm) = [ϕ(x p j )+δ pq(ϕ(x q j )−ϕ(x p j ))]T× [ϕ(x l )+δ lm(ϕ(x m )−ϕ(x l ))] = (1−δ pq)(1−δ lm)k(x p j , x l )+ (1−δ pq)δ lmk(x p j , x m )+ (1−δ lm)δ pqk(x q j , x l )+δ pqδ lmk(x q j , x m ) (11) 使用合成实例改进目标域决策函数，当铰链损失大于 0 时，将合成实例作为支持向量添加到支持向量集，并且也能保持特征空间的可分性，即 h T b (x) = h T (x)+ ∑t j=1 τ pq j yjk(x pq j , x) (12) 定理 1 在目标域的特征空间中添加合成样本同样能保证类别可分。证明目标域函数由支持向量组成，可以表示为 h T (x) = ∑N i=1 τiyik(x, xi) (13) {(xj , yj)} lb 假设当前批次的样本 j=1 在目标域的特征空间是线性可分的，从而可以得到： yjh T (xj) = yj ∑N i=1 τiyik(xj , xi) ⩾ 0, j ∈ 1,2,··· ,lb (14) ϕ(x pq 将式 (9) 生成少数类样本 ) 代入目标函数： h T (x pq) = ∑N i=1 τiyi(ϕ(x pq) T ϕ(xi)) = (1−δ pq) ∑N i=1 τiyik(xp , xi)+δ pq∑N i=1 τiyik(xq , xi) = (1−δ pq)h T (x p )+δ pqh T (x q ) ⩾ 0 (15) h T (x p ) h T (x q ) x p x q δ pq ∈ [0,0.5] 式中：和都不小于 0，和都属于少数类；。所以在目标域的特征空间中生成的样本同样可以保证类别可分。每批次生成的新样本都会优化目标函数在特征空间中的超平面，提高目标函数的性能，从而最终提高整体函数的性能。 2.4 算法描述和复杂度分析 OTLMS_IO 和 OTLMS_FO 算法的步骤近似，下面提供 OTLMS_FO 算法的算法描述和复杂度分析。算法 OTLMS_FO 的算法描述 (h S 1 ,h S 2 ,··· ,h S n ) β ∈ (0,1) 输入源分类器，初始折衷 C，权重折扣参数，每批次扩充 min_num 个少数类和 maj_num 个多数类。 h T (x) = Ø v 1 =v 2 =···=v n 初始化：， =w=1/(n+1)。 1) For 循环目标域的每个批次。 {(xp , xq)j} l min b ×k j=1 {(xp , xq)j} l maj b ×k j=1 ①寻找当前批次少数类和多数类样本的 k 近邻组成种子和邻居对，分别是和。 ②随机从少数类和多数类的样本对中选取 min_num 和 maj_num 个样本对，根据式 (9) 生成新样本。 ③ For 循环用于生成新样本的样本对。 ℓ τ pq = min{C, ℓj/k(x pq j , x pq j )} a. 计算损失和支持向量前的参数。 b. 损失大于 0 时，根据式 (12) 更新目标域函数，其中核函数根据式 (10) 和式 (11)。 ④ For 循环当前批次的每个实例。 a. 根据式 (4) 预测，其中核函数使用式 (10) 和式 (11)。 b. 使用式 (3) 更新权重。 c. 使用式 (2) 更新目标域。第 2 期周晶雨，等：对不平衡目标域的多源在线迁移学习 ·251·

·252· 智能系统学报第17卷 2)输出训练好的集成决策函数（见式(4）)。的类别构成一组迁移学习任务，一共生成了16组上述算法中，①寻找k近邻的时间复杂度是任务。 O(3m1m2d+3M1M2d,其中m1、M1和m2、M2分别是 3.1.320 newsgroups数据集当前批次和前面批次中的少数类和多数类，d是 20 newsgroups数据集(http://qwone.com/~jason// 样本的维数。③使用新样本改进目标函数的时间 20 Newsgroups/)由大约20000个不同主题的新闻复杂度是O(4svd),s是合成样本的总数，v是支持组文档组成，这些数据被组织成20个不同的新闻向量的个数。④训练当前批次真实样本的时间复组，每个组对应一个不同的主题，一共5个主题。杂度是O2vd,一共n个真实样本。在输入空间例如：os、ibm、mac和x是comp主题的新闻组，训练一个批次样本的复杂度是O(3m1m2d+3M1M2d+ cypt、electronics、med和space是sci主题的新闻 4svd+2vd),整个目标域一共N个批次，所以总的组。其中comp主题的新闻组标记为正例，而时间复杂度是ON(3m1m2d+3M1M2d+4svd+2nvd), sci主题的新闻组标记为负例，一共构成4个学习可以近似为O(N(mm2d+M1M2d+svd+vd)g 任务：os_vs_crypt、.ibm_vs_electronics、mac_vs_med 3实验结果与分析和x_vs_space。随机选择一个作为目标域，其余作为源域，一共构成4组迁移任务。本文对提出的算法和在线迁移学习的基线算 3.2基线算法和评价指标法进行了比较，并在多个真实数据集上进行了实为了评估算法的性能，将提出的算法和最新验：Office-Home数据集、Office-31数据集和的几种方法进行了比较。在线被动攻击PA算法 2 ONewsgroups数据集。为了获得可靠的结果，在是一种传统的在线学习算法叨，采用PA作为基相同参数设置的前提下，通过更改测试实例的到线方法，无需知识迁移。考虑到被动攻击PA并达顺序来将每个实验重复10次。结果表明，本文非针对迁移学习问题而设计，通过使用在整个源提出的算法比基线算法获得了更好的性能。域中训练过的分类器初始化PA,来实现PA算法 3.1数据集介绍的一种变体，称为在线迁移学习的“PAIO”。还与 3.1.1 Office-Home数据集种著名的在线迁移学习算法HomOTLMS进行 Office-Home数据集81由4个不同领域的图了比较，该算法从多个源域迁移知识来增强目标像组成：艺术图像(Art)、剪贴画(Clipart)、产品图域的性能。所有的算法均使用Python语言实现像(Product)和现实世界图像(Real World),一共大约和运行。 15500张图像。对于每个域，数据集包含65个类为了验证算法的可靠性，实验结果采用分类别的图像。在我们的实验中，将现实世界图像域精度和G-mean作为评价指标。其中G-mean是正作为目标域，其余3个领域作为源域。并在目标例准确率与负例准确率的综合指标。当数据不平域中随机选择一个样本数小于50的类别作为负衡时，可以评价模型表现，若所有样本都被划分类（少数类），选一个样本数大于80的类别作为正为同一个类别，G-mean值是0。表1是二分类混类（多数类），3个源域也选取这两个类别，然后构淆矩阵，G-mean的计算公式为成一个迁移学习任务。并对原始图片进行了预处 TN TP G-mean VTN+EP+TP+FN (16) 理，每张图片都对应一个1×10000的向量。实验一共生成了30组迁移学习任务。表1二分类混淆矩阵 3.1.2 Office-31数据集 Table 1 Two-classification confusion matrix Oice-31数据集u是一个用于图像分类的迁预测结果真实情况移学习数据集。其包含3个领域的子集：Amazon 正例反例 (A)、Webcam(w、Dslr(D),分为31个类别，共有4652 正例 TP(真正例) FN(假反例张图片。在Office-31数据集中，不仅各个领域的反例 FP(假正例) TN(真反例) 样本总数不同，而且各个域内部类别分布也不平衡，所以可以通过不平衡方法处理Ofce-31数据 3.3 实验结果及参数设置集，促使迁移学习效果提升。实验中，预处理数 3.3.1参数设置据集，每个图片都是1×10000的向量。将Web- 首先将OTLMS IO和OTLMS FO算法与Of. cam作为目标域，其余两个域作为源域。然后选 fice-Home、Office-.31和20 newsgroups数据集上的取Webcam中的一个样本数多的和一个样本数少所有基线算法进行比较。在3个数据集上，设置

2) 输出训练好的集成决策函数 (见式 (4))。 O(3m1m2d +3M1M2d) m1 M1 m2 M2 O(4svd) O(2nvd) O(3m1m2d +3M1M2d+ 4svd +2nvd) O(N(3m1m2d +3M1M2d +4svd +2nvd)) O(N(m1m2d + M1M2d + svd +nvd)) 上述算法中，①寻找 k 近邻的时间复杂度是，其中、和、分别是当前批次和前面批次中的少数类和多数类，d 是样本的维数。③使用新样本改进目标函数的时间复杂度是，s 是合成样本的总数，v 是支持向量的个数。④训练当前批次真实样本的时间复杂度是，一共 n 个真实样本。在输入空间训练一个批次样本的复杂度是，整个目标域一共 N 个批次，所以总的时间复杂度是，可以近似为。 3 实验结果与分析本文对提出的算法和在线迁移学习的基线算法进行了比较，并在多个真实数据集上进行了实验：Office-Home 数据集、Office-31 数据集和 20Newsgroups 数据集。为了获得可靠的结果，在相同参数设置的前提下，通过更改测试实例的到达顺序来将每个实验重复 10 次。结果表明，本文提出的算法比基线算法获得了更好的性能。 3.1 数据集介绍 3.1.1 Office-Home 数据集 Office-Home 数据集[18] 由 4 个不同领域的图像组成：艺术图像 (Art)、剪贴画 (Clipart)、产品图像 (Product) 和现实世界图像 (Real World)，一共大约 15 500 张图像。对于每个域，数据集包含 65 个类别的图像。在我们的实验中，将现实世界图像域作为目标域，其余 3 个领域作为源域。并在目标域中随机选择一个样本数小于 50 的类别作为负类 (少数类)，选一个样本数大于 80 的类别作为正类 (多数类)，3 个源域也选取这两个类别，然后构成一个迁移学习任务。并对原始图片进行了预处理，每张图片都对应一个 1×10 000 的向量。实验一共生成了 30 组迁移学习任务。 3.1.2 Office-31 数据集 Office-31 数据集[19] 是一个用于图像分类的迁移学习数据集。其包含 3 个领域的子集：Amazon (A)、Webcam(w)、Dslr(D)，分为 31 个类别，共有 4652 张图片。在 Office-31 数据集中，不仅各个领域的样本总数不同，而且各个域内部类别分布也不平衡，所以可以通过不平衡方法处理 Office-31 数据集，促使迁移学习效果提升。实验中，预处理数据集，每个图片都是 1×10 000 的向量。将 Webcam 作为目标域，其余两个域作为源域。然后选取 Webcam 中的一个样本数多的和一个样本数少的类别构成一组迁移学习任务，一共生成了 16 组任务。 3.1.3 20newsgroups 数据集 20newsgroups 数据集 (http://qwone.com/~jason/ 20Newsgroups/) 由大约 20 000 个不同主题的新闻组文档组成，这些数据被组织成 20 个不同的新闻组，每个组对应一个不同的主题，一共 5 个主题。例如：os、ibm、mac 和 x 是 comp 主题的新闻组， crypt、electronics、med 和 space 是 sci 主题的新闻组。其中 comp 主题的新闻组标记为正例，而 sci 主题的新闻组标记为负例，一共构成 4 个学习任务：os_vs_crypt、ibm_vs_electronics、mac_vs_med 和 x_vs_space。随机选择一个作为目标域，其余作为源域，一共构成 4 组迁移任务。 3.2 基线算法和评价指标为了评估算法的性能，将提出的算法和最新的几种方法进行了比较。在线被动攻击 PA 算法是一种传统的在线学习算法[17] ，采用 PA 作为基线方法，无需知识迁移。考虑到被动攻击 PA 并非针对迁移学习问题而设计，通过使用在整个源域中训练过的分类器初始化 PA，来实现 PA 算法的一种变体，称为在线迁移学习的“PAIO”。还与一种著名的在线迁移学习算法 HomOTLMS 进行了比较，该算法从多个源域迁移知识来增强目标域的性能。所有的算法均使用 Python 语言实现和运行。为了验证算法的可靠性，实验结果采用分类精度和 G-mean 作为评价指标。其中 G-mean 是正例准确率与负例准确率的综合指标。当数据不平衡时，可以评价模型表现，若所有样本都被划分为同一个类别，G-mean 值是 0。表 1 是二分类混淆矩阵，G-mean 的计算公式为 G-mean = √ TN TN+FP + TP TP+FN (16) 表 1 二分类混淆矩阵 Table 1 Two-classification confusion matrix 真实情况预测结果正例反例正例 TP(真正例) FN(假反例) 反例 FP(假正例) TN(真反例) 3.3 实验结果及参数设置 3.3.1 参数设置首先将 OTLMS_IO 和 OTLMS_FO 算法与 Office-Home、Office-31 和 20newsgroups 数据集上的所有基线算法进行比较。在 3 个数据集上，设置 ·252· 智能系统学报第 17 卷

点击进入文档下载页（PDF格式）

共9页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录