当前位置：和泉文库 > 电气与自动化 > 浏览文档

【机器学习】基于Spark的多标签超网络集成学习

文件格式：PDF，文件大小：1.88MB，售价：6.16元

文档详细内容（约16页）

第12卷第5期智能系统学报 Vol.12 No.5 2017年10月 CAAI Transactions on Intelligent Systems 0ct.2017 D0I:10.11992/is.201706033 网络出版地址：htp:/kns.cmki.net/kcms/detail/23.1538.TP.20170831.1058.018.html 基于Spark的多标签超网络集成学习李航，王进2，赵蕊2 (1.重庆邮电大学软件工程学院，重庆400065：2.重庆邮电大学计算智能重庆市重点实验室，重庆400065) 摘要：近年来，多标签学习在图像识别和文本分类等多个领域得到了广泛关注，具有越来越重要的潜在应用价值。尽管多标签学习的发展日新月异，但仍然存在两个主要挑战，即如何利用标签间的相关性以及如何处理大规模的多标签数据。针对上述问题，基于MLHN算法，提出一种能有效利用标签相关性且能处理大数据集的基于Sak的多标签超网络集成算法SE-MLHN。该算法首先引人代价敏感，使其适应不平衡数据集。其次，改良了超网络演化学习过程，并优化了损失函数，降低了算法时间复杂度。最后，进行了选择性集成，使其适应大规模数据集。在11个不同规模的数据集上进行实验，结果表明，该算法具有较好的分类性能，较低的时间复杂度且具备良好的处理大规模数据集的能力。关键词：多标签学习；超网络：标签相关性；Apache Spark;选择性集成学习中图分类号：TP181文献标志码：A文章编号：1673-4785(2017)05-0624-16 中文引用格式：李航，王进，赵蕊.基于Spark的多标签超网络集成学习[J].智能系统学报，2017,12(5)：624-639. 英文引用格式：LI Hang,WANG Jin,ZHAO Rui.Multi-label hypernetwork ensemble learning based on Spark[J].CAAI transactions on intelligent systems,2017,12(5):624-639. Multi-label hypernetwork ensemble learning based on Spark LI Hang',WANG Jin2,ZHAO Rui2 (1.College of Software Engineering,Chongqing University of Posts and Telecommunications,Chongqing 400065,China;2.Chongqing Key Laboratory of Computational Intelligence,Chongging University of Posts and Telecommunications,Chongging 400065,China) Abstract:Multi-label learning has attracted a great deal of attention in recent years and has a wide range of potential real-world applications,including image identification and text categorization.Although great effort has been expended in the development of multi-label learning,two main challenges remain,i.e.,how to utilize the correlation between labels and how to tackle large-scale multi-label data.To solve these challenges,based on the multi-label hypernetwork (MLHN)algorithm,in this paper,we propose a Spark-based multi-label hypernetwork ensemble algorithm(SEI-MLHN)that effectively utilizes label correlation and can deal with large-scale multi-label datasets.First,the algorithm introduces cost sensitivity to enable it to adapt to unbalanced datasets.Secondly,it improves the hypernetwork evolution learning process,optimizes the loss function,and reduces the inherent time complexity.Lastly,it uses selective ensemble learning to enable it to adapt to large-scale datasets.We conducted experiments on 11 datasets wit different scales.The results show that the proposed algorithm demonstrates excellent categorization performance,low time complexity,and the capability to handle large-scale datasets. Keywords:multi-label learning;hypernetwork;label correlations;Apache Spark;selective ensemble learning 多标签学习在文本分类】、图像注释[3]和生有越来越重要的应用价值。在多标签学习中，训练物信息学)等多个应用领域得到了广泛关注，也具集的一个样本均对应一组标签集合。假设X表示样本空间，Y={1,2,…,9}表示所有可能的标签集收稿日期：2017-06-09.网络出版日期：2017-08-31. 合，其中标签的总数为q,T={(x1,Y),(x2,Y2),, 基金项目：重庆市基础与前沿研究计划项目(cstc2014 jeyiA40001, cstc2014 jcyjA40022):重庆教委科学技术研究项目（自然科 (xm,Ym)}为具有m个样本的训练集，其中x:∈X且学类)(K1400436). Y二Y。则多标签分类的目标是输出一个多标签分通信作者：李航.E-mail:1326202954@q4.com

第１２卷第５期智能系统学报Ｖｏｌ．１２ №．５２０１７年１０月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＯｃｔ．２０１７ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１７０６０３３网络出版地址：ｈｔｔｐ：／／ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７０８３１．１０５８．０１８．ｈｔｍｌ基于Ｓｐａｒｋ的多标签超网络集成学习李航１，王进２，赵蕊２（１．重庆邮电大学软件工程学院，重庆４０００６５；２．重庆邮电大学计算智能重庆市重点实验室，重庆４０００６５）摘要：近年来，多标签学习在图像识别和文本分类等多个领域得到了广泛关注，具有越来越重要的潜在应用价值。尽管多标签学习的发展日新月异，但仍然存在两个主要挑战，即如何利用标签间的相关性以及如何处理大规模的多标签数据。针对上述问题，基于ＭＬＨＮ算法，提出一种能有效利用标签相关性且能处理大数据集的基于Ｓｐａｒｋ的多标签超网络集成算法ＳＥＩ－ＭＬＨＮ。该算法首先引入代价敏感，使其适应不平衡数据集。其次，改良了超网络演化学习过程，并优化了损失函数，降低了算法时间复杂度。最后，进行了选择性集成，使其适应大规模数据集。在１１个不同规模的数据集上进行实验，结果表明，该算法具有较好的分类性能，较低的时间复杂度且具备良好的处理大规模数据集的能力。关键词：多标签学习；超网络；标签相关性；ＡｐａｃｈｅＳｐａｒｋ；选择性集成学习中图分类号：ＴＰ１８１文献标志码：Ａ文章编号：１６７３－４７８５（２０１７）０５－０６２４－１６中文引用格式：李航，王进，赵蕊．基于Ｓｐａｒｋ的多标签超网络集成学习［Ｊ］．智能系统学报，２０１７，１２（５）：６２４－６３９．英文引用格式：ＬＩＨａｎｇ，ＷＡＮＧＪｉｎ，ＺＨＡＯＲｕｉ．Ｍｕｌｔｉ⁃ｌａｂｅｌｈｙｐｅｒｎｅｔｗｏｒｋｅｎｓｅｍｂｌｅｌｅａｒｎｉｎｇｂａｓｅｄｏｎＳｐａｒｋ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１７，１２（５）：６２４－６３９．Ｍｕｌｔｉ⁃ｌａｂｅｌｈｙｐｅｒｎｅｔｗｏｒｋｅｎｓｅｍｂｌｅｌｅａｒｎｉｎｇｂａｓｅｄｏｎＳｐａｒｋＬＩＨａｎｇ１，ＷＡＮＧＪｉｎ２，ＺＨＡＯＲｕｉ２（１．ＣｏｌｌｅｇｅｏｆＳｏｆｔｗａｒｅＥｎｇｉｎｅｅｒｉｎｇ，ＣｈｏｎｇｑｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔｓａｎｄＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ，Ｃｈｏｎｇｑｉｎｇ４０００６５，Ｃｈｉｎａ；２．ＣｈｏｎｇｑｉｎｇＫｅｙＬａｂｏｒａｔｏｒｙｏｆＣｏｍｐｕｔａｔｉｏｎａｌＩｎｔｅｌｌｉｇｅｎｃｅ，ＣｈｏｎｇｑｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔｓａｎｄＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ，Ｃｈｏｎｇｑｉｎｇ４０００６５，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇｈａｓａｔｔｒａｃｔｅｄａｇｒｅａｔｄｅａｌｏｆａｔｔｅｎｔｉｏｎｉｎｒｅｃｅｎｔｙｅａｒｓａｎｄｈａｓａｗｉｄｅｒａｎｇｅｏｆｐｏｔｅｎｔｉａｌｒｅａｌ⁃ｗｏｒｌｄａｐｐｌｉｃａｔｉｏｎｓ，ｉｎｃｌｕｄｉｎｇｉｍａｇｅｉｄｅｎｔｉｆｉｃａｔｉｏｎａｎｄｔｅｘｔｃａｔｅｇｏｒｉｚａｔｉｏｎ．Ａｌｔｈｏｕｇｈｇｒｅａｔｅｆｆｏｒｔｈａｓｂｅｅｎｅｘｐｅｎｄｅｄｉｎｔｈｅｄｅｖｅｌｏｐｍｅｎｔｏｆｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇ，ｔｗｏｍａｉｎｃｈａｌｌｅｎｇｅｓｒｅｍａｉｎ，ｉ．ｅ．，ｈｏｗｔｏｕｔｉｌｉｚｅｔｈｅｃｏｒｒｅｌａｔｉｏｎｂｅｔｗｅｅｎｌａｂｅｌｓａｎｄｈｏｗｔｏｔａｃｋｌｅｌａｒｇｅ⁃ｓｃａｌｅｍｕｌｔｉ⁃ｌａｂｅｌｄａｔａ．Ｔｏｓｏｌｖｅｔｈｅｓｅｃｈａｌｌｅｎｇｅｓ，ｂａｓｅｄｏｎｔｈｅｍｕｌｔｉ⁃ｌａｂｅｌｈｙｐｅｒｎｅｔｗｏｒｋ（ＭＬＨＮ）ａｌｇｏｒｉｔｈｍ，ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｐｒｏｐｏｓｅａＳｐａｒｋ⁃ｂａｓｅｄｍｕｌｔｉ⁃ｌａｂｅｌｈｙｐｅｒｎｅｔｗｏｒｋｅｎｓｅｍｂｌｅａｌｇｏｒｉｔｈｍ（ＳＥＩ⁃ＭＬＨＮ）ｔｈａｔｅｆｆｅｃｔｉｖｅｌｙｕｔｉｌｉｚｅｓｌａｂｅｌｃｏｒｒｅｌａｔｉｏｎａｎｄｃａｎｄｅａｌｗｉｔｈｌａｒｇｅ⁃ｓｃａｌｅｍｕｌｔｉ⁃ｌａｂｅｌｄａｔａｓｅｔｓ．Ｆｉｒｓｔ，ｔｈｅａｌｇｏｒｉｔｈｍｉｎｔｒｏｄｕｃｅｓｃｏｓｔｓｅｎｓｉｔｉｖｉｔｙｔｏｅｎａｂｌｅｉｔｔｏａｄａｐｔｔｏｕｎｂａｌａｎｃｅｄｄａｔａｓｅｔｓ．Ｓｅｃｏｎｄｌｙ，ｉｔｉｍｐｒｏｖｅｓｔｈｅｈｙｐｅｒｎｅｔｗｏｒｋｅｖｏｌｕｔｉｏｎｌｅａｒｎｉｎｇｐｒｏｃｅｓｓ，ｏｐｔｉｍｉｚｅｓｔｈｅｌｏｓｓｆｕｎｃｔｉｏｎ，ａｎｄｒｅｄｕｃｅｓｔｈｅｉｎｈｅｒｅｎｔｔｉｍｅｃｏｍｐｌｅｘｉｔｙ．Ｌａｓｔｌｙ，ｉｔｕｓｅｓｓｅｌｅｃｔｉｖｅｅｎｓｅｍｂｌｅｌｅａｒｎｉｎｇｔｏｅｎａｂｌｅｉｔｔｏａｄａｐｔｔｏｌａｒｇｅ⁃ｓｃａｌｅｄａｔａｓｅｔｓ．Ｗｅｃｏｎｄｕｃｔｅｄｅｘｐｅｒｉｍｅｎｔｓｏｎ１１ｄａｔａｓｅｔｓｗｉｔｄｉｆｆｅｒｅｎｔｓｃａｌｅｓ．Ｔｈｅｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｐｒｏｐｏｓｅｄａｌｇｏｒｉｔｈｍｄｅｍｏｎｓｔｒａｔｅｓｅｘｃｅｌｌｅｎｔｃａｔｅｇｏｒｉｚａｔｉｏｎｐｅｒｆｏｒｍａｎｃｅ，ｌｏｗｔｉｍｅｃｏｍｐｌｅｘｉｔｙ，ａｎｄｔｈｅｃａｐａｂｉｌｉｔｙｔｏｈａｎｄｌｅｌａｒｇｅ⁃ｓｃａｌｅｄａｔａｓｅｔｓ．Ｋｅｙｗｏｒｄｓ：ｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇ；ｈｙｐｅｒｎｅｔｗｏｒｋ；ｌａｂｅｌｃｏｒｒｅｌａｔｉｏｎｓ；ＡｐａｃｈｅＳｐａｒｋ；ｓｅｌｅｃｔｉｖｅｅｎｓｅｍｂｌｅｌｅａｒｎｉｎｇ收稿日期：２０１７－０６－０９．网络出版日期：２０１７－０８－３１．基金项目：重庆市基础与前沿研究计划项目（ｃｓｔｃ２０１４ｊｃｙｊＡ４０００１，ｃｓｔｃ２０１４ｊｃｙｊＡ４００２２）；重庆教委科学技术研究项目（自然科学类）（ＫＪ１４００４３６）．通信作者：李航．Ｅ⁃ｍａｉｌ：１３２６２０２９５４＠ｑｑ．ｃｏｍ．多标签学习在文本分类［１－２］、图像注释［３－４］和生物信息学［５］等多个应用领域得到了广泛关注，也具有越来越重要的应用价值。在多标签学习中，训练集的一个样本均对应一组标签集合。假设Ｘ表示样本空间，Ｙ＝｛１，２，…，ｑ｝表示所有可能的标签集合，其中标签的总数为ｑ，Ｔ＝｛（ｘ１，Ｙ１），（ｘ２，Ｙ２），…，（ｘｍ，Ｙｍ）｝为具有ｍ个样本的训练集，其中ｘｉ∈Ｘ且Ｙｉ⊆Ｙ。则多标签分类的目标是输出一个多标签分

第5期李航，等：基于Spark的多标签超网络集成学习 ·625· 类器h:x→2'，使得对每一个给定的实例x∈X,都能据集，同时算法也未考虑到标签不平衡对性能的预测出合适的标签集合Y·二Y。影响。多标签学习的关键挑战在于分类器预测的标针对目前多标签超网络存在的问题，本文基于签空间数量为指数级(2)。为了解决这个问题，有 MLHN的思想，提出了Spark平台下的改进多标签效地利用不同标签之间的相关性以促进学习过程超网络集成算法SEI-MLHN,有效且高效地解决了已成为多标签学习的关键6-刃。在过去几年，许多多标签学习问题。首先对多标签数据集进行划分：利用标签相关性的算法被提出，如校准标签排序然后对划分后的数据分别用基于Spark平台的改进 (CLR)[)⑧，随机k标签集(RAkEL)[)和广义k标签超网络算法SI-MLHN进行训练，形成多个局部超网集成(GLE)[均考虑了标签之间的相关性，然而这络：最后对多个局部超网络进行选择性集成完成对些算法的计算复杂度随标签数量的增加而显著测试样本的预测。其中，SI-MLHN利用MLHN的思增加。想并在Spark平台下进行改进，首先计算每个样本同时，大部分现有的多标签学习方法没有充分的k近邻，然后利用k近邻对超网络进行演化学习，考虑多标签数据的固有属性，即标签类别不平衡。得到演化超网络。对每一个标签y∈Y,令D={(x,+1)y∈Y:,1≤ 为了评估本文算法的性能以及对大规模数据 i≤N}以及D={(x:,-1)lyY:,1≤i≤N}作为正集的适应性，选用不同规模数据集来进行对比实样本和负样本。一般来说，每个类别的正训练样本验，验证了本文算法具有良好性能以及具备处理大数远远低于其负训练样本数，这可能导致大多数多规模数据集的能力。本文的主要贡献如下：标签学习算法的性能降低。文献[12-14]指出， 1)引入了代价敏感，使其能良好地适应多标签不平衡问题普遍存在于多标签应用中，会损害分类不平衡数据，提升算法性能；性能。算法交叉耦合聚合学习方法(cross-coupling 2)改良了超网络演化学习过程，大幅度降低 aggregation,COCOA)[同时考虑了标签相关性和 MLHN算法的计算复杂度：不平衡问题，同样其算法复杂度很高，因此如何有 3)利用选择性集成，降低了时间复杂度，并提效和高效地利用标签间的相关性并削弱不平衡问高分类性能；题的影响仍然是一个悬而未决的问题。 4)基于Spark计算框架实现算法，使算法实现另一方面，目前现实应用中的多标签数据集的并行，提高算法运行效率。样本、特征和标签的数量远远超过常规大小，例如， 1 相关工作视频共享网站Youtube中有数百万个视频，而每个视频可以被数百万个候选类别标记。然而，大多数虽然多标签学习已经成功应用于生物信息学多标签学习算法不能很好地适应数据集规模很大音频分类[2]以及wb挖掘2]等多个领域，但是由的应用。对近3年出现的多标签学习方法[5-]使于多标签分类器的输出空间为指数级，以及现在大用的训练集的规模进行统计，可以看出训练样本数部分应用的数据集规模日益增加，对多标签学习造在50000~100000之间的数据集仅有5个，样本数成了很大的挑战。大于100000的数据集仅有1个，大多数现有的多标为了应对分类器输出空间数量巨大这个问题，签学习算法仅适用于处理中小规模数据集。其次，现有的方法是利用标签相关性来促进学习过程。文献[19]虽然利用大规模数据集进行了实验，但是基于标签关联性，张敏灵和周志华[7-]将现有的学它的计算复杂度高。习算法分为3类，分别为一阶策略、二阶策略以及高多标签超网络LHN与协同演化多标签超网阶策略。一阶策略是简单地将多标签学习转为多络Co-MLHN[24]可以挖掘标签间的高阶关系，它将个独立的二分类问题来解决多标签学习问题，例如传统的超网络转为多标签超网络，用超边和超边的 L-KNN2]、BR[30]等：二阶策略通过利用标签之间权重来表示特征子集与标签之间的高阶关系，利用的成对关系解决多标签学习问题，例如CLR31] 了任意标签间的相关性，且计算复杂度随标签数量 BP-ML[)]等：高阶策略通过探索标签之间的高阶的增加呈线性增长，但是其算法时间复杂度与样本关系来解决多标签学习问题，例如CC[3)、CNMF[34] 数量呈平方级关系，不能很好地处理规模较大的数等。对这3种策略进行比较分析，一阶策略的效率

类器ｈ：ｘ→２ｙ，使得对每一个给定的实例ｘ∈Ｘ，都能预测出合适的标签集合Ｙ ∗⊆Ｙ。多标签学习的关键挑战在于分类器预测的标签空间数量为指数级（２ｑ）。为了解决这个问题，有效地利用不同标签之间的相关性以促进学习过程已成为多标签学习的关键［６－７］。在过去几年，许多利用标签相关性的算法被提出，如校准标签排序（ＣＬＲ）［８］，随机ｋ标签集（ＲＡｋＥＬ）［９］和广义ｋ标签集成（ＧＬＥ）［１０］均考虑了标签之间的相关性，然而这些算法的计算复杂度随标签数量的增加而显著增加。同时，大部分现有的多标签学习方法没有充分考虑多标签数据的固有属性，即标签类别不平衡。对每一个标签ｙｊ∈Ｙ，令Ｄ＋ｊ＝｛（ｘｉ，＋１）ｙｊ∈Ｙｉ，１≤ ｉ≤Ｎ｝以及Ｄ－ｊ＝｛（ｘｉ，－１）ｙｊ∉Ｙｉ，１≤ｉ≤Ｎ｝作为正样本和负样本。一般来说，每个类别的正训练样本数远远低于其负训练样本数，这可能导致大多数多标签学习算法的性能降低［１１］。文献［１２－１４］指出，不平衡问题普遍存在于多标签应用中，会损害分类性能。算法交叉耦合聚合学习方法（ｃｒｏｓｓ⁃ｃｏｕｐｌｉｎｇａｇｇｒｅｇａｔｉｏｎ，ＣＯＣＯＡ）［１４］同时考虑了标签相关性和不平衡问题，同样其算法复杂度很高，因此如何有效和高效地利用标签间的相关性并削弱不平衡问题的影响仍然是一个悬而未决的问题。另一方面，目前现实应用中的多标签数据集的样本、特征和标签的数量远远超过常规大小，例如，视频共享网站Ｙｏｕｔｕｂｅ中有数百万个视频，而每个视频可以被数百万个候选类别标记。然而，大多数多标签学习算法不能很好地适应数据集规模很大的应用。对近３年出现的多标签学习方法［１５－２３］使用的训练集的规模进行统计，可以看出训练样本数在５００００～１０００００之间的数据集仅有５个，样本数大于１０００００的数据集仅有１个，大多数现有的多标签学习算法仅适用于处理中小规模数据集。其次，文献［１９］虽然利用大规模数据集进行了实验，但是它的计算复杂度高。多标签超网络ＭＬＨＮ与协同演化多标签超网络Ｃｏ⁃ＭＬＨＮ［２４］可以挖掘标签间的高阶关系，它将传统的超网络转为多标签超网络，用超边和超边的权重来表示特征子集与标签之间的高阶关系，利用了任意标签间的相关性，且计算复杂度随标签数量的增加呈线性增长，但是其算法时间复杂度与样本数量呈平方级关系，不能很好地处理规模较大的数据集，同时算法也未考虑到标签不平衡对性能的影响。针对目前多标签超网络存在的问题，本文基于ＭＬＨＮ的思想，提出了Ｓｐａｒｋ平台下的改进多标签超网络集成算法ＳＥＩ⁃ＭＬＨＮ，有效且高效地解决了多标签学习问题。首先对多标签数据集进行划分；然后对划分后的数据分别用基于Ｓｐａｒｋ平台的改进超网络算法ＳＩ⁃ＭＬＨＮ进行训练，形成多个局部超网络；最后对多个局部超网络进行选择性集成完成对测试样本的预测。其中，ＳＩ⁃ＭＬＨＮ利用ＭＬＨＮ的思想并在Ｓｐａｒｋ平台下进行改进，首先计算每个样本的ｋ近邻，然后利用ｋ近邻对超网络进行演化学习，得到演化超网络。为了评估本文算法的性能以及对大规模数据集的适应性，选用不同规模数据集来进行对比实验，验证了本文算法具有良好性能以及具备处理大规模数据集的能力。本文的主要贡献如下：１）引入了代价敏感，使其能良好地适应多标签不平衡数据，提升算法性能；２）改良了超网络演化学习过程，大幅度降低ＭＬＨＮ算法的计算复杂度；３）利用选择性集成，降低了时间复杂度，并提高分类性能；４）基于Ｓｐａｒｋ计算框架实现算法，使算法实现并行，提高算法运行效率。１相关工作虽然多标签学习已经成功应用于生物信息学、音频分类［２５］以及ｗｅｂ挖掘［２６］等多个领域，但是由于多标签分类器的输出空间为指数级，以及现在大部分应用的数据集规模日益增加，对多标签学习造成了很大的挑战。为了应对分类器输出空间数量巨大这个问题，现有的方法是利用标签相关性来促进学习过程。基于标签关联性，张敏灵和周志华［２７－２８］将现有的学习算法分为３类，分别为一阶策略、二阶策略以及高阶策略。一阶策略是简单地将多标签学习转为多个独立的二分类问题来解决多标签学习问题，例如ＭＬ⁃ＫＮＮ［２９］、ＢＲ［３０］等；二阶策略通过利用标签之间的成对关系解决多标签学习问题，例如ＣＬＲ［３１］、ＢＰ⁃ＭＬＬ［３２］等；高阶策略通过探索标签之间的高阶关系来解决多标签学习问题，例如ＣＣ［３３］、ＣＮＭＦ［３４］等。对这３种策略进行比较分析，一阶策略的效率第５期李航，等：基于Ｓｐａｒｋ的多标签超网络集成学习 ·６２５·

·626 智能系统学报第12卷高且概念易理解，但忽略了标签相关性。二阶策略首先，对多标签数据集进行划分，然后对划分后的在一定程度上解决了标签相关性，但忽略了现实世数据分别用SI-MLHN算法进行训练，形成多个局部界中相关性超过二阶的情况。高阶策略具有比一超网络，最后对多个局部超网络进行选择性集成完阶和二阶更强的建模能力，但是其计算复杂度更成对测试样本的预测。其中，算法SI-MLHN利用高，可扩展性更低。 MLHN的思想，在Spark平台下进行改进，首先计算为了应对多标签数据的不平衡性造成算法每个样本的k近邻，然后利用k近邻对超网络进行性能下降这个问题，常规解决方案是为每一个标演化学习，得到超网络。本节中，将对算法MLHN, 签训练一个二分类器，并通过随机或合成欠采 MLHN的改进算法SI-MLHN,以及以SI-MLHN为基样/过采样来处理这个二分类器[35-6]，但这些方学习器进行选择性集成的算法SEI-MLHN依次进行法没有很好地利用标签间的关联性。也有其他介绍。的解决方案，如张敏灵等[1)提出交叉耦合聚合 2.1 多标签演化超网络(MLHN)】算法C0COA,但是这种算法时间复杂度高，不适多标签演化超网络利用超边集合以及超边权合处理大规模数据集。重来表示样本特征子集与多标签类别之间的高阶为了应对数据集规模大这个问题，现有的解决关联。通过演化学习，可以近似地表示训练样本X 方案是利用分布式存储系统，提供一个基础架构，和其标签Y之间的概率分布P(X,Y),在MLHN中从而实现高效和可扩展的大数据挖掘与分析。目可以按式(1)进行表示：前，为大数据分析开发了大量的计算框架7)，其 P(x,y:=1) 中，最经典的是MapReduce[。MapReduce简单 P(y:=1x) P(x) 通用且成熟，被广泛使用，但是它只能进行M即和 0x%=19 Reduce计算，不适合描述复杂数据处理过程，数据需要写到磁盘，不能有效地执行迭代算法。为了克 ,0=19)+y,10x=09 服MapReduce的缺点，大量的计算框架被设计出 (1) 来，如Haloop【wy、Apache Mahout[),i2 MapReduce 式中：y:为样本x的第i个标签；0：为超边集合 [o]和Apache Spark[a】等。Haloop是Hadoop |E|中e,的第i个权重向量的值；I(x,y:;e)为超边 MapReduce框架的修改版本，它继承了Hadoop的基与样本匹配函数，若匹配则取值为1，反之则为0，如本分布式计算模型和架构。Apache Mahout是一个式(2)所示：开源项目，主要用于创建可扩展的机器学习算法。 (1,dis(xn;e)≤8且y元=ym I(x。,ym;e;)= i2 MapReduce是MapReduce的一个增量处理扩展， 0,其他并广泛用于大数据挖掘。Apache Spark是一个开源 (2) 的集群计算框架，用于大规模的交互计算。在上述式中：ya是超边e的第i个标签，dis(xn;e)为超边框架中，Apache Spark利用内存计算，并保留 e,与样本x的欧氏距离，δ为匹配阈值。δ的计算方 MapReduce的可扩展性和容错能力，对迭代算法非法如式(3)：常有效。Spark执行速度比Hadoop MapReduce快 dim(e) G.lx dim(l 6= (3) 100倍[)，并且显著快于其他计算框架。综上所述，为了解决上述问题，本文使用Spark 式中：其中G,为x的近邻样本集合，dim(x)为样本计算框架作为平台来实现多标签算法。 x的特征维度。为了对未知样本进行预测，MLHN通常把标签 2 Spark下改进多标签超网络集成预测误差和相关标签不一致性最小化作为演化学算法习目标。通过超边初始化、超边替代和梯度下降演 MLHN可以高效地挖掘标签间的关联性且学习化学习来对训练集进行学习，使超边权重心：进行更复杂度与标签维度呈线性关系，因此本文基于新，流程如图1所示。图1中，超边ea=（",y4, MLHN算法提出了Spark平台下的改进多标签超网 w6),'a是超边的顶点，为x的部分特征；y。为x的络集成算法SEI-MLHN,高效地解决了多标签问题。标签；w是x.对应y.的权重向量

高且概念易理解，但忽略了标签相关性。二阶策略在一定程度上解决了标签相关性，但忽略了现实世界中相关性超过二阶的情况。高阶策略具有比一阶和二阶更强的建模能力，但是其计算复杂度更高，可扩展性更低。为了应对多标签数据的不平衡性造成算法性能下降这个问题，常规解决方案是为每一个标签训练一个二分类器，并通过随机或合成欠采样／过采样来处理这个二分类器［３５－３６］，但这些方法没有很好地利用标签间的关联性。也有其他的解决方案，如张敏灵等［１４］提出交叉耦合聚合算法ＣＯＣＯＡ，但是这种算法时间复杂度高，不适合处理大规模数据集。为了应对数据集规模大这个问题，现有的解决方案是利用分布式存储系统，提供一个基础架构，从而实现高效和可扩展的大数据挖掘与分析。目前，为大数据分析开发了大量的计算框架［３７－４１］，其中，最经典的是ＭａｐＲｅｄｕｃｅ［３７］。ＭａｐＲｅｄｕｃｅ简单、通用且成熟，被广泛使用，但是它只能进行Ｍａｐ和Ｒｅｄｕｃｅ计算，不适合描述复杂数据处理过程，数据需要写到磁盘，不能有效地执行迭代算法。为了克服ＭａｐＲｅｄｕｃｅ的缺点，大量的计算框架被设计出来，如Ｈａｌｏｏｐ［３８］、ＡｐａｃｈｅＭａｈｏｕｔ［３９］、ｉ２ＭａｐＲｅｄｕｃｅ［４０］和ＡｐａｃｈｅＳｐａｒｋ［４１］等。Ｈａｌｏｏｐ是ＨａｄｏｏｐＭａｐＲｅｄｕｃｅ框架的修改版本，它继承了Ｈａｄｏｏｐ的基本分布式计算模型和架构。ＡｐａｃｈｅＭａｈｏｕｔ是一个开源项目，主要用于创建可扩展的机器学习算法。ｉ２ＭａｐＲｅｄｕｃｅ是ＭａｐＲｅｄｕｃｅ的一个增量处理扩展，并广泛用于大数据挖掘。ＡｐａｃｈｅＳｐａｒｋ是一个开源的集群计算框架，用于大规模的交互计算。在上述框架中，ＡｐａｃｈｅＳｐａｒｋ利用内存计算，并保留ＭａｐＲｅｄｕｃｅ的可扩展性和容错能力，对迭代算法非常有效。Ｓｐａｒｋ执行速度比ＨａｄｏｏｐＭａｐＲｅｄｕｃｅ快１００倍［４１］，并且显著快于其他计算框架。综上所述，为了解决上述问题，本文使用Ｓｐａｒｋ计算框架作为平台来实现多标签算法。２Ｓｐａｒｋ下改进多标签超网络集成算法ＭＬＨＮ可以高效地挖掘标签间的关联性且学习复杂度与标签维度呈线性关系，因此本文基于ＭＬＨＮ算法提出了Ｓｐａｒｋ平台下的改进多标签超网络集成算法ＳＥＩ⁃ＭＬＨＮ，高效地解决了多标签问题。首先，对多标签数据集进行划分，然后对划分后的数据分别用ＳＩ⁃ＭＬＨＮ算法进行训练，形成多个局部超网络，最后对多个局部超网络进行选择性集成完成对测试样本的预测。其中，算法ＳＩ⁃ＭＬＨＮ利用ＭＬＨＮ的思想，在Ｓｐａｒｋ平台下进行改进，首先计算每个样本的ｋ近邻，然后利用ｋ近邻对超网络进行演化学习，得到超网络。本节中，将对算法ＭＬＨＮ，ＭＬＨＮ的改进算法ＳＩ⁃ＭＬＨＮ，以及以ＳＩ⁃ＭＬＨＮ为基学习器进行选择性集成的算法ＳＥＩ⁃ＭＬＨＮ依次进行介绍。２．１多标签演化超网络（ＭＬＨＮ）多标签演化超网络利用超边集合以及超边权重来表示样本特征子集与多标签类别之间的高阶关联。通过演化学习，可以近似地表示训练样本Ｘ和其标签Ｙ之间的概率分布Ｐ（Ｘ，Ｙ），在ＭＬＨＮ中可以按式（１）进行表示：Ｐ（ｙｉ＝１ｘ）＝Ｐ（ｘ，ｙｉ＝１）Ｐ（ｘ）＝ ∑ Ｅｊ＝１ｗｊｉＩ（ｘ，ｙｉ＝１；ｅｊ） ∑ Ｅｊ＝１ｗｊｉＩ（ｘ，ｙｉ＝１；ｅｊ）＋ ∑ Ｅｊ＝１ｗｊｉＩ（ｘ，ｙｉ＝０；ｅｊ）（１）式中：ｙｉ为样本ｘ的第ｉ个标签；ｗｊｉ为超边集合Ｅ中ｅｊ的第ｉ个权重向量的值；Ｉ（ｘ，ｙｉ；ｅｊ）为超边与样本匹配函数，若匹配则取值为１，反之则为０，如式（２）所示：Ｉ（ｘｎ，ｙｎｉ；ｅｊ）＝１，ｄｉｓ（ｘｎ；ｅｊ） ≤ δ 且ｙｊｉ＝ｙｎｉ {０，其他（２）式中：ｙｊｉ是超边ｅｊ的第ｉ个标签，ｄｉｓ（ｘｎ；ｅｊ）为超边ｅｊ与样本ｘ的欧氏距离，δ 为匹配阈值。 δ 的计算方法如式（３）： δ ＝ｄｉｍ（ｅｊ）Ｇｘ × ｄｉｍ（ｘ）∑ｘ′∈Ｇｘ ‖ｘ－ｘ′‖ （３）式中：其中Ｇｘ为ｘ的近邻样本集合，ｄｉｍ（ｘ）为样本ｘ的特征维度。为了对未知样本进行预测，ＭＬＨＮ通常把标签预测误差和相关标签不一致性最小化作为演化学习目标。通过超边初始化、超边替代和梯度下降演化学习来对训练集进行学习，使超边权重ｗｊｉ进行更新，流程如图１所示。图１中，超边ｅｈ＝（ｖｈ，ｙｈ，ｗｈ），ｖｈ是超边的顶点，为ｘ的部分特征；ｙｈ为ｘ的标签；ｗｈ是ｘｈ对应ｙｈ的权重向量。 ·６２６· 智能系统学报第１２卷

第5期李航，等：基于Spark的多标签超网络集成学习 ·627. 超边集合E e 演化学习 e 训练集超边初始化 VilVh2.Vis D(x) Y12·y 超边替代 D=(2,y2 W1w2…w D1=(xm,) 测试样本 D=(x) 梯度下降测试标签 J” 图1MLHN算法流程图 Fig.1 Basic flow chart of MLHN 2.2 Spark下改进多标签超网络(Sl-MLHN) 由于SL-MLHN采用sigmoid函数返回了每个标 MLHN是一种有效的多标签学习算法，但是目签与样本相关的概率P(ym=1x.),故将相关标签前的MLHN算法计算复杂度高，且对多标签数据的阈值：设定为0.5，从而获得每个样本的标签集合，不平衡特性没有关注。本文一方面改进了MLHN 如式(8)：的训练过程，引入了代价敏感：另一方面通过并行 1,P(ym=1xn)≥ y= (8) 计算来降低运算时间，设计了Spark下改进多标签 0,其他超网络，记作SI-MLHN。在本小节，将分别介绍SL 在多标签学习中，一个样本只包含标签空间中 MLHN的多标签分类学习过程和演化学习过程。的部分标签。如果可以排除一些不可能的标签，可 2.2.1SI-MLHN分类学习过程以减少标签预测的不确定性。因此，SI-MLHN借鉴 S-MLHN算法关注了多标签样本中普遍存在了Co-MLHN算法的思想，将KNN引入算法，减少算的标签类别不平衡现象。对于一个未知样本x。, 法预测的不确定标签，提高算法的性能。算法1为 SI-MLHN将返回每个标签的概率P(ym=1x),如 SI-MLHN分类学习过程的伪代码。式(4)：算法1SI-MLHN分类学习过程 P(m=1x)=1 输入训练集T,测试样本x。,标签数q,近邻数 1+e(h-8) (4) 量k,SI-MLHN模型H,标签阈值t: 式中：W为将样本x。的标签i分类为1的权重和，W 输出标签概率p,预测标签y·。则为分类为0的权重和，计算方法如式(5)、(6)： 1)在训练集T中计算x。的k近邻 w=∑，10xa=1g)×c(5) 2)将模型H中是x.的近邻且与x匹配的超边加入集合U中明=，0x=05) (6) 3)从U中提取标签y:=1的超边到集合U中式中：y为样本x的第i个标签；w:为超边集合 4)for i=1 to q do |E中e,的第i个权重向量的值；I(x.,ym;e)的计 5)W[i]←0 算方法如式(2)；cost:为第i个标签的代价值，计算 6)for each e∈U 方式如式(7)： 7)W,[i]=W,[i]+w元×cost (x)y=o 8)end for w4=1+器2 (7) 9)end for 式中T为有m个样本的训练集。 10)从中提取标签y,=0的超边到集°中

图１ＭＬＨＮ算法流程图Ｆｉｇ．１ＢａｓｉｃｆｌｏｗｃｈａｒｔｏｆＭＬＨＮ２．２Ｓｐａｒｋ下改进多标签超网络（ＳＩ⁃ＭＬＨＮ）ＭＬＨＮ是一种有效的多标签学习算法，但是目前的ＭＬＨＮ算法计算复杂度高，且对多标签数据的不平衡特性没有关注。本文一方面改进了ＭＬＨＮ的训练过程，引入了代价敏感；另一方面通过并行计算来降低运算时间，设计了Ｓｐａｒｋ下改进多标签超网络，记作ＳＩ⁃ＭＬＨＮ。在本小节，将分别介绍ＳＩ⁃ ＭＬＨＮ的多标签分类学习过程和演化学习过程。２．２．１ＳＩ⁃ＭＬＨＮ分类学习过程ＳＩ⁃ＭＬＨＮ算法关注了多标签样本中普遍存在的标签类别不平衡现象。对于一个未知样本ｘｎ，ＳＩ⁃ＭＬＨＮ将返回每个标签的概率Ｐ（ｙｎｉ＝１ｘｎ），如式（４）：Ｐ（ｙｎｉ＝１ｘｎ）＝１１＋ｅ－（Ｗ１ｎｉ－Ｗ０ｎｉ）（４）式中：Ｗ１ｎｉ为将样本ｘｎ的标签ｉ分类为１的权重和，Ｗ０ｎｉ则为分类为０的权重和，计算方法如式（５）、（６）：Ｗ１ｎｉ＝ ∑ Ｅｊ＝１ｗｊｉＩ（ｘｎ，ｙｎｉ＝１；ｅｊ） × ｃｏｓｔｉ（５）Ｗ０ｎｉ＝ ∑ Ｅｊ＝１ｗｊｉＩ（ｘｎ，ｙｎｉ＝０；ｅｊ）（６）式中：ｙｎｉ为样本ｘ的第ｉ个标签；ｗｊｉ为超边集合Ｅ中ｅｊ的第ｉ个权重向量的值；Ｉ（ｘｎ，ｙｎｉ；ｅｊ）的计算方法如式（２）；ｃｏｓｔｉ为第ｉ个标签的代价值，计算方式如式（７）：ｃｏｓｔｉ＝１＋ｌｇ ∑ （ｘｎ，ｙｎ）∈Ｔ｛（ｘｎ，ｙｎ）ｙｎｉ＝０｝｛（ｘｎ，ｙｎ）ｙｎｉ＝１｝（７）式中Ｔ为有ｍ个样本的训练集。由于ＳＩ⁃ＭＬＨＮ采用ｓｉｇｍｏｉｄ函数返回了每个标签与样本相关的概率Ｐ（ｙｎｉ＝１ｘｎ），故将相关标签阈值ｔｉ设定为０．５，从而获得每个样本的标签集合，如式（８）：ｙ ∗ ｎｉ＝１，Ｐ（ｙｎｉ＝１ｘｎ） ≥ ｔｉ０，其他 { （８）在多标签学习中，一个样本只包含标签空间中的部分标签。如果可以排除一些不可能的标签，可以减少标签预测的不确定性。因此，ＳＩ⁃ＭＬＨＮ借鉴了Ｃｏ⁃ＭＬＨＮ算法的思想，将ＫＮＮ引入算法，减少算法预测的不确定标签，提高算法的性能。算法１为ＳＩ⁃ＭＬＨＮ分类学习过程的伪代码。算法１ＳＩ⁃ＭＬＨＮ分类学习过程输入训练集Ｔ，测试样本ｘｎ，标签数ｑ，近邻数量ｋ，ＳＩ⁃ＭＬＨＮ模型Ｈ，标签阈值ｔｉ；输出标签概率ｐ，预测标签ｙ ∗ 。１）在训练集Ｔ中计算ｘｎ的ｋ近邻２）将模型Ｈ中是ｘｎ的近邻且与ｘｎ匹配的超边加入集合Ｕ中３）从Ｕ中提取标签ｙｉ＝１的超边到集合Ｕ１中４）ｆｏｒｉ＝１ｔｏｑｄｏ５）Ｗ１［ｉ］←０６）ｆｏｒｅａｃｈｅｊ∈Ｕ１７）Ｗ１［ｉ］＝Ｗ１［ｉ］＋ｗｊｉ ×ｃｏｓｔｉ８）ｅｎｄｆｏｒ９）ｅｎｄｆｏｒ１０）从Ｕ中提取标签ｙｉ＝０的超边到集Ｕ０中第５期李航，等：基于Ｓｐａｒｋ的多标签超网络集成学习 ·６２７·

·628 智能系统学报第12卷 11)for i=1 to q do 度越高，则适应值越高。同时，式(4)也展示出，样 12)W[i]←0 本与匹配超边的标签相似度越高，被正确分类的概 l3)for each e∈ 率越大。 14)W[i门=W[]+0月本文将预测误差作为学习目标。损失函数如 15)end for 式(10)所示，P·(ym=1x.)为SI-MLHN分类器对 16)end for 样本(xmyn)的第i个标签的预测值，利用梯度下降 17)for i=1 to g do 调整超边的权重，降低损失值。超边权重更新为式 1 (11),并通过式(12)~（14)，计算△0，其中心为 18)P(y:=1x.)=1+em-a可第k条超边第i个标签的权重，)为学习速率。 19)p[i]=P(y:=1lxn) (网=2[P6.=小)-P.=1k 20)ifP(ym=1x.)≥t (10) 21)y·[i]=1 0后=10：+△10 (11) 22)else y·[i]=0 aErr,(W) 23)end if △10a=-7 (12) oWki 24)end for Err,(W) 25)return p,y' aw =(P(y=1x)- 2.2.2SI-MLHN演化学习过程 SI-MLHN利用超边的顶点和权重向量来代表 P*(y=1x)) ap'(y:=1x) (13) 8wki 多标签数据标签间的高阶关联，其权重向量由超边 1 从训练集中演化学习而来，首先进行了超边初始 ap'(yni=1x)1+e-(w-w&) 化，然后进行了超边替代与梯度下降演化学习，并 8w 利用Spark进行分布式并行计算，通过多个操作技 1 巧，如cache、broadst,.将变量缓存于内存中，大量减 1- 1+e-(w-w9 少了网络交换数据量和磁盘/0操作，使算法更 1+e-(-9) (14) 高效。算法2为SI-MLHN的演化学习流程伪代码。在超边初始化的过程中，利用样本(x,y)生成由于本文采用欧氏距离作为距离度量，故需要先进超边e=(v,,w),超边的顶点向量v随机地从样本行归一化处理。 x特征中产生，标签向量)为样本的标签y,权重向算法2SI-MLHN演化学习算法量初始化为1，表示为w=[w102…0,],其中：= 输入训练集T={(xn,yn)}(1≤n≤N),标签 1.0(1≤i≤q)。数q,每个样本生成的超边数e,超边替代迭代次数由于超边顶点向量为随机的，为了更好地拟 t,随机梯度下降迭代次数ta,样本的近邻数量k: 合训练样本，需要通过超边替代来选择适应度高的输出SI-MLHN:H。超边。如果新生成的超边适应值高于现有超边，则 1)To=T.map 替换该超边。适应值的计算方法如式(9)所示： 2)每条样本进行归一化 fites(eg)=a2,q白 Σ1立1.=1(9) 3)end map.cache 4)T Bro broadcast(Tor) 式中：超边e的近邻样本个数为k,G为与超边e匹 5)Tky=Thor .map 配的抽样训练集TS样本集合，则将TS中样本的数 6)每条样本计算与TBo中样本的欧式距离量设置为10倍的k,其中k个是超边e,的近邻样 7)end map.map 本，其余的样本则为训练集样本的随机抽样；9为标 8)获取距离最近的k个样本签数量；ym为样本(xn,yn)的第i个标签；y:'为超边 9)end map e,的第i个标签。由式(9)可以看出适应值代表了 10)Ti,Bro broadcast(Tv) 超边标签与匹配样本标签的相似度的平均值，相似 ll）Hm=T,.flatmap

１１）ｆｏｒｉ＝１ｔｏｑｄｏ１２）Ｗ０［ｉ］←０１３）ｆｏｒｅａｃｈｅｊ∈Ｕ０１４）Ｗ０［ｉ］＝Ｗ０［ｉ］＋ｗｊｉ１５）ｅｎｄｆｏｒ１６）ｅｎｄｆｏｒ１７）ｆｏｒｉ＝１ｔｏｑｄｏ１８）Ｐ（ｙｉ＝１ｘｎ）＝１１＋ｅ－（Ｗ１［ｉ］－Ｗ０［ｉ］）１９）ｐ［ｉ］＝Ｐ（ｙｉ＝１ｘｎ）２０）ｉｆＰ（ｙｎｉ＝１ｘｎ）≥ｔｉ２１）ｙ ∗ ［ｉ］＝１２２）ｅｌｓｅｙ ∗ ［ｉ］＝０２３）ｅｎｄｉｆ２４）ｅｎｄｆｏｒ２５）ｒｅｔｕｒｎｐ，ｙ ∗ ２．２．２ＳＩ⁃ＭＬＨＮ演化学习过程ＳＩ⁃ＭＬＨＮ利用超边的顶点和权重向量来代表多标签数据标签间的高阶关联，其权重向量由超边从训练集中演化学习而来，首先进行了超边初始化，然后进行了超边替代与梯度下降演化学习，并利用Ｓｐａｒｋ进行分布式并行计算，通过多个操作技巧，如ｃａｃｈｅ、ｂｒｏａｄｓｔ，将变量缓存于内存中，大量减少了网络交换数据量和磁盘Ｉ／Ｏ操作，使算法更高效。在超边初始化的过程中，利用样本（ｘ，ｙ）生成超边ｅ＝（ｖ，ｙ＾，ｗ），超边的顶点向量ｖ随机地从样本ｘ特征中产生，标签向量ｙ＾为样本的标签ｙ，权重向量初始化为１，表示为ｗ＝［ｗ１ｗ２… ｗｑ］，其中ｗｉ＝１．０（１≤ｉ≤ｑ）。由于超边顶点向量ｖ为随机的，为了更好地拟合训练样本，需要通过超边替代来选择适应度高的超边。如果新生成的超边适应值高于现有超边，则替换该超边。适应值的计算方法如式（９）所示：ｆｉｔｎｅｓｓ（ｅｊ）＝１Ｇ ∑ （ｘｎ，ｙｎ）１ｑ ∑ ｑｉ＝１ｉｙｎｉ＝ｙｉ { ′} （９）式中：超边ｅｊ的近邻样本个数为ｋ，Ｇ为与超边ｅｊ匹配的抽样训练集ＴＳ样本集合，则将ＴＳ中样本的数量设置为１０倍的ｋ，其中ｋ个是超边ｅｊ的近邻样本，其余的样本则为训练集样本的随机抽样；ｑ为标签数量；ｙｎｉ为样本（ｘｎ，ｙｎ）的第ｉ个标签；ｙｉ ′为超边ｅｊ的第ｉ个标签。由式（９）可以看出适应值代表了超边标签与匹配样本标签的相似度的平均值，相似度越高，则适应值越高。同时，式（４）也展示出，样本与匹配超边的标签相似度越高，被正确分类的概率越大。本文将预测误差作为学习目标。损失函数如式（１０）所示，Ｐ ∗ （ｙｎｉ＝１ｘｎ）为ＳＩ⁃ＭＬＨＮ分类器对样本（ｘｎ，ｙｎ）的第ｉ个标签的预测值，利用梯度下降调整超边的权重，降低损失值。超边权重更新为式（１１），并通过式（１２）～（１４），计算 Δｗｋｉ，其中ｗｋｉ为第ｋ条超边第ｉ个标签的权重，η 为学习速率。Ｅｒｒｎ（Ｗ）＝１２∑ ｑｉ＝１［Ｐ ∗ （ｙｎｉ＝１ｘｎ）－Ｐ（ｙｎｉ＝１ｘｎ）］２（１０）ｗｋｉ＝ｗｋｉ＋ Δｗｋｉ（１１） Δｗｋｉ＝－ η ∂Ｅｒｒｎ（Ｗ） ∂ｗｋｉ（１２） ∂Ｅｒｒｎ（Ｗ） ∂ｗｋｉ＝（Ｐ（ｙｎｉ＝１ｘｎ）－Ｐ ∗ （ｙｎｉ＝１ｘｎ）） ∂Ｐ ∗ （ｙｎｉ＝１ｘｎ） ∂ｗｋｉ（１３） ∂Ｐ ∗ （ｙｎｉ＝１ｘｎ） ∂ｗｋｉ＝ ∂ １１＋ｅ－（Ｗ１ｎｉ－Ｗ０ｎｉ） ∂ｗｋｉ＝１－１１＋ｅ－（Ｗ１ｎｉ－Ｗ０ｎｉ）１＋ｅ－（Ｗ１ｎｉ－Ｗ０ｎｉ）（１４）算法２为ＳＩ⁃ＭＬＨＮ的演化学习流程伪代码。由于本文采用欧氏距离作为距离度量，故需要先进行归一化处理。算法２ＳＩ⁃ＭＬＨＮ演化学习算法输入训练集Ｔ＝｛（ｘｎ，ｙｎ）｝（１≤ｎ≤Ｎ），标签数ｑ，每个样本生成的超边数ｅ，超边替代迭代次数ｔｒ，随机梯度下降迭代次数ｔｄ，样本的近邻数量ｋ；输出ＳＩ⁃ＭＬＨＮ：Ｈ。１）Ｔｎｏｒ＝Ｔ．ｍａｐ２）每条样本进行归一化３）ｅｎｄｍａｐ．ｃａｃｈｅ４）ＴｎｏｒＢｒｏ＝ｂｒｏａｄｃａｓｔ（Ｔｎｏｒ）５）Ｔｋｖ＝Ｔｎｏｒ．ｍａｐ６）每条样本计算与ＴｎｏｒＢｒｏ中样本的欧式距离７）ｅｎｄｍａｐ．ｍａｐ８）获取距离最近的ｋ个样本９）ｅｎｄｍａｐ１０）ＴｋｖＢｒｏ＝ｂｒｏａｄｃａｓｔ（Ｔｋｖ）１１）Ｈｉｎｉ＝Ｔｋｖ．ｆｌａｔｍａｐ ·６２８· 智能系统学报第１２卷

点击进入文档下载页（PDF格式）

共16页，可试读7页，点击继续阅读 ↓↓

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录