当前位置：和泉文库 > 电气与自动化 > 浏览文档

【机器学习】基于Spark的多标签超网络集成学习

文件格式：PDF，文件大小：1.88MB，售价：6.16元

文档详细内容（约16页）

第5期李航，等：基于Spark的多标签超网络集成学习 ·629 12)每条样本生成e条超边区计算获胜节点，并更新优胜邻域中的输出单元， 13)end flatmap.cache 然后将各个分区的值利用reduce算子进行合并，并 14)Ho=Hii .map 更新优胜邻域，达到终止条件得到最终输出层。其 15)对超边进行1，次替代中，计算邻域函数选取高斯函数，距离仍然选取欧 16)end map.cache 氏距离，WBro为SOM初始化输出层W的广播变量 17)for t+l to t do 在6)~12)中完成了一次迭代计算，旷为每次迭代 18)HBro broadcast(H) 利用每个分区样本更新后输出层，W旷：为分区合并的 19)Himp=Tky.map 输出层。 20)对样本利用H-'Bro中超边集合预测训练集测试集 21)end map.flatmap 22)对超边进行梯度计算自组织神经网络 <输出层权重 23)end flatmap.reduceByKey(合并梯度值) 选择性集成 24)H'H.leftjoin(H) 训练簇1 训练簇2 训练簇c 获得s个领域簇 25).map 26)利用合并后梯度值更新超边权重获得s个对应 SI-MLHN SI-MLHN SI-MLHN 27)end map 局部超网络 28)end for 构成新的超网路 29)H=H 30)return H 输出训练过程测试过程 T为训练集经过分布式并行归一化处理后的结果：broadcast操作可以保存只读变量，并保在每个图2SEI-MLHN流程图节点内存中；TBo为归一化后样本广播变量； Fig.2 Flow chart of SEI-MLHN T,Bo为样本与其k近邻的键值对T,的广播变量：算法3S-S0M Hm为超边初始化集合；H为超边替代后集合；H 输入训练集T={(x.yn)}(1≤n≤N),类为超边演化学习后集合。簇个数c,学习率n,迭代次数t; 2.3 Spark下集成多标签超网络(SEI-MLHN)】输出类簇T1,T,…,T。 SI-MLHN为MLHN的Spark平台下分布式并行 1)T =T.map 改进方法，大幅缩短了训练时间，但是其时间复杂 2)每条样本进行归一化度仍然随着样本数量的增加呈平方级增长，仍然无 3)end map.cache 法很好适应大样本数据。故本文利用选择性集成， 4)W=初始化输出层（随机抽取c个样本）一方面降低时间复杂度，另一方面提高算法性能， 5)WBro =broadcast(W) 提出了Spark下集成多标签超网络，记作SEL- 6)for t+1 to ti MLHN。SEI-MLHN首先将训练集进行分簇，并分别 7)for each T的分区do 用SI-MLHN算法演化学习多个局部多标签超网络。 8)for each分区内样本do 对于未知样本，首先获得近邻簇，然后利用局部超 9)利用输出层计算获胜节点网络选择性集成对测试样本进行预测，SEI-MLHN 10)更新优胜邻域中的值为W 的流程见图2。 11)end for 为了对训练样本进行分簇，本文选择了基于神 12)end for 经网络的无监督聚类方法自组织神经网络 13)更新优胜邻域 (SOM)[。SOM对类簇初始化不敏感，并且可以 l4)W=利用reduce合并各分区W 很好地发现数据之间的结构关系，为了让其适应大 15)end for 规模数据处理将其进行了Spark下并行化扩展，记 16)T1,T,…,T。'=Tm,计算获胜节点(W) 为S-S0M。算法3为算法伪代码，首先利用每个分 17)return T,T,…,T

１２）每条样本生成ｅ条超边１３）ｅｎｄｆｌａｔｍａｐ．ｃａｃｈｅ１４）Ｈ０ｒｅ＝Ｈｉｎｉ．ｍａｐ１５）对超边进行ｔｒ次替代１６）ｅｎｄｍａｐ．ｃａｃｈｅ１７）ｆｏｒｔ←１ｔｏｔｄｄｏ１８）Ｈｔ－１ｒｅＢｒｏ＝ｂｒｏａｄｃａｓｔ（Ｈｔ－１ｒｅ）１９）Ｈｔｍｐ＝Ｔｋｖ．ｍａｐ２０）对样本利用Ｈｔ－１ｒｅＢｒｏ中超边集合预测２１）ｅｎｄｍａｐ．ｆｌａｔｍａｐ２２）对超边进行梯度计算２３）ｅｎｄｆｌａｔｍａｐ．ｒｅｄｕｃｅＢｙＫｅｙ（合并梯度值）２４）Ｈｔｒｅ＝Ｈｔ－１ｒｅ．ｌｅｆｔｊｏｉｎ（Ｈｔｍｐ）２５）．ｍａｐ２６）利用合并后梯度值更新超边权重２７）ｅｎｄｍａｐ２８）ｅｎｄｆｏｒ２９）Ｈ＝Ｈｔｒｅ３０）ｒｅｔｕｒｎＨＴｎｏｒ为训练集经过分布式并行归一化处理后的结果；ｂｒｏａｄｃａｓｔ操作可以保存只读变量，并保在每个节点内存中；ＴｎｏｒＢｒｏ为归一化后样本广播变量；ＴｋｖＢｒｏ为样本与其ｋ近邻的键值对Ｔｋｖ的广播变量；Ｈｉｎｉ为超边初始化集合；Ｈ０ｒｅ为超边替代后集合；Ｈｔｒｅ为超边演化学习后集合。２．３Ｓｐａｒｋ下集成多标签超网络（ＳＥＩ⁃ＭＬＨＮ）ＳＩ⁃ＭＬＨＮ为ＭＬＨＮ的Ｓｐａｒｋ平台下分布式并行改进方法，大幅缩短了训练时间，但是其时间复杂度仍然随着样本数量的增加呈平方级增长，仍然无法很好适应大样本数据。故本文利用选择性集成，一方面降低时间复杂度，另一方面提高算法性能，提出了Ｓｐａｒｋ下集成多标签超网络，记作ＳＥＩ⁃ ＭＬＨＮ。ＳＥＩ⁃ＭＬＨＮ首先将训练集进行分簇，并分别用ＳＩ⁃ＭＬＨＮ算法演化学习多个局部多标签超网络。对于未知样本，首先获得近邻簇，然后利用局部超网络选择性集成对测试样本进行预测，ＳＥＩ⁃ＭＬＨＮ的流程见图２。为了对训练样本进行分簇，本文选择了基于神经网络的无监督聚类方法自组织神经网络（ＳＯＭ）［４２］。ＳＯＭ对类簇初始化不敏感，并且可以很好地发现数据之间的结构关系，为了让其适应大规模数据处理将其进行了Ｓｐａｒｋ下并行化扩展，记为Ｓ⁃ＳＯＭ。算法３为算法伪代码，首先利用每个分区计算获胜节点，并更新优胜邻域中的输出单元，然后将各个分区的值利用ｒｅｄｕｃｅ算子进行合并，并更新优胜邻域，达到终止条件得到最终输出层。其中，计算邻域函数选取高斯函数，距离仍然选取欧氏距离，ＷＢｒｏ为ＳＯＭ初始化输出层Ｗ的广播变量在６）～１２）中完成了一次迭代计算，Ｗｔｃ为每次迭代利用每个分区样本更新后输出层，Ｗｔｒ为分区合并的输出层。图２ＳＥＩ⁃ＭＬＨＮ流程图Ｆｉｇ．２ＦｌｏｗｃｈａｒｔｏｆＳＥＩ⁃ＭＬＨＮ算法３Ｓ⁃ＳＯＭ输入训练集Ｔ＝｛（ｘｎ，ｙｎ）｝（１ ≤ ｎ ≤ Ｎ），类簇个数ｃ，学习率 η，迭代次数ｔｉ；输出类簇Ｔ１ ′，Ｔ２ ′，…，Ｔｓ ′。１）Ｔｎｏｒ＝Ｔ．ｍａｐ２）每条样本进行归一化３）ｅｎｄｍａｐ．ｃａｃｈｅ４）Ｗ＝初始化输出层（随机抽取ｃ个样本）５）ＷＢｒｏ＝ｂｒｏａｄｃａｓｔ（Ｗ）６）ｆｏｒｔ←１ｔｏｔｉ７）ｆｏｒｅａｃｈＴｎｏｒ的分区ｄｏ８）ｆｏｒｅａｃｈ分区内样本ｄｏ９）利用输出层计算获胜节点１０）更新优胜邻域中的值为Ｗｔｃ１１）ｅｎｄｆｏｒ１２）ｅｎｄｆｏｒ１３）更新优胜邻域１４）Ｗｔｒ＝利用ｒｅｄｕｃｅ合并各分区Ｗｔｃ１５）ｅｎｄｆｏｒ１６）Ｔ１ ′，Ｔ２ ′，…，Ｔｐ ′ ＝Ｔｎｏｒ，计算获胜节点（Ｗｔｒ）１７）ｒｅｔｕｒｎＴ１ ′，Ｔ２ ′，…，Ｔｓ ′ 第５期李航，等：基于Ｓｐａｒｋ的多标签超网络集成学习 ·６２９·

·630 智能系统学报第12卷完成训练集分簇后，利用算法2对簇构建S- 预测时删除了冗余学习器，因此其训练时间复杂度 MLHN超网络。对于测试集，SEI-MLHN将进行选为O(c·Fs(N',k,e,n,d,q)),测试时间复杂度为择性集成，伪代码见算法4。 O(s·Fs'(M,k,e,N',d,q)),其中c为训练集聚类算法4SEI-MLHN分类算法簇数，s为邻域簇的数量，N'为最大类簇中样本的输入测试集E={xn}(1≤n≤M),样本数量数量，N'的数量取决于c以及训练数据的分布，一为M,样本近邻数量k,SEI-MLHN:H={H,H,…, 般接近于N/c。 H'},簇数为c,邻域簇数为s,S-SOM输出为T1,T, 3实验 …,T' 输出E·={(x.,Pn,y)}(1≤n≤M),其中p 3.1数据集为测试集标签概率，y·为测试集预测标签。为了对算法性能进行全面的评估，本文选择了 1)E在T1,T,…,T'中计算s个最近邻簇，并将 11个公开的常用多标签数据集进行实验，其中训练其加入心，簇对应的超网络为H,H,…,H, 样本数小于5000的数据集有6个，大于100000的 2)for each T'∈Udo 数据集有2个，如表1所示，表中的标签基数是指每 3)E,=寻找E中样本在T,'在中的k近邻个样本关联标签的平均数量。由于文本数据具有 4)Eih Eiy .flatmap 高维稀疏的特性，故在表1中对所有的文本数据集 5)组成测试样本与近邻样本对均使用Lee和Jiang)提出的模糊相关度量进行了 6)end flatmap.leftjoin(H').reduceByKey 变换，在模糊变换之后，每个文档由模糊相关性向 7)end for 量表示，且维度与标签维度相同。 8)将s个E合并为集合F 表1实验使用的多标签数据集 Table 1 Multilabel data sets used in experiments 9)E'=F.reduceByKey() 10).map 数据集样本数属性数标签数标签基数领域 11)从s*k近邻中选取最近k,利用算法1进行 emotions 593 12 6 1.869 Music 预测 Scene 2407 294 6 1.074 Images 12)end map l3)return E· Yeast 2417 1)3 14 4.237 Biology 算法4中，对测试样本选取了s个最近类簇产 Medical 978 1449 49 1.245 Text 生的局部超网络并把局部组合起来，然后进行预测，得到分类结果。其中，E。为测试样本与其在第 Enron 1702 3.378 Text i个簇中的k近邻组成的键值对，E为测试样本与 CAL500 502 26.044 Music 其在第i个簇中的k近邻以及超边组成的键值对。 Eurlex-sm 19348 5000 20 2.213 Text 2.4时间复杂度分析 SEI-MLHN利用SI-MLHN进行选择性集成来 Eurlex-de 19 348 50 42 1.292 Text 提高学习器的稳定性和泛化能力。对于含有N个 Mediamil 43 907 120 101 4.376 Video 训练样本，样本特征纬度为d,标签数量为q的训练 Nuswide-bow 269 648 500 6 1.869 Images 集，SI-MLHN的训练复杂度为O(N2d+enkW+kgN), 记为F(N,k,e,n,d,g),其中e为每个训练样本产 Nuswide- 269648 128 81 1.869 Images 生的超边数量，k为近邻数量，n为训练样本的抽样， cVLADplus 在大规模数据集中n客N。对于未知样本进行预测 3.2评价指标时，SI-MLHN首先在训练集中寻找k个近邻样本，假设X表示样本空间，Y={1,2,…,9}表示所然后利用与之匹配的近邻样本产生的超边进行预有可能的标签集合，E={(x:,Y)1≤i≤M为具测。因此对有M个样本的测试集，SI-MLHN的预测有M个样本的多标签测试集，h为输出的多标签分时间复杂度为O(MNd+eMN+kgM),记为Fs'(M,k, 类器，则测试样本x,的预测结果为h(x:)。f(x,y) e,N,d,q)。SEI-MLHN对训练集进行了分簇，并在是标签y在样本x:上排名质量的实值函数，例如对

完成训练集分簇后，利用算法２对簇构建ＳＩ⁃ ＭＬＨＮ超网络。对于测试集，ＳＥＩ⁃ＭＬＨＮ将进行选择性集成，伪代码见算法４。算法４ＳＥＩ⁃ＭＬＨＮ分类算法输入测试集Ｅ＝｛ｘｎ｝（１≤ｎ≤Ｍ），样本数量为Ｍ，样本近邻数量ｋ，ＳＥＩ⁃ＭＬＨＮ：Ｈ＝｛Ｈ１ ′，Ｈ２ ′，…，Ｈ３ ′｝，簇数为ｃ，邻域簇数为ｓ，Ｓ⁃ＳＯＭ输出为Ｔ１ ′，Ｔ２ ′， …，Ｔｃ ′；输出Ｅ ∗ ＝｛（ｘｎ，ｐｎ，ｙ ∗ ｎ）｝（１≤ｎ≤Ｍ），其中ｐ为测试集标签概率，ｙ ∗为测试集预测标签。１）Ｅ在Ｔ１ ′，Ｔ２ ′，…，Ｔｃ ′中计算ｓ个最近邻簇，并将其加入Ｕｓ，簇对应的超网络为Ｈ１ ′，Ｈ２ ′，…，Ｈｓ ′ ２）ｆｏｒｅａｃｈＴｉ ′ ∈ Ｕｓｄｏ３）Ｅｉｋｖ＝寻找Ｅ中样本在Ｔｉ ′ 在中的ｋ近邻４）Ｅｉｋｈ＝Ｅｉｋｖ．ｆｌａｔｍａｐ５）组成测试样本与近邻样本对６）ｅｎｄｆｌａｔｍａｐ．ｌｅｆｔｊｏｉｎ（Ｈ′ｉ）．ｒｅｄｕｃｅＢｙＫｅｙ７）ｅｎｄｆｏｒ８）将ｓ个Ｅｉｋｈ合并为集合Ｆ９）Ｅ ∗ ＝Ｆ．ｒｅｄｕｃｅＢｙＫｅｙ（）１０）．ｍａｐ１１）从ｓ∗ｋ近邻中选取最近ｋ，利用算法１进行预测１２）ｅｎｄｍａｐ１３）ｒｅｔｕｒｎＥ ∗ 算法４中，对测试样本选取了ｓ个最近类簇产生的局部超网络并把局部组合起来，然后进行预测，得到分类结果。其中，Ｅｉｋｖ为测试样本与其在第ｉ个簇中的ｋ近邻组成的键值对，Ｅｉｋｈ为测试样本与其在第ｉ个簇中的ｋ近邻以及超边组成的键值对。２．４时间复杂度分析ＳＥＩ⁃ＭＬＨＮ利用ＳＩ⁃ＭＬＨＮ进行选择性集成来提高学习器的稳定性和泛化能力。对于含有Ｎ个训练样本，样本特征纬度为ｄ，标签数量为ｑ的训练集，ＳＩ－ＭＬＨＮ的训练复杂度为Ｏ（Ｎ２ｄ＋ｅｎｋＮ＋ｋｑＮ），记为ＦＳＩ（Ｎ，ｋ，ｅ，ｎ，ｄ，ｑ），其中ｅ为每个训练样本产生的超边数量，ｋ为近邻数量，ｎ为训练样本的抽样，在大规模数据集中ｎ ≪ Ｎ。对于未知样本进行预测时，ＳＩ⁃ＭＬＨＮ首先在训练集中寻找ｋ个近邻样本，然后利用与之匹配的近邻样本产生的超边进行预测。因此对有Ｍ个样本的测试集，ＳＩ⁃ＭＬＨＮ的预测时间复杂度为Ｏ（ＭＮｄ＋ｅＭＮ＋ｋｑＭ），记为ＦＳＩ ′ （Ｍ，ｋ，ｅ，Ｎ，ｄ，ｑ）。ＳＥＩ⁃ＭＬＨＮ对训练集进行了分簇，并在预测时删除了冗余学习器，因此其训练时间复杂度为Ｏ（ｃ·ＦＳＩ（Ｎ′，ｋ，ｅ，ｎ，ｄ，ｑ）），测试时间复杂度为Ｏ（ｓ·ＦＳＩ ′（Ｍ，ｋ，ｅ，Ｎ′，ｄ，ｑ）），其中ｃ为训练集聚类簇数，ｓ为邻域簇的数量，Ｎ′ 为最大类簇中样本的数量，Ｎ′ 的数量取决于ｃ以及训练数据的分布，一般接近于Ｎ／ｃ。３实验３．１数据集为了对算法性能进行全面的评估，本文选择了１１个公开的常用多标签数据集进行实验，其中训练样本数小于５０００的数据集有６个，大于１０００００的数据集有２个，如表１所示，表中的标签基数是指每个样本关联标签的平均数量。由于文本数据具有高维稀疏的特性，故在表１中对所有的文本数据集均使用Ｌｅｅ和Ｊｉａｎｇ［４３］提出的模糊相关度量进行了变换，在模糊变换之后，每个文档由模糊相关性向量表示，且维度与标签维度相同。表１实验使用的多标签数据集Ｔａｂｌｅ１Ｍｕｌｔｉｌａｂｅｌｄａｔａｓｅｔｓｕｓｅｄｉｎｅｘｐｅｒｉｍｅｎｔｓ数据集样本数属性数标签数标签基数领域ｅｍｏｔｉｏｎｓ５９３７２６１．８６９ＭｕｓｉｃＳｃｅｎｅ２４０７２９４６１．０７４ＩｍａｇｅｓＹｅａｓｔ２４１７１０３１４４．２３７ＢｉｏｌｏｇｙＭｅｄｉｃａｌ９７８１４４９４５１．２４５ＴｅｘｔＥｎｒｏｎ１７０２１００１５３３．３７８ＴｅｘｔＣＡＬ５００５０２６８１７４２６．０４４ＭｕｓｉｃＥｕｒｌｅｘ⁃ｓｍ１９３４８５０００２０１２．２１３ＴｅｘｔＥｕｒｌｅｘ⁃ｄｃ１９３４８５０００４１２１．２９２ＴｅｘｔＭｅｄｉａｍｉｌ４３９０７１２０１０１４．３７６ＶｉｄｅｏＮｕｓｗｉｄｅ⁃ｂｏｗ２６９６４８５００８１１．８６９ＩｍａｇｅｓＮｕｓｗｉｄｅ⁃ ｃＶＬＡＤｐｌｕｓ２６９６４８１２８８１１．８６９Ｉｍａｇｅｓ３．２评价指标假设Ｘ表示样本空间，Ｙ＝｛１，２，…，ｑ｝表示所有可能的标签集合，Ｅ＝｛（ｘｉ，Ｙｉ）１ ≤ ｉ ≤ Ｍ｝为具有Ｍ个样本的多标签测试集，ｈ为输出的多标签分类器，则测试样本ｘｉ的预测结果为ｈ（ｘｉ）。ｆ（ｘｉ，ｙ）是标签ｙ在样本ｘｉ上排名质量的实值函数，例如对 ·６３０· 智能系统学报第１２卷

点击进入文档下载页（PDF格式）

共16页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录