当前位置：和泉文库 > 电气与自动化 > 浏览文档

【人工智能基础】多标记学习自编码网络无监督维数约简

文件格式：PDF，文件大小：1.21MB，售价：3.9元

文档详细内容（约10页）

第13卷第5期智能系统学报 Vol.13 No.5 2018年10月 CAAI Transactions on Intelligent Systems Oct.2018 D0:10.11992/tis.201804051 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20180611.1014.002.html 多标记学习自编码网络无监督维数约简杨文元 (闽南师范大学福建省粒计算及其应用重点实验室，福建漳州363000) 摘要：多标记学习是针对一个实例同时与一组标签相关联而提出的一种机器学习框架，是该领域研究热点之一，降维是多标记学习一个重要且具有挑战性的工作。针对有监督的多标记维数约简方法，提出一种无监督自编码网络的多标记降维方法。首先，通过构建自编码神经网络，对输入数据进行编码和解码输出：然后，引入稀疏约束计算总体成本，使用梯度下降法进行迭代求解：最后，通过深度学习训练获得自编码网络学习模型，提取数据特征实现维数约简。实验中使用多标记算法ML-kNN做分类器，在6个公开数据集上与其他4种方法对比。实验结果表明，该方法能够在不使用标记的情况下有效提取特征，降低多标记数据维度，稳定提高多标记学习性能。关键词：多标记学习：维数约简：无监督学习：神经网络：自编码器：机器学习：深度学习：特征提取中图分类号：TP183文献标志码：A文章编号：1673-4785(2018)05-0808-10 中文引用格式：杨文元.多标记学习自编码网络无监督维数约简J机智能系统学报，2018,13(5)：808-817，英文引用格式：YANG Wenyuan..Unsupervised dimensionality reduction of multi-label learning via autoencoder networks. CAAI transactions on intelligent systems,2018,13(5):808-817. Unsupervised dimensionality reduction of multi-label learning via autoencoder networks YANG Wenyuan (Fujian Key Laboratory of Granular Computing and Application,Minnan Normal University,Zhangzhou 363000,China) Abstract:Multi-label learning is a machine learning framework that simultaneously deals with data associated with a group of labels.It is one of the hot spots in the field of machine learning.However,dimensionality reduction is a signi- ficant and challenging task in multi-label learning.In this paper,we propose a unsupervised dimensionality reduction method for supervised multi-label dimensiona reduction methods via autoencoder networks.Firstly,we build the autoen- coder neural network to encode the input data and then decode them for output.Then we introduce the sparse constraint to calculate the overall cost,and further use the gradient descent method to iterate them.Finally,we obtain the autoen- coder network learning model by deep learning training,and then extract data features to reduce dimensionality.In the experiments,we use a multi-label algorithm(ML-kNN)as the classifier,and compare them with four other methods on six publicly available datasets.Experimental results show that the proposed method can effectively extract features without using label learning;thus,it reduces multi-label data dimensionality and steadily improves the performance of multi-label learning. Keywords:multi-label learning;dimensionality reduction;unsupervised learning;neural networks;autoencoder;ma- chine learning;deep learning:feature extraction 收稿日期：2018-04-25.网络出版日期：2018-06-11 真实世界中的对象通常具有不止一种语义标基金项目：国家自然科学青年基金项目(61703196)：福建省自然科学基金项目(2018J01549). 记，经常表现为多义性，即一个对象可能与多个通信作者：杨文元.Email::yangwy@mnnu.edu.cn. 类别标记相关联。如一幅海边景色图片可以同时

DOI: 10.11992/tis.201804051 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180611.1014.002.html 多标记学习自编码网络无监督维数约简杨文元（闽南师范大学福建省粒计算及其应用重点实验室，福建漳州 363000）摘要：多标记学习是针对一个实例同时与一组标签相关联而提出的一种机器学习框架，是该领域研究热点之一，降维是多标记学习一个重要且具有挑战性的工作。针对有监督的多标记维数约简方法，提出一种无监督自编码网络的多标记降维方法。首先，通过构建自编码神经网络，对输入数据进行编码和解码输出；然后，引入稀疏约束计算总体成本，使用梯度下降法进行迭代求解；最后，通过深度学习训练获得自编码网络学习模型，提取数据特征实现维数约简。实验中使用多标记算法 ML-kNN 做分类器，在 6 个公开数据集上与其他 4 种方法对比。实验结果表明，该方法能够在不使用标记的情况下有效提取特征，降低多标记数据维度，稳定提高多标记学习性能。关键词：多标记学习；维数约简；无监督学习；神经网络；自编码器；机器学习；深度学习；特征提取中图分类号：TP183 文献标志码：A 文章编号：1673−4785(2018)05−0808−10 中文引用格式：杨文元. 多标记学习自编码网络无监督维数约简[J]. 智能系统学报, 2018, 13(5): 808–817. 英文引用格式：YANG Wenyuan. Unsupervised dimensionality reduction of multi-label learning via autoencoder networks[J]. CAAI transactions on intelligent systems, 2018, 13(5): 808–817. Unsupervised dimensionality reduction of multi-label learning via autoencoder networks YANG Wenyuan (Fujian Key Laboratory of Granular Computing and Application, Minnan Normal University, Zhangzhou 363000, China) Abstract: Multi-label learning is a machine learning framework that simultaneously deals with data associated with a group of labels. It is one of the hot spots in the field of machine learning. However, dimensionality reduction is a significant and challenging task in multi-label learning. In this paper, we propose a unsupervised dimensionality reduction method for supervised multi-label dimensiona reduction methods via autoencoder networks. Firstly, we build the autoencoder neural network to encode the input data and then decode them for output. Then we introduce the sparse constraint to calculate the overall cost, and further use the gradient descent method to iterate them. Finally, we obtain the autoencoder network learning model by deep learning training, and then extract data features to reduce dimensionality. In the experiments, we use a multi-label algorithm (ML-kNN) as the classifier, and compare them with four other methods on six publicly available datasets. Experimental results show that the proposed method can effectively extract features without using label learning; thus, it reduces multi-label data dimensionality and steadily improves the performance of multi-label learning. Keywords: multi-label learning; dimensionality reduction; unsupervised learning; neural networks; autoencoder; machine learning; deep learning; feature extraction 真实世界中的对象通常具有不止一种语义标记，经常表现为多义性，即一个对象可能与多个类别标记相关联。如一幅海边景色图片可以同时收稿日期：2018−04−25. 网络出版日期：2018−06−11. 基金项目：国家自然科学青年基金项目 (61703196)；福建省自然科学基金项目 (2018J01549). 通信作者：杨文元. Email: yangwy@mnnu.edu.cn. 第 13 卷第 5 期智能系统学报 Vol.13 No.5 2018 年 10 月 CAAI Transactions on Intelligent Systems Oct. 2018

第5期杨文元：多标记学习自编码网络无监督维数约简 ·809· 标注“蓝天”“白云”“大海”“沙滩”等语义标记，对 1多标记学习于多个标记对象的处理方式是为每个图像赋予个标记子集，并进行建模和学习，这就形成多标多标记的样本由一个示例和对应的多个标记记学习框架山。在多标记学习框架下，每个示例构成，多标记学习是一种机器学习框架。下面的内由对应的多个标记构成的特征向量进行描述，学容，简要地介绍多标记学习的问题定义和学习算法。习的目标是将多个适当的标记赋予需要预测的未 1.1多标记问题定义知示例四。假设X∈R4代表d维的示例空间，Y=y,y2,…,yl 随着信息化的快速发展，数据和资源呈海量代表包含1个类别的标记空间。给定多标记训练特征，数据的标注结构复杂程度也不断增加，单集D={(x,Y,1≤i≤m,其中x,为d维的属性向量，标记方法无法满足分析处理要求山，以机器学习即x:=[x1x2…xdT,而Y:∈Y为与x对应的一组类技术为基础的多标记学习技术现已成为一个研究别标记，多标记学习的目标是从中学习得到一个热点，其研究成果广泛地应用于各种不同领域，多标记分类器g:X→2'。因此，对于所有示例xeX, 如图像视频的语义标注、功能基因组、音乐情感分类器预测隶属于该示例的类别标记集合为分类以及营销指导等。 gx)cY,称多标记学习"。在多标记学习过程中，高维数据训练和预测多标记的集合空间如果太大则会造成学习困都需要更多的计算时间和空间。降维减少了特征难，因此需要充分利用标记之间的“相关性”来辅数却提高了算法效率和学习性能，可避免过拟合助学习过程的进行。基于考察标记之间相关性的现象和过滤掉冗余特征46。因此，降低数据的维不同方式，多标记学习问题求解策略有三类，”。度具有重要意义。 “一阶(first-order)”策略：只考察每一个单个高维数据降维，主要有线性维数约简和非线标记，不考虑标记之间的相关性，将多标记学习性维数约简两种方法。线性维数约简的方法有主问题分解为多个独立的二分类问题。该策略实现成分分析方法(principal component analysis,.PCA)、简单，效率较高，但学习的泛化性能不高。独立成分分析方法(independent component correla- “二阶(second-.order))”策略：考察两两标记之 tion algorithm,ICA)、线性判别分析法(linear dis- 间的相关性和交互关系，该类方法的泛化性能较 criminant analysis,.LDA)和局部特征分析法(local 好，但不能很好处理多标记间的二阶以上相关性四。 feature analysis,.LFA)等。非线性降维方法有等距 “高阶(high-order)”策略：考察任一标记对其特征映射方法(isometric feature mapping,ISOMAP) 它所有标记的影响以及一组随机标记集合的相关和局部线性嵌入方法(locally linear embedding, 性等。该类策略较好地反映了真实世界的标记相 LLE)等。多标记学习的有监督降维方法有依关性，但复杂度一般过高，难以处理大规模学习赖最大化(MDDM)算法，半监督方法主要是采问题。用联合降维方法例和依赖最大化方法©。 1.2多标记学习算法与一股多标记有监督的降维方法不同，提出目前已经涌现出了大量的多标记学习算法，一种自编码网络的无监督多标记维数约简方法可以分为问题转换和算法适应两类方法"。 (multi-label unsupervised dimensionality reduction via 问题转换方法的基本思想是将多标记学习问 autoencoder networks,MUAE),首先构建自编码神题转换为其他已知的学习问题进行求解，代表性经网络，仅使用特征数据作为输入，进行编码和学习算法有Binary Relevance、Calibrated Label 解码输出以提取特征，在处理过程引人稀疏约束 Ranking和Random k-labelsets。算法适应方法的并将输出数据与输入数据对比，计算总体成本误基本思想是通过对常用监督学习算法进行改进，差，应用梯度下降法进行迭代更新，通过深度学将其直接用于多标记学习，代表性学习算法有习训练获得自编码网络学习模型，提取数据特 ML-kNN,Rank-SVM和LEAD。征，最后以多标记学习ML-kNN算法作为统一的 ML-kNN算法I2是对k近邻(k-nearest neigh- 分类评价基准，并在6个公开数据集上与其他4种 bors,kNN)算法进行改造以适应多标记数据分方法对比。实验结果表明，该方法能够在无监督类，算法的基本思想是采用kNN分类准则，统计情况下有效提取特征，降低多标记数据维度，得近邻样本的类别标记信息，通过最大化后验概率到较好的学习效果。的方式推理未知示例的标记集合

标注“蓝天”“白云”“大海”“沙滩”等语义标记，对于多个标记对象的处理方式是为每个图像赋予一个标记子集，并进行建模和学习，这就形成多标记学习框架[1]。在多标记学习框架下，每个示例由对应的多个标记构成的特征向量进行描述，学习的目标是将多个适当的标记赋予需要预测的未知示例[2]。随着信息化的快速发展，数据和资源呈海量特征，数据的标注结构复杂程度也不断增加，单标记方法无法满足分析处理要求[1] ，以机器学习技术为基础的多标记学习技术现已成为一个研究热点，其研究成果广泛地应用于各种不同领域，如图像视频的语义标注、功能基因组、音乐情感分类以及营销指导等[3]。在多标记学习过程中，高维数据训练和预测都需要更多的计算时间和空间。降维减少了特征数却提高了算法效率和学习性能，可避免过拟合现象和过滤掉冗余特征[4-6]。因此，降低数据的维度具有重要意义。高维数据降维，主要有线性维数约简和非线性维数约简两种方法。线性维数约简的方法有主成分分析方法 (principal component analysis, PCA)、独立成分分析方法 (independent component correlation algorithm, ICA)、线性判别分析法 (linear discriminant analysis, LDA) 和局部特征分析法 (local feature analysis, LFA) 等。非线性降维方法有等距特征映射方法 (isometric feature mapping, ISOMAP) 和局部线性嵌入方法 (locally linear embedding, LLE) 等 [7-8]。多标记学习的有监督降维方法有依赖最大化 (MDDM) 算法[5] ，半监督方法主要是采用联合降维方法[9]和依赖最大化方法[10]。与一般多标记有监督的降维方法不同，提出一种自编码网络的无监督多标记维数约简方法 (multi-label unsupervised dimensionality reduction via autoencoder networks, MUAE)，首先构建自编码神经网络，仅使用特征数据作为输入，进行编码和解码输出以提取特征，在处理过程引入稀疏约束并将输出数据与输入数据对比，计算总体成本误差，应用梯度下降法进行迭代更新，通过深度学习训练获得自编码网络学习模型，提取数据特征，最后以多标记学习 ML-kNN 算法作为统一的分类评价基准，并在 6 个公开数据集上与其他 4 种方法对比。实验结果表明，该方法能够在无监督情况下有效提取特征，降低多标记数据维度，得到较好的学习效果。 1 多标记学习多标记的样本由一个示例和对应的多个标记构成，多标记学习是一种机器学习框架[1-2]。下面的内容，简要地介绍多标记学习的问题定义和学习算法。 1.1 多标记问题定义 X ∈ R d d Y ={y1, y2,··· , yl} l D = {(xi ,Yi)|1 ⩽ i ⩽ m} xi d xi = [xi1 xi2 ··· xid] T Yi ∈ Y xi g : X → 2 Y x ∈ X g(x) ⊆ Y 假设代表维的示例空间，代表包含个类别的标记空间。给定多标记训练集，其中为维的属性向量，即，而为与对应的一组类别标记，多标记学习的目标是从中学习得到一个多标记分类器。因此，对于所有示例，分类器预测隶属于该示例的类别标记集合为，称多标记学习[1]。多标记的集合空间如果太大则会造成学习困难，因此需要充分利用标记之间的“相关性”来辅助学习过程的进行。基于考察标记之间相关性的不同方式，多标记学习问题求解策略有三类[1, 11]。 “一阶 (first-order)”策略：只考察每一个单个标记，不考虑标记之间的相关性，将多标记学习问题分解为多个独立的二分类问题。该策略实现简单，效率较高，但学习的泛化性能不高[11]。 “二阶 (second-order)”策略：考察两两标记之间的相关性和交互关系，该类方法的泛化性能较好，但不能很好处理多标记间的二阶以上相关性[11]。 “高阶 (high-order)”策略：考察任一标记对其它所有标记的影响以及一组随机标记集合的相关性等。该类策略较好地反映了真实世界的标记相关性，但复杂度一般过高，难以处理大规模学习问题[11]。 1.2 多标记学习算法目前已经涌现出了大量的多标记学习算法，可以分为问题转换和算法适应两类方法[1]。问题转换方法的基本思想是将多标记学习问题转换为其他已知的学习问题进行求解，代表性学习算法有 Binary Relevance、Calibrated Label Ranking 和 Random k-labelsets。算法适应方法的基本思想是通过对常用监督学习算法进行改进，将其直接用于多标记学习，代表性学习算法有 ML-kNN, Rank-SVM 和 LEAD[1]。 ML-kNN 算法[12]是对 k 近邻 (k-nearest neighbors，kNN) 算法进行改造以适应多标记数据分类，算法的基本思想是采用 kNN 分类准则，统计近邻样本的类别标记信息，通过最大化后验概率的方式推理未知示例的标记集合。第 5 期杨文元：多标记学习自编码网络无监督维数约简 ·809·

·810· 智能系统学报第13卷 2 自编码网络 cwo创=2k-+2Σ网) 自编码网络包含数据输入层、隐藏层、输出式中：m是样本个数；n是网络层数；n,是层的神经重构层。如图1所示，自编码器由编码器(en- 元数量：是权重衰减参数，用于控制公式中两项 coder)和解码器(decoder)两部分构成。其作用是的相对重要性。C(W,b)是整体样本代价函数，第将输入样本压缩到隐藏层，然后解压，在输出层一项是均方差项，第二项是权重衰减项或称为规重建样本3.1。则化项，其目的是防止过度拟合。 x'尽可能复现x 训练目标就是获得总体样本成本误差C(W,b) 最小的W,b,即编码器解码器 arg min(C(W,b)) (5) W.b 如果输入是完全随机的，每个输入数据都独图1自编码网络模型立于其他特征的高斯分布，则编码器的压缩任务 Fig.1 Model of autoencoder networks 将非常困难。但是，如果数据中存在结构，有些自编码网络是一种不需要标记的无监督学习输入要素是相关或有冗余，则该算法将能够发现模型，它试图学习一个函数x)≈x,训练网络使得些相关性。自动编码器通常最终会学习与PCA 输出逼近输入人，也就是每个样本x的学习目标也非常相似的低维表示。事实上，如果每两层之间是x,这样自编码器自己生成标签，而且标签就是的变换均为线性且训练误差是二次型误差时，该样本数据本身，所以也称为自监督学习或自学网络等价于PCA。而自编码网络使用非线降维，习。如图1所示，从输人x通过编码器到z,然后经更符合数据的实际情况，这种机制使得其效果比解码器到x',自编码器的目的是，让输出x尽可能 PCA更优。复现输入x。系统的输出x能够复原原始数据x, 自编码网络可以实现无监督的自我学习，把说明z的维度虽然与x的维度不同，但承载了原始这种自我学习扩展到深度学习网络，即拥有多个数据的所有信息，只是形式不同，是已经变换特征隐藏层的神经网络，以提取多标记的数据特征，的某种形式。如果对隐含层进行约束使得z的维实现多标记学习的无监督维数约简。度小于x的维度，就可以实现无监督数据降维。 3多标记维数约简的自编码网络方法自编码器AE(autoencoder)接受一个输人 x∈Rm,通过一个编码器将它映射到一个隐藏层， 3.1多标记维数约简用z表示，如式(1)所示：多标记学习与单标记学习一样面临“维度灾 z=s(Wx+b) (1) 难”的挑战，所以维数约简结果的好坏直接影响着通常称z为编码，也称为潜在变量或潜在表分类器的精度和泛化性能，特别是对于基因序示，s是一种基于元素的激活函数，可以是sg- 列、图像处理等高维数据，影响更加显著。数据 moid函数或双曲正切函数，W是一个权重矩阵，维度过大，不仅会增加计算时间和空间的复杂 b是一个偏差向量。度，还会降低多标记学习性能。如果在多标记学在自编码器的解码阶段，解码器将z映射到与习训练之前，通过一定的特征选择或提取方法， x形状相同的重构x,即去掉不相关或冗余属性，反而可以获得更令人满 x'=s(Wz+b') (2) 意的知识学习模型181。降低高维数据的维度是一般而言，解码器中的s、W和b可能与编码多标记学习中一个重要的研究课题，很多学者研器中的s、W和b不同，主要取决于自编码器的设究多标记数据的降维方法以提高多标记学习算法计，自编码器的学习函数为h(x)=soy。的效果。重建误差可以用许多方法测量，可根据给定已有的多标记数据维数约简方法可以分为两输入的分布假设而制定。一般可以采用样本的代大类：特征选择(feature selection)和特征提取(fea 价函数，单个样本的代价函数为 ture extraction)。特征选择是给定一个多标记分类算法和训练集，通过优化某个多标记损失函数对 c(W.b.x.)= (3) 属性子集进行评价，选择使损失达到最小的属性 m个样本的整体平方误差成本函数为子集作为最终结果。而特征提取是通过空间变

2 自编码网络自编码网络包含数据输入层、隐藏层、输出重构层。如图 1 所示，自编码器由编码器 (encoder) 和解码器 (decoder) 两部分构成。其作用是将输入样本压缩到隐藏层，然后解压，在输出层重建样本[13-15] 。 h(x) ≈ x x x x z x ′ x ′ x x ′ x z x z x 自编码网络是一种不需要标记的无监督学习模型，它试图学习一个函数 ,训练网络使得输出逼近输入，也就是每个样本的学习目标也是，这样自编码器自己生成标签，而且标签就是样本数据本身，所以也称为自监督学习或自学习。如图 1 所示，从输入通过编码器到，然后经解码器到，自编码器的目的是，让输出尽可能复现输入。系统的输出能够复原原始数据，说明的维度虽然与的维度不同，但承载了原始数据的所有信息，只是形式不同，是已经变换特征的某种形式。如果对隐含层进行约束使得的维度小于的维度，就可以实现无监督数据降维[16]。 x ∈ R m 自编码器 AE(autoencoder) 接受一个输入，通过一个编码器将它映射到一个隐藏层，用 z 表示，如式 (1) 所示： z = s(W x+ b) (1) z s W b 通常称为编码，也称为潜在变量或潜在表示，是一种基于元素的激活函数，可以是 sigmoid 函数或双曲正切函数，是一个权重矩阵，是一个偏差向量。 z x x ′ 在自编码器的解码阶段，解码器将映射到与形状相同的重构，即 x ′ = s ′ (W′ z+ b ′ ) (2) s ′ W′ b ′ s W b h(x) = s ◦ s ′ 一般而言，解码器中的、和可能与编码器中的、和不同，主要取决于自编码器的设计，自编码器的学习函数为。重建误差可以用许多方法测量，可根据给定输入的分布假设而制定。一般可以采用样本的代价函数，单个样本的代价函数为 c(W, b, xi , x ′ i ) = 1 2 x ′ i − xi 2 (3) m个样本的整体平方误差成本函数为 C(W, b) = 1 m ∑m i=1 1 2 x ′ i − xi 2 + λ 2 ∑nl−1 l=1 ∑ns i=1 ∑ns+1 j=1 (Wl ji) (4) m nl ns l λ C(W, b) 式中：是样本个数；是网络层数；是层的神经元数量；是权重衰减参数，用于控制公式中两项的相对重要性。是整体样本代价函数，第一项是均方差项，第二项是权重衰减项或称为规则化项，其目的是防止过度拟合。 C(W, b) W, b 训练目标就是获得总体样本成本误差最小的，即 argmin W,b (C(W, b)) (5) 如果输入是完全随机的，每个输入数据都独立于其他特征的高斯分布，则编码器的压缩任务将非常困难。但是，如果数据中存在结构，有些输入要素是相关或有冗余，则该算法将能够发现一些相关性。自动编码器通常最终会学习与 PCA 非常相似的低维表示。事实上，如果每两层之间的变换均为线性且训练误差是二次型误差时，该网络等价于 PCA。而自编码网络使用非线降维，更符合数据的实际情况，这种机制使得其效果比 PCA 更优。自编码网络可以实现无监督的自我学习，把这种自我学习扩展到深度学习网络，即拥有多个隐藏层的神经网络，以提取多标记的数据特征，实现多标记学习的无监督维数约简。 3 多标记维数约简的自编码网络方法 3.1 多标记维数约简多标记学习与单标记学习一样面临“维度灾难”的挑战，所以维数约简结果的好坏直接影响着分类器的精度和泛化性能，特别是对于基因序列、图像处理等高维数据，影响更加显著。数据维度过大，不仅会增加计算时间和空间的复杂度，还会降低多标记学习性能。如果在多标记学习训练之前，通过一定的特征选择或提取方法，去掉不相关或冗余属性，反而可以获得更令人满意的知识学习模型[17-18]。降低高维数据的维度是多标记学习中一个重要的研究课题，很多学者研究多标记数据的降维方法以提高多标记学习算法的效果[19]。已有的多标记数据维数约简方法可以分为两大类：特征选择 (feature selection) 和特征提取 (feature extraction)。特征选择是给定一个多标记分类算法和训练集，通过优化某个多标记损失函数对属性子集进行评价，选择使损失达到最小的属性子集作为最终结果[20]。而特征提取是通过空间变 x 编码器 z 解码器 x' x' 尽可能复现 x 图 1 自编码网络模型 Fig. 1 Model of autoencoder networks ·810· 智能系统学报第 13 卷

第5期杨文元：多标记学习自编码网络无监督维数约简 ·811· 换，将某些原始特征映射到其他低维空间，生成一些新的特性，习，特征提取后的新特征是原来特 Cm(W.b-COW.b+BKL(p) (9) 征的一个变换映射，不是原特征一个子集。式中B是控制稀疏惩罚项的权重。 3.2多标记学习维数约简的自编码网络方法稀疏约束后训练目标也是总体成本误差最基本自编码网络可以解决数量很小的隐藏单小，即元问题，而高维数据的隐藏单元数量很大，为此， arg min(Csparse(W,b)) (10) 对隐藏单元进行稀疏约束，使得自编码器可以从 W.b 大量的隐藏单元中发现高维数据中的相关结构，为了求解上述总体成本误差最小问题，采用反向传播算法计算成本偏导数，先求出成本函数提取关键特征，实现维数约简。自编码网络，由输人层、隐含层1,2，…，i,…n和输出层组成，如图2 Csparse(W,b)对aW,的偏导数，得到所示。 awr Com(W.b)=1 16 m台aw网 C(W.b.xi.x)+aW (11) 以及对求偏导数，得到丽Cmm,)=1a m名 C(W.b,xi.x) (12) 采用梯度下降迭代法，按公式(13)、(14)进行输入层隐含层1隐含层隐含层隐含层n输出层迭代：编码解码 W号-w-0mCaw. (13) 图2自编码网络 Fig.2 Autoencoder network =-ca记CW, (14) 如果激活函数采用sigmoid函数，当神经元的综合上述推导过程和结果，设计多标记学习的输出值接近于1，则神经元是“活动的”，如果它的自编码网络无监督降维算法MUAE如下。输出值接近于0，则神经元是“无效的”。算法MUAE 令a,表示自编码器中激活隐藏单元j,当网络输入Xm特征矩阵，Yp标记矩阵，约简维被赋予特定的输入x时，用a(x)表示x激活隐藏单度d。元j的输出值。如果输入x有m个样本，则隐藏单输出多标记学习分类结果。元j的平均激活为p,即 1)初始化权重矩阵W和偏离向量b'; (6) 2)for epoch=1:k; 3)计算样本总成本C(W,b);由式(9)计算；用稀疏参数ρ对每个隐藏神经元的平均激活 4)迭代权重矩阵W和偏离向量b;/由式进行稀疏约束，p的取值接近于零，比如取0.05。 (13)和式(14)计算；为满足这个约束，引入伯努利随机变量KL(Kul- 5)end for back-Leibler)散度来度量平均值p,和p之间的 6)返回输出层特征矩阵Xxd; 距离，即 7)多标记算法ML-kNN(Xxd,YP)计算分类 Kpl5)=plog号+I-ploe1=币 .1-p (7) 结果/按文献[12]计算。隐藏层中所有神经元的KL散度之和作为优 4实验结果与分析化目标的处罚项，以惩罚显著偏离P,即之KLP) 4.1实验数据与对比算法 (8) 多标记学习数据降维实验采用公开数据集叫式中：n,是隐藏层中所有神经元的数量。如果各数据集的训练和测试样本数、标记数量与数据 p;=p,那么KL(p)=0;否则p,会随着偏离p而单特征数量等基本情况如表1所示，表中6个数据调增加，所以只要使这个惩罚项最小化，就会导集Arts、Business、Computers、Health、Recreation 致p接近于p。 Reference的名称前面分别用A、B、C、D、E、F对稀疏约束后，样本的总体成本为应标注，以方便后续表格使用

换，将某些原始特征映射到其他低维空间，生成一些新的特性[3，5] ，特征提取后的新特征是原来特征的一个变换映射，不是原特征一个子集。 3.2 多标记学习维数约简的自编码网络方法 1,2,···,i,···n 基本自编码网络可以解决数量很小的隐藏单元问题，而高维数据的隐藏单元数量很大，为此，对隐藏单元进行稀疏约束，使得自编码器可以从大量的隐藏单元中发现高维数据中的相关结构，提取关键特征，实现维数约简。自编码网络，由输入层、隐含层和输出层组成，如图 2 所示。如果激活函数采用 sigmoid 函数，当神经元的输出值接近于 1，则神经元是“活动的”，如果它的输出值接近于 0，则神经元是“无效的”。 aj j x aj(x) x j x m j ρ¯j 令表示自编码器中激活隐藏单元，当网络被赋予特定的输入时，用表示激活隐藏单元的输出值。如果输入有个样本，则隐藏单元的平均激活为，即 ρ¯j = 1 m ∑m i=1 aj(xi) (6) ρ ρ ρ¯j ρ 用稀疏参数对每个隐藏神经元的平均激活进行稀疏约束，的取值接近于零，比如取 0.05。为满足这个约束，引入伯努利随机变量 KL(Kullback-Leibler) 散度来度量平均值和之间的距离，即 KL(ρ||ρ¯j) = ρlog ρ ρ¯j +(1−ρ)log 1−ρ 1−ρ¯j (7) ρ 隐藏层中所有神经元的 KL 散度之和作为优化目标的处罚项，以惩罚显著偏离，即 ∑ns j=1 KL(ρ||ρ¯j) (8) ns ρ¯j = ρ KL(ρ||ρ¯j) = 0 ρ¯j ρ ρ¯j ρ 式中：是隐藏层中所有神经元的数量。如果，那么；否则会随着偏离而单调增加，所以只要使这个惩罚项最小化，就会导致接近于。稀疏约束后，样本的总体成本为 Csparse(W, b) = C(W, b)+β ∑ns j=1 KL(ρ||ρ¯j) (9) 式中 β 是控制稀疏惩罚项的权重。稀疏约束后训练目标也是总体成本误差最小，即 argmin W,b (Csparse(W, b)) (10) ∂Wl i j 为了求解上述总体成本误差最小问题，采用反向传播算法计算成本偏导数，先求出成本函数 Csparse（W，b）对的偏导数，得到 ∂ ∂Wl i j Csparse(W, b) = 1 m ∑m i=1 ∂ ∂Wl i j C(W, b, xi , x ′ i )+λWl i j (11) b l 以及对 i求偏导数，得到 ∂ ∂b l i Csparse(W, b) = 1 m ∑m i=1 ∂ ∂b l i C(W, b, xi , x ′ i ) (12) 采用梯度下降迭代法，按公式 (13)、(14) 进行迭代： Wl i j = Wl i j −α ∂ ∂Wl i j Csparse(W, b) (13) b l i = b l i −α ∂ ∂b l i Csparse(W, b) (14) 综合上述推导过程和结果，设计多标记学习的自编码网络无监督降维算法 MUAE 如下。算法 MUAE X n×m Y n×p d 输入特征矩阵，标记矩阵，约简维度。输出多标记学习分类结果。 Wl b l 1) 初始化权重矩阵和偏离向量； 2) for epoch =1:k； 3) 计算样本总成本 Csparse(W, b) ；//由式 (9) 计算； Wl b l 4) 迭代权重矩阵和偏离向量； / /由式 (13) 和式 (14) 计算； 5) end for X 6) 返回输出层特征矩阵 n×d； X n×d Y 7) 多标记算法 ML-kNN( n×p , ) 计算分类结果//按文献[12]计算。 4 实验结果与分析 4.1 实验数据与对比算法多标记学习数据降维实验采用公开数据集[21] ，各数据集的训练和测试样本数、标记数量与数据特征数量等基本情况如表 1 所示，表中 6 个数据集 Arts、Business、Computers、Health、Recreation、 Reference 的名称前面分别用 A、B、C、D、E、F 对应标注，以方便后续表格使用。输入层隐含层1 隐含层i 隐含层j 隐含层n 输出层编码解码图 2 自编码网络 Fig. 2 Autoencoder network 第 5 期杨文元：多标记学习自编码网络无监督维数约简 ·811·

·812· 智能系统学报第13卷表1数据集基本描述记预测的概率平均。 Table 1 Data description 2)汉明损失数据集/ 训练样测试样标记特征 11 Hammingloss(h)=- -h(x)△Y (16) 数据信息本数本数个数个数 P台q A:Arts 2000 3000 26 462 汉明损失，是通过计算多标记分类器预测的 B:Business 2000 3000 30 438 标记结果与实际的标记差距来度量多标记分类器 C:Computers 2000 3000 33 681 的性能。 3)排名损失 D:Health 2000 3000 32 612 11 E:Recreation 2000 3000 3 606 Rankingloss(f)= p子I2O2f)s (17) F:Reference 2000 3000 33 793 fx2),02)eY× 实验过程中，将MUAE算法与4种算法进行排名损失，评价所有样本的预测标记排名中，对比，对比算法分别是线性维数约简主成分分析不相关标记在相关标记前面的概率平均。 PCA算法四、非线性维数约简局部保留投影LPP) 4)一错误算法和拉普拉斯特征映射LE算法P,以及多标 Oneerror(f)= arg max f(x,y)年Y (18) 记依赖最大化MDDM算法 = 在维数约简后统一使用ML-kNN算法进行 ·错误，该指标评价每个样本的预测标记排多标记分类，其中k=10,并以ML-kNN算法在原名中，排在第一位的标记不在该样本的相关标记始特征空间的评价性能作为参照基线，记为集中的概率评价。 Baseline。.MDDM算法的μ=0.5，LLP算法分类时 5)覆盖构造邻接图的最近邻个数与ML-KNN算法一样 (19) 设置k=10。所有维数约简方法降维到相同的维 Coverage()=1 maxrank,(xiy)-1 p 度进行对比，所有算法在6个数据集上的特征降覆盖，该指标评价每个样本的预测标记排名维百分比为10%、20%、30%、40%、50%、60%、中需要在标记序列表中最少查找到第几位才可以 70%、80%、90%、100%,共10个百分比的实验对比。找出所有与该样本相关的标记。 4.2多标记学习评价指标 4.3实验结果在多标记学习问题中，由于每个对象可能同 5种算法和基准算法共6个算法，在6个多标时具有多个类别标记，因此传统监督学习中常用记数据集上用5个评价指标进行对比实验，实验的单标记评价指标无法直接用于多标记学习系统的结果展示在表2~6。的性能评价。因此，研究者们相继提出了一系列表2不同降维方法的平均精度多标记评价指标，一般可分为两种类型，即基于 Table 2 Average precision of different algorithms 样本的评价指标(example-based metrics)2以及基于类别的评价指标(label-based metrics)26。本文 () A B D E F 主要采用5种指标，即平均精度(average precision)、 Baseline0.50930.87980.63340.68120.45440.6193 汉明损失(Hamming loss)、排名损失(ranking PCA0.53340.87620.65920.72330.52590.6639 loss)、一错误(oneerror)和覆盖(coverage),具体的 LPP 0.51630.87460.63090.69260.48780.6356 计算公式如下。 LE 0.49630.86560.62120.68690.45600.6131 1)平均精度 MDDM0.55750.88690.67300.70040.51060.6546 MUAE0.53590.88930.67870.71530.52930.6626 (15) >l lrankr(ry)s rank(y).yey rank(xi,y) 表2是评价平均精度指标的实验结果，其数平均精度，是一种最直观的评价方式，评价样值是越高越好，最好的结果用黑体表示。实验结本的类别标记排序序列中，排在相关标记之前的果显示，MUAE方法在Business、Computers、Re- 标记占标记集合的平均比例，这个指标是相关标 creation三个数据集上都取得最好结果，PCA在Health

实验过程中，将 MUAE 算法与 4 种算法进行对比，对比算法分别是线性维数约简主成分分析 PCA 算法[22] 、非线性维数约简局部保留投影 LPP[23] 算法和拉普拉斯特征映射 LE 算法[24] ，以及多标记依赖最大化 MDDM 算法[5] 。 k = 10 µ = 0.5 k = 10 在维数约简后统一使用 ML-kNN 算法[12]进行多标记分类，其中，并以 ML-kNN 算法在原始特征空间的评价性能作为参照基线，记为 Baseline。MDDM 算法的，LLP 算法分类时构造邻接图的最近邻个数与 ML-KNN 算法一样设置。所有维数约简方法降维到相同的维度进行对比，所有算法在 6 个数据集上的特征降维百分比为 10%、20%、30%、40%、50%、60%、 70%、80%、90%、100%，共 10 个百分比的实验对比。 4.2 多标记学习评价指标在多标记学习问题中，由于每个对象可能同时具有多个类别标记，因此传统监督学习中常用的单标记评价指标无法直接用于多标记学习系统的性能评价。因此，研究者们相继提出了一系列多标记评价指标，一般可分为两种类型，即基于样本的评价指标 (example-based metrics)[25]以及基于类别的评价指标 (label-based metrics)[26]。本文主要采用 5 种指标，即平均精度 (average precision)、汉明损失 (Hamming loss)、排名损失 (ranking loss)、一错误 (oneerror) 和覆盖 (coverage)，具体的计算公式如下。 1) 平均精度 Averageprecision(h) = 1 p ∑p i=1 1 |Yi | ∑ y∈Yi { y ′ |rankf (xi , y ′ ) ⩽ rankf (xi , y), y ′ ∈ Yi } rankf (xi , y) (15) 平均精度，是一种最直观的评价方式，评价样本的类别标记排序序列中，排在相关标记之前的标记占标记集合的平均比例，这个指标是相关标记预测的概率平均。 2) 汉明损失 Hammingloss(h) = 1 p ∑p i=1 1 q |h(xi)∆Yi | (16) 汉明损失，是通过计算多标记分类器预测的标记结果与实际的标记差距来度量多标记分类器的性能。 3) 排名损失 Rankingloss(f) = 1 p ∑p i=1 1 |Yi | |Y¯ i | {(y1, y2)| f (xi , y1) ⩽ f (xi , y2),(y1 , y2) ∈ Yi ×Y¯ i } (17) 排名损失，评价所有样本的预测标记排名中，不相关标记在相关标记前面的概率平均。 4) 一错误 Oneerror(f) = 1 p ∑p i=1 argmax y∈Y f (xi , y) < Yi (18) 一错误，该指标评价每个样本的预测标记排名中，排在第一位的标记不在该样本的相关标记集中的概率评价。 5) 覆盖 Coverage(f) = 1 p ∑p i=1 max y∈Yi rankf (xi , y)−1 (19) 覆盖，该指标评价每个样本的预测标记排名中需要在标记序列表中最少查找到第几位才可以找出所有与该样本相关的标记。 4.3 实验结果 5 种算法和基准算法共 6 个算法，在 6 个多标记数据集上用 5 个评价指标进行对比实验，实验的结果展示在表 2~6。表 2 是评价平均精度指标的实验结果，其数值是越高越好，最好的结果用黑体表示。实验结果显示，MUAE 方法在 Business、Computers、Recreation 三个数据集上都取得最好结果，PCA 在 Health 表 1 数据集基本描述 Table 1 Data description 数据集/ 数据信息训练样本数测试样本数标记个数特征个数 A: Arts 2 000 3 000 26 462 B: Business 2 000 3 000 30 438 C: Computers 2 000 3 000 33 681 D: Health 2 000 3 000 32 612 E: Recreation 2 000 3 000 22 606 F: Reference 2 000 3 000 33 793 表 2 不同降维方法的平均精度 Table 2 Average precision of different algorithms (↑) A B C D E F Baseline 0.509 3 0.879 8 0.633 4 0.681 2 0.454 4 0.619 3 PCA 0.533 4 0.876 2 0.659 2 0.723 3 0.525 9 0.663 9 LPP 0.516 3 0.874 6 0.630 9 0.692 6 0.487 8 0.635 6 LE 0.496 3 0.865 6 0.621 2 0.686 9 0.456 0 0.613 1 MDDM 0.557 5 0.886 9 0.673 0 0.700 4 0.510 6 0.654 6 MUAE 0.535 9 0.889 3 0.678 7 0.715 3 0.529 3 0.662 6 ·812· 智能系统学报第 13 卷

点击进入文档下载页（PDF格式）

共10页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录