第13卷第5期 智能系统学报 Vol.13 No.5 2018年10月 CAAI Transactions on Intelligent Systems Oct.2018 D0:10.11992/tis.201804051 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180611.1014.002.html 多标记学习自编码网络无监督维数约简 杨文元 (闽南师范大学福建省粒计算及其应用重点实验室,福建漳州363000) 摘要:多标记学习是针对一个实例同时与一组标签相关联而提出的一种机器学习框架,是该领域研究热点之 一,降维是多标记学习一个重要且具有挑战性的工作。针对有监督的多标记维数约简方法,提出一种无监督自 编码网络的多标记降维方法。首先,通过构建自编码神经网络,对输入数据进行编码和解码输出:然后,引入 稀疏约束计算总体成本,使用梯度下降法进行迭代求解:最后,通过深度学习训练获得自编码网络学习模型, 提取数据特征实现维数约简。实验中使用多标记算法ML-kNN做分类器,在6个公开数据集上与其他4种方 法对比。实验结果表明,该方法能够在不使用标记的情况下有效提取特征,降低多标记数据维度,稳定提高多 标记学习性能。 关键词:多标记学习:维数约简:无监督学习:神经网络:自编码器:机器学习:深度学习:特征提取 中图分类号:TP183文献标志码:A文章编号:1673-4785(2018)05-0808-10 中文引用格式:杨文元.多标记学习自编码网络无监督维数约简J机智能系统学报,2018,13(5):808-817, 英文引用格式:YANG Wenyuan..Unsupervised dimensionality reduction of multi-label learning via autoencoder networks. CAAI transactions on intelligent systems,2018,13(5):808-817. Unsupervised dimensionality reduction of multi-label learning via autoencoder networks YANG Wenyuan (Fujian Key Laboratory of Granular Computing and Application,Minnan Normal University,Zhangzhou 363000,China) Abstract:Multi-label learning is a machine learning framework that simultaneously deals with data associated with a group of labels.It is one of the hot spots in the field of machine learning.However,dimensionality reduction is a signi- ficant and challenging task in multi-label learning.In this paper,we propose a unsupervised dimensionality reduction method for supervised multi-label dimensiona reduction methods via autoencoder networks.Firstly,we build the autoen- coder neural network to encode the input data and then decode them for output.Then we introduce the sparse constraint to calculate the overall cost,and further use the gradient descent method to iterate them.Finally,we obtain the autoen- coder network learning model by deep learning training,and then extract data features to reduce dimensionality.In the experiments,we use a multi-label algorithm(ML-kNN)as the classifier,and compare them with four other methods on six publicly available datasets.Experimental results show that the proposed method can effectively extract features without using label learning;thus,it reduces multi-label data dimensionality and steadily improves the performance of multi-label learning. Keywords:multi-label learning;dimensionality reduction;unsupervised learning;neural networks;autoencoder;ma- chine learning;deep learning:feature extraction 收稿日期:2018-04-25.网络出版日期:2018-06-11 真实世界中的对象通常具有不止一种语义标 基金项目:国家自然科学青年基金项目(61703196):福建省自 然科学基金项目(2018J01549). 记,经常表现为多义性,即一个对象可能与多个 通信作者:杨文元.Email::yangwy@mnnu.edu.cn. 类别标记相关联。如一幅海边景色图片可以同时
DOI: 10.11992/tis.201804051 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180611.1014.002.html 多标记学习自编码网络无监督维数约简 杨文元 (闽南师范大学 福建省粒计算及其应用重点实验室,福建 漳州 363000) 摘 要:多标记学习是针对一个实例同时与一组标签相关联而提出的一种机器学习框架,是该领域研究热点之 一,降维是多标记学习一个重要且具有挑战性的工作。针对有监督的多标记维数约简方法,提出一种无监督自 编码网络的多标记降维方法。首先,通过构建自编码神经网络,对输入数据进行编码和解码输出;然后,引入 稀疏约束计算总体成本,使用梯度下降法进行迭代求解;最后,通过深度学习训练获得自编码网络学习模型, 提取数据特征实现维数约简。实验中使用多标记算法 ML-kNN 做分类器,在 6 个公开数据集上与其他 4 种方 法对比。实验结果表明,该方法能够在不使用标记的情况下有效提取特征,降低多标记数据维度,稳定提高多 标记学习性能。 关键词:多标记学习;维数约简;无监督学习;神经网络;自编码器;机器学习;深度学习;特征提取 中图分类号:TP183 文献标志码:A 文章编号:1673−4785(2018)05−0808−10 中文引用格式:杨文元. 多标记学习自编码网络无监督维数约简[J]. 智能系统学报, 2018, 13(5): 808–817. 英文引用格式:YANG Wenyuan. Unsupervised dimensionality reduction of multi-label learning via autoencoder networks[J]. CAAI transactions on intelligent systems, 2018, 13(5): 808–817. Unsupervised dimensionality reduction of multi-label learning via autoencoder networks YANG Wenyuan (Fujian Key Laboratory of Granular Computing and Application, Minnan Normal University, Zhangzhou 363000, China) Abstract: Multi-label learning is a machine learning framework that simultaneously deals with data associated with a group of labels. It is one of the hot spots in the field of machine learning. However, dimensionality reduction is a significant and challenging task in multi-label learning. In this paper, we propose a unsupervised dimensionality reduction method for supervised multi-label dimensiona reduction methods via autoencoder networks. Firstly, we build the autoencoder neural network to encode the input data and then decode them for output. Then we introduce the sparse constraint to calculate the overall cost, and further use the gradient descent method to iterate them. Finally, we obtain the autoencoder network learning model by deep learning training, and then extract data features to reduce dimensionality. In the experiments, we use a multi-label algorithm (ML-kNN) as the classifier, and compare them with four other methods on six publicly available datasets. Experimental results show that the proposed method can effectively extract features without using label learning; thus, it reduces multi-label data dimensionality and steadily improves the performance of multi-label learning. Keywords: multi-label learning; dimensionality reduction; unsupervised learning; neural networks; autoencoder; machine learning; deep learning; feature extraction 真实世界中的对象通常具有不止一种语义标 记,经常表现为多义性,即一个对象可能与多个 类别标记相关联。如一幅海边景色图片可以同时 收稿日期:2018−04−25. 网络出版日期:2018−06−11. 基金项目:国家自然科学青年基金项目 (61703196);福建省自 然科学基金项目 (2018J01549). 通信作者:杨文元. Email: yangwy@mnnu.edu.cn. 第 13 卷第 5 期 智 能 系 统 学 报 Vol.13 No.5 2018 年 10 月 CAAI Transactions on Intelligent Systems Oct. 2018
第5期 杨文元:多标记学习自编码网络无监督维数约简 ·809· 标注“蓝天”“白云”“大海”“沙滩”等语义标记,对 1多标记学习 于多个标记对象的处理方式是为每个图像赋予 个标记子集,并进行建模和学习,这就形成多标 多标记的样本由一个示例和对应的多个标记 记学习框架山。在多标记学习框架下,每个示例 构成,多标记学习是一种机器学习框架。下面的内 由对应的多个标记构成的特征向量进行描述,学 容,简要地介绍多标记学习的问题定义和学习算法。 习的目标是将多个适当的标记赋予需要预测的未 1.1多标记问题定义 知示例四。 假设X∈R4代表d维的示例空间,Y=y,y2,…,yl 随着信息化的快速发展,数据和资源呈海量 代表包含1个类别的标记空间。给定多标记训练 特征,数据的标注结构复杂程度也不断增加,单 集D={(x,Y,1≤i≤m,其中x,为d维的属性向量, 标记方法无法满足分析处理要求山,以机器学习 即x:=[x1x2…xdT,而Y:∈Y为与x对应的一组类 技术为基础的多标记学习技术现已成为一个研究 别标记,多标记学习的目标是从中学习得到一个 热点,其研究成果广泛地应用于各种不同领域, 多标记分类器g:X→2'。因此,对于所有示例xeX, 如图像视频的语义标注、功能基因组、音乐情感 分类器预测隶属于该示例的类别标记集合为 分类以及营销指导等。 gx)cY,称多标记学习"。 在多标记学习过程中,高维数据训练和预测 多标记的集合空间如果太大则会造成学习困 都需要更多的计算时间和空间。降维减少了特征 难,因此需要充分利用标记之间的“相关性”来辅 数却提高了算法效率和学习性能,可避免过拟合 助学习过程的进行。基于考察标记之间相关性的 现象和过滤掉冗余特征46。因此,降低数据的维 不同方式,多标记学习问题求解策略有三类,”。 度具有重要意义。 “一阶(first-order)”策略:只考察每一个单个 高维数据降维,主要有线性维数约简和非线 标记,不考虑标记之间的相关性,将多标记学习 性维数约简两种方法。线性维数约简的方法有主 问题分解为多个独立的二分类问题。该策略实现 成分分析方法(principal component analysis,.PCA)、 简单,效率较高,但学习的泛化性能不高。 独立成分分析方法(independent component correla- “二阶(second-.order))”策略:考察两两标记之 tion algorithm,ICA)、线性判别分析法(linear dis- 间的相关性和交互关系,该类方法的泛化性能较 criminant analysis,.LDA)和局部特征分析法(local 好,但不能很好处理多标记间的二阶以上相关性四。 feature analysis,.LFA)等。非线性降维方法有等距 “高阶(high-order)”策略:考察任一标记对其 特征映射方法(isometric feature mapping,ISOMAP) 它所有标记的影响以及一组随机标记集合的相关 和局部线性嵌入方法(locally linear embedding, 性等。该类策略较好地反映了真实世界的标记相 LLE)等。多标记学习的有监督降维方法有依 关性,但复杂度一般过高,难以处理大规模学习 赖最大化(MDDM)算法,半监督方法主要是采 问题。 用联合降维方法例和依赖最大化方法©。 1.2多标记学习算法 与一股多标记有监督的降维方法不同,提出 目前已经涌现出了大量的多标记学习算法, 一种自编码网络的无监督多标记维数约简方法 可以分为问题转换和算法适应两类方法"。 (multi-label unsupervised dimensionality reduction via 问题转换方法的基本思想是将多标记学习问 autoencoder networks,MUAE),首先构建自编码神 题转换为其他已知的学习问题进行求解,代表性 经网络,仅使用特征数据作为输入,进行编码和 学习算法有Binary Relevance、Calibrated Label 解码输出以提取特征,在处理过程引人稀疏约束 Ranking和Random k-labelsets。算法适应方法的 并将输出数据与输入数据对比,计算总体成本误 基本思想是通过对常用监督学习算法进行改进, 差,应用梯度下降法进行迭代更新,通过深度学 将其直接用于多标记学习,代表性学习算法有 习训练获得自编码网络学习模型,提取数据特 ML-kNN,Rank-SVM和LEAD。 征,最后以多标记学习ML-kNN算法作为统一的 ML-kNN算法I2是对k近邻(k-nearest neigh- 分类评价基准,并在6个公开数据集上与其他4种 bors,kNN)算法进行改造以适应多标记数据分 方法对比。实验结果表明,该方法能够在无监督 类,算法的基本思想是采用kNN分类准则,统计 情况下有效提取特征,降低多标记数据维度,得 近邻样本的类别标记信息,通过最大化后验概率 到较好的学习效果。 的方式推理未知示例的标记集合
标注“蓝天”“白云”“大海”“沙滩”等语义标记,对 于多个标记对象的处理方式是为每个图像赋予一 个标记子集,并进行建模和学习,这就形成多标 记学习框架[1]。在多标记学习框架下,每个示例 由对应的多个标记构成的特征向量进行描述,学 习的目标是将多个适当的标记赋予需要预测的未 知示例[2]。 随着信息化的快速发展,数据和资源呈海量 特征,数据的标注结构复杂程度也不断增加,单 标记方法无法满足分析处理要求[1] ,以机器学习 技术为基础的多标记学习技术现已成为一个研究 热点,其研究成果广泛地应用于各种不同领域, 如图像视频的语义标注、功能基因组、音乐情感 分类以及营销指导等[3]。 在多标记学习过程中,高维数据训练和预测 都需要更多的计算时间和空间。降维减少了特征 数却提高了算法效率和学习性能,可避免过拟合 现象和过滤掉冗余特征[4-6]。因此,降低数据的维 度具有重要意义。 高维数据降维,主要有线性维数约简和非线 性维数约简两种方法。线性维数约简的方法有主 成分分析方法 (principal component analysis, PCA)、 独立成分分析方法 (independent component correlation algorithm, ICA)、线性判别分析法 (linear discriminant analysis, LDA) 和局部特征分析法 (local feature analysis, LFA) 等。非线性降维方法有等距 特征映射方法 (isometric feature mapping, ISOMAP) 和局部线性嵌入方法 (locally linear embedding, LLE) 等 [7-8]。多标记学习的有监督降维方法有依 赖最大化 (MDDM) 算法[5] ,半监督方法主要是采 用联合降维方法[9]和依赖最大化方法[10]。 与一般多标记有监督的降维方法不同,提出 一种自编码网络的无监督多标记维数约简方法 (multi-label unsupervised dimensionality reduction via autoencoder networks, MUAE),首先构建自编码神 经网络,仅使用特征数据作为输入,进行编码和 解码输出以提取特征,在处理过程引入稀疏约束 并将输出数据与输入数据对比,计算总体成本误 差,应用梯度下降法进行迭代更新,通过深度学 习训练获得自编码网络学习模型,提取数据特 征,最后以多标记学习 ML-kNN 算法作为统一的 分类评价基准,并在 6 个公开数据集上与其他 4 种 方法对比。实验结果表明,该方法能够在无监督 情况下有效提取特征,降低多标记数据维度,得 到较好的学习效果。 1 多标记学习 多标记的样本由一个示例和对应的多个标记 构成,多标记学习是一种机器学习框架[1-2]。下面的内 容,简要地介绍多标记学习的问题定义和学习算法。 1.1 多标记问题定义 X ∈ R d d Y ={y1, y2,··· , yl} l D = {(xi ,Yi)|1 ⩽ i ⩽ m} xi d xi = [xi1 xi2 ··· xid] T Yi ∈ Y xi g : X → 2 Y x ∈ X g(x) ⊆ Y 假设 代表 维的示例空间, 代表包含 个类别的标记空间。给定多标记训练 集 ,其中 为 维的属性向量, 即 ,而 为与 对应的一组类 别标记,多标记学习的目标是从中学习得到一个 多标记分类器 。因此,对于所有示例 , 分类器预测隶属于该示例的类别标记集合为 ,称多标记学习[1]。 多标记的集合空间如果太大则会造成学习困 难,因此需要充分利用标记之间的“相关性”来辅 助学习过程的进行。基于考察标记之间相关性的 不同方式,多标记学习问题求解策略有三类[1, 11]。 “一阶 (first-order)”策略:只考察每一个单个 标记,不考虑标记之间的相关性,将多标记学习 问题分解为多个独立的二分类问题。该策略实现 简单,效率较高,但学习的泛化性能不高[11]。 “二阶 (second-order)”策略:考察两两标记之 间的相关性和交互关系,该类方法的泛化性能较 好,但不能很好处理多标记间的二阶以上相关性[11]。 “高阶 (high-order)”策略:考察任一标记对其 它所有标记的影响以及一组随机标记集合的相关 性等。该类策略较好地反映了真实世界的标记相 关性,但复杂度一般过高,难以处理大规模学习 问题[11]。 1.2 多标记学习算法 目前已经涌现出了大量的多标记学习算法, 可以分为问题转换和算法适应两类方法[1]。 问题转换方法的基本思想是将多标记学习问 题转换为其他已知的学习问题进行求解,代表性 学习算法有 Binary Relevance、Calibrated Label Ranking 和 Random k-labelsets。算法适应方法的 基本思想是通过对常用监督学习算法进行改进, 将其直接用于多标记学习,代表性学习算法有 ML-kNN, Rank-SVM 和 LEAD[1]。 ML-kNN 算法[12]是对 k 近邻 (k-nearest neighbors,kNN) 算法进行改造以适应多标记数据分 类,算法的基本思想是采用 kNN 分类准则,统计 近邻样本的类别标记信息,通过最大化后验概率 的方式推理未知示例的标记集合。 第 5 期 杨文元:多标记学习自编码网络无监督维数约简 ·809·
·810· 智能系统学报 第13卷 2 自编码网络 cwo创=2k-+2Σ网) 自编码网络包含数据输入层、隐藏层、输出 式中:m是样本个数;n是网络层数;n,是层的神经 重构层。如图1所示,自编码器由编码器(en- 元数量:是权重衰减参数,用于控制公式中两项 coder)和解码器(decoder)两部分构成。其作用是 的相对重要性。C(W,b)是整体样本代价函数,第 将输入样本压缩到隐藏层,然后解压,在输出层 一项是均方差项,第二项是权重衰减项或称为规 重建样本3.1。 则化项,其目的是防止过度拟合。 x'尽可能复现x 训练目标就是获得总体样本成本误差C(W,b) 最小的W,b,即 编码器 解码器 arg min(C(W,b)) (5) W.b 如果输入是完全随机的,每个输入数据都独 图1自编码网络模型 立于其他特征的高斯分布,则编码器的压缩任务 Fig.1 Model of autoencoder networks 将非常困难。但是,如果数据中存在结构,有些 自编码网络是一种不需要标记的无监督学习 输入要素是相关或有冗余,则该算法将能够发现 模型,它试图学习一个函数x)≈x,训练网络使得 些相关性。自动编码器通常最终会学习与PCA 输出逼近输入人,也就是每个样本x的学习目标也 非常相似的低维表示。事实上,如果每两层之间 是x,这样自编码器自己生成标签,而且标签就是 的变换均为线性且训练误差是二次型误差时,该 样本数据本身,所以也称为自监督学习或自学 网络等价于PCA。而自编码网络使用非线降维, 习。如图1所示,从输人x通过编码器到z,然后经 更符合数据的实际情况,这种机制使得其效果比 解码器到x',自编码器的目的是,让输出x尽可能 PCA更优。 复现输入x。系统的输出x能够复原原始数据x, 自编码网络可以实现无监督的自我学习,把 说明z的维度虽然与x的维度不同,但承载了原始 这种自我学习扩展到深度学习网络,即拥有多个 数据的所有信息,只是形式不同,是已经变换特征 隐藏层的神经网络,以提取多标记的数据特征, 的某种形式。如果对隐含层进行约束使得z的维 实现多标记学习的无监督维数约简。 度小于x的维度,就可以实现无监督数据降维。 3多标记维数约简的自编码网络方法 自编码器AE(autoencoder)接受一个输人 x∈Rm,通过一个编码器将它映射到一个隐藏层, 3.1多标记维数约简 用z表示,如式(1)所示: 多标记学习与单标记学习一样面临“维度灾 z=s(Wx+b) (1) 难”的挑战,所以维数约简结果的好坏直接影响着 通常称z为编码,也称为潜在变量或潜在表 分类器的精度和泛化性能,特别是对于基因序 示,s是一种基于元素的激活函数,可以是sg- 列、图像处理等高维数据,影响更加显著。数据 moid函数或双曲正切函数,W是一个权重矩阵, 维度过大,不仅会增加计算时间和空间的复杂 b是一个偏差向量。 度,还会降低多标记学习性能。如果在多标记学 在自编码器的解码阶段,解码器将z映射到与 习训练之前,通过一定的特征选择或提取方法, x形状相同的重构x,即 去掉不相关或冗余属性,反而可以获得更令人满 x'=s(Wz+b') (2) 意的知识学习模型181。降低高维数据的维度是 一般而言,解码器中的s、W和b可能与编码 多标记学习中一个重要的研究课题,很多学者研 器中的s、W和b不同,主要取决于自编码器的设 究多标记数据的降维方法以提高多标记学习算法 计,自编码器的学习函数为h(x)=soy。 的效果。 重建误差可以用许多方法测量,可根据给定 已有的多标记数据维数约简方法可以分为两 输入的分布假设而制定。一般可以采用样本的代 大类:特征选择(feature selection)和特征提取(fea 价函数,单个样本的代价函数为 ture extraction)。特征选择是给定一个多标记分类 算法和训练集,通过优化某个多标记损失函数对 c(W.b.x.)= (3) 属性子集进行评价,选择使损失达到最小的属性 m个样本的整体平方误差成本函数为 子集作为最终结果。而特征提取是通过空间变
2 自编码网络 自编码网络包含数据输入层、隐藏层、输出 重构层。如图 1 所示,自编码器由编码器 (encoder) 和解码器 (decoder) 两部分构成。其作用是 将输入样本压缩到隐藏层,然后解压,在输出层 重建样本[13-15] 。 h(x) ≈ x x x x z x ′ x ′ x x ′ x z x z x 自编码网络是一种不需要标记的无监督学习 模型,它试图学习一个函数 ,训练网络使得 输出逼近输入,也就是每个样本 的学习目标也 是 ,这样自编码器自己生成标签,而且标签就是 样本数据本身,所以也称为自监督学习或自学 习。如图 1 所示,从输入 通过编码器到 ,然后经 解码器到 ,自编码器的目的是,让输出 尽可能 复现输入 。系统的输出 能够复原原始数据 , 说明 的维度虽然与 的维度不同,但承载了原始 数据的所有信息,只是形式不同,是已经变换特征 的某种形式。如果对隐含层进行约束使得 的维 度小于 的维度,就可以实现无监督数据降维[16]。 x ∈ R m 自编码器 AE(autoencoder) 接受一个输入 ,通过一个编码器将它映射到一个隐藏层, 用 z 表示,如式 (1) 所示: z = s(W x+ b) (1) z s W b 通常称 为编码,也称为潜在变量或潜在表 示 , 是一种基于元素的激活函数,可以是 sigmoid 函数或双曲正切函数, 是一个权重矩阵, 是一个偏差向量。 z x x ′ 在自编码器的解码阶段,解码器将 映射到与 形状相同的重构 ,即 x ′ = s ′ (W′ z+ b ′ ) (2) s ′ W′ b ′ s W b h(x) = s ◦ s ′ 一般而言,解码器中的 、 和 可能与编码 器中的 、 和 不同,主要取决于自编码器的设 计,自编码器的学习函数为 。 重建误差可以用许多方法测量,可根据给定 输入的分布假设而制定。一般可以采用样本的代 价函数,单个样本的代价函数为 c(W, b, xi , x ′ i ) = 1 2 x ′ i − xi 2 (3) m个样本的整体平方误差成本函数为 C(W, b) = 1 m ∑m i=1 1 2 x ′ i − xi 2 + λ 2 ∑nl−1 l=1 ∑ns i=1 ∑ns+1 j=1 (Wl ji) (4) m nl ns l λ C(W, b) 式中: 是样本个数; 是网络层数; 是 层的神经 元数量; 是权重衰减参数,用于控制公式中两项 的相对重要性。 是整体样本代价函数,第 一项是均方差项,第二项是权重衰减项或称为规 则化项,其目的是防止过度拟合。 C(W, b) W, b 训练目标就是获得总体样本成本误差 最小的 ,即 argmin W,b (C(W, b)) (5) 如果输入是完全随机的,每个输入数据都独 立于其他特征的高斯分布,则编码器的压缩任务 将非常困难。但是,如果数据中存在结构,有些 输入要素是相关或有冗余,则该算法将能够发现 一些相关性。自动编码器通常最终会学习与 PCA 非常相似的低维表示。事实上,如果每两层之间 的变换均为线性且训练误差是二次型误差时,该 网络等价于 PCA。而自编码网络使用非线降维, 更符合数据的实际情况,这种机制使得其效果比 PCA 更优。 自编码网络可以实现无监督的自我学习,把 这种自我学习扩展到深度学习网络,即拥有多个 隐藏层的神经网络,以提取多标记的数据特征, 实现多标记学习的无监督维数约简。 3 多标记维数约简的自编码网络方法 3.1 多标记维数约简 多标记学习与单标记学习一样面临“维度灾 难”的挑战,所以维数约简结果的好坏直接影响着 分类器的精度和泛化性能,特别是对于基因序 列、图像处理等高维数据,影响更加显著。数据 维度过大,不仅会增加计算时间和空间的复杂 度,还会降低多标记学习性能。如果在多标记学 习训练之前,通过一定的特征选择或提取方法, 去掉不相关或冗余属性,反而可以获得更令人满 意的知识学习模型[17-18]。降低高维数据的维度是 多标记学习中一个重要的研究课题,很多学者研 究多标记数据的降维方法以提高多标记学习算法 的效果[19]。 已有的多标记数据维数约简方法可以分为两 大类:特征选择 (feature selection) 和特征提取 (feature extraction)。特征选择是给定一个多标记分类 算法和训练集,通过优化某个多标记损失函数对 属性子集进行评价,选择使损失达到最小的属性 子集作为最终结果[20]。而特征提取是通过空间变 x 编码器 z 解码器 x' x' 尽可能复现 x 图 1 自编码网络模型 Fig. 1 Model of autoencoder networks ·810· 智 能 系 统 学 报 第 13 卷
第5期 杨文元:多标记学习自编码网络无监督维数约简 ·811· 换,将某些原始特征映射到其他低维空间,生成 一些新的特性,习,特征提取后的新特征是原来特 Cm(W.b-COW.b+BKL(p) (9) 征的一个变换映射,不是原特征一个子集。 式中B是控制稀疏惩罚项的权重。 3.2多标记学习维数约简的自编码网络方法 稀疏约束后训练目标也是总体成本误差最 基本自编码网络可以解决数量很小的隐藏单 小,即 元问题,而高维数据的隐藏单元数量很大,为此, arg min(Csparse(W,b)) (10) 对隐藏单元进行稀疏约束,使得自编码器可以从 W.b 大量的隐藏单元中发现高维数据中的相关结构, 为了求解上述总体成本误差最小问题,采用 反向传播算法计算成本偏导数,先求出成本函数 提取关键特征,实现维数约简。自编码网络,由 输人层、隐含层1,2,…,i,…n和输出层组成,如图2 Csparse(W,b)对aW,的偏导数,得到 所示。 awr Com(W.b)=1 16 m台aw网 C(W.b.xi.x)+aW (11) 以及对求偏导数,得到 丽Cmm,)=1a m名 C(W.b,xi.x) (12) 采用梯度下降迭代法,按公式(13)、(14)进行 输入层隐含层1隐含层 隐含层隐含层n输出层 迭代: 编码 解码 W号-w-0mCaw. (13) 图2自编码网络 Fig.2 Autoencoder network =-ca记CW, (14) 如果激活函数采用sigmoid函数,当神经元的 综合上述推导过程和结果,设计多标记学习的 输出值接近于1,则神经元是“活动的”,如果它的 自编码网络无监督降维算法MUAE如下。 输出值接近于0,则神经元是“无效的”。 算法MUAE 令a,表示自编码器中激活隐藏单元j,当网络 输入Xm特征矩阵,Yp标记矩阵,约简维 被赋予特定的输入x时,用a(x)表示x激活隐藏单 度d。 元j的输出值。如果输入x有m个样本,则隐藏单 输出多标记学习分类结果。 元j的平均激活为p,即 1)初始化权重矩阵W和偏离向量b'; (6) 2)for epoch=1:k; 3)计算样本总成本C(W,b);由式(9)计算; 用稀疏参数ρ对每个隐藏神经元的平均激活 4)迭代权重矩阵W和偏离向量b;/由式 进行稀疏约束,p的取值接近于零,比如取0.05。 (13)和式(14)计算; 为满足这个约束,引入伯努利随机变量KL(Kul- 5)end for back-Leibler)散度来度量平均值p,和p之间的 6)返回输出层特征矩阵Xxd; 距离,即 7)多标记算法ML-kNN(Xxd,YP)计算分类 Kpl5)=plog号+I-ploe1=币 .1-p (7) 结果/按文献[12]计算。 隐藏层中所有神经元的KL散度之和作为优 4实验结果与分析 化目标的处罚项,以惩罚显著偏离P,即 之KLP) 4.1实验数据与对比算法 (8) 多标记学习数据降维实验采用公开数据集叫 式中:n,是隐藏层中所有神经元的数量。如果 各数据集的训练和测试样本数、标记数量与数据 p;=p,那么KL(p)=0;否则p,会随着偏离p而单 特征数量等基本情况如表1所示,表中6个数据 调增加,所以只要使这个惩罚项最小化,就会导 集Arts、Business、Computers、Health、Recreation 致p接近于p。 Reference的名称前面分别用A、B、C、D、E、F对 稀疏约束后,样本的总体成本为 应标注,以方便后续表格使用
换,将某些原始特征映射到其他低维空间,生成 一些新的特性[3,5] ,特征提取后的新特征是原来特 征的一个变换映射,不是原特征一个子集。 3.2 多标记学习维数约简的自编码网络方法 1,2,···,i,···n 基本自编码网络可以解决数量很小的隐藏单 元问题,而高维数据的隐藏单元数量很大,为此, 对隐藏单元进行稀疏约束,使得自编码器可以从 大量的隐藏单元中发现高维数据中的相关结构, 提取关键特征,实现维数约简。自编码网络,由 输入层、隐含层 和输出层组成,如图 2 所示。 如果激活函数采用 sigmoid 函数,当神经元的 输出值接近于 1,则神经元是“活动的”,如果它的 输出值接近于 0,则神经元是“无效的”。 aj j x aj(x) x j x m j ρ¯j 令 表示自编码器中激活隐藏单元 ,当网络 被赋予特定的输入 时,用 表示 激活隐藏单 元 的输出值。如果输入 有 个样本,则隐藏单 元 的平均激活为 ,即 ρ¯j = 1 m ∑m i=1 aj(xi) (6) ρ ρ ρ¯j ρ 用稀疏参数 对每个隐藏神经元的平均激活 进行稀疏约束, 的取值接近于零,比如取 0.05。 为满足这个约束,引入伯努利随机变量 KL(Kullback-Leibler) 散度来度量平均值 和 之间的 距离,即 KL(ρ||ρ¯j) = ρlog ρ ρ¯j +(1−ρ)log 1−ρ 1−ρ¯j (7) ρ 隐藏层中所有神经元的 KL 散度之和作为优 化目标的处罚项,以惩罚显著偏离 ,即 ∑ns j=1 KL(ρ||ρ¯j) (8) ns ρ¯j = ρ KL(ρ||ρ¯j) = 0 ρ¯j ρ ρ¯j ρ 式中: 是隐藏层中所有神经元的数量。如果 ,那么 ;否则 会随着偏离 而单 调增加,所以只要使这个惩罚项最小化,就会导 致 接近于 。 稀疏约束后,样本的总体成本为 Csparse(W, b) = C(W, b)+β ∑ns j=1 KL(ρ||ρ¯j) (9) 式中 β 是控制稀疏惩罚项的权重。 稀疏约束后训练目标也是总体成本误差最 小,即 argmin W,b (Csparse(W, b)) (10) ∂Wl i j 为了求解上述总体成本误差最小问题,采用 反向传播算法计算成本偏导数,先求出成本函数 Csparse(W,b)对 的偏导数,得到 ∂ ∂Wl i j Csparse(W, b) = 1 m ∑m i=1 ∂ ∂Wl i j C(W, b, xi , x ′ i )+λWl i j (11) b l 以及对 i求偏导数,得到 ∂ ∂b l i Csparse(W, b) = 1 m ∑m i=1 ∂ ∂b l i C(W, b, xi , x ′ i ) (12) 采用梯度下降迭代法,按公式 (13)、(14) 进行 迭代: Wl i j = Wl i j −α ∂ ∂Wl i j Csparse(W, b) (13) b l i = b l i −α ∂ ∂b l i Csparse(W, b) (14) 综合上述推导过程和结果,设计多标记学习的 自编码网络无监督降维算法 MUAE 如下。 算法 MUAE X n×m Y n×p d 输入 特征矩阵, 标记矩阵,约简维 度 。 输出 多标记学习分类结果。 Wl b l 1) 初始化权重矩阵 和偏离向量 ; 2) for epoch =1:k; 3) 计算样本总成本 Csparse(W, b) ;//由式 (9) 计算; Wl b l 4) 迭代权重矩阵 和偏离向量 ; / /由 式 (13) 和式 (14) 计算; 5) end for X 6) 返回输出层特征矩阵 n×d; X n×d Y 7) 多标记算法 ML-kNN( n×p , ) 计算分类 结果//按文献[12]计算。 4 实验结果与分析 4.1 实验数据与对比算法 多标记学习数据降维实验采用公开数据集[21] , 各数据集的训练和测试样本数、标记数量与数据 特征数量等基本情况如表 1 所示,表中 6 个数据 集 Arts、Business、Computers、Health、Recreation、 Reference 的名称前面分别用 A、B、C、D、E、F 对 应标注,以方便后续表格使用。 输入层 隐含层1 隐含层i 隐含层j 隐含层n 输出层 编码 解码 图 2 自编码网络 Fig. 2 Autoencoder network 第 5 期 杨文元:多标记学习自编码网络无监督维数约简 ·811·
·812· 智能系统学报 第13卷 表1数据集基本描述 记预测的概率平均。 Table 1 Data description 2)汉明损失 数据集/ 训练样 测试样 标记 特征 11 Hammingloss(h)=- -h(x)△Y (16) 数据信息 本数 本数 个数 个数 P台q A:Arts 2000 3000 26 462 汉明损失,是通过计算多标记分类器预测的 B:Business 2000 3000 30 438 标记结果与实际的标记差距来度量多标记分类器 C:Computers 2000 3000 33 681 的性能。 3)排名损失 D:Health 2000 3000 32 612 11 E:Recreation 2000 3000 3 606 Rankingloss(f)= p子I2O2f)s (17) F:Reference 2000 3000 33 793 fx2),02)eY× 实验过程中,将MUAE算法与4种算法进行 排名损失,评价所有样本的预测标记排名中, 对比,对比算法分别是线性维数约简主成分分析 不相关标记在相关标记前面的概率平均。 PCA算法四、非线性维数约简局部保留投影LPP) 4)一错误 算法和拉普拉斯特征映射LE算法P,以及多标 Oneerror(f)= arg max f(x,y)年Y (18) 记依赖最大化MDDM算法 = 在维数约简后统一使用ML-kNN算法进行 ·错误,该指标评价每个样本的预测标记排 多标记分类,其中k=10,并以ML-kNN算法在原 名中,排在第一位的标记不在该样本的相关标记 始特征空间的评价性能作为参照基线,记为 集中的概率评价。 Baseline。.MDDM算法的μ=0.5,LLP算法分类时 5)覆盖 构造邻接图的最近邻个数与ML-KNN算法一样 (19) 设置k=10。所有维数约简方法降维到相同的维 Coverage()=1 maxrank,(xiy)-1 p 度进行对比,所有算法在6个数据集上的特征降 覆盖,该指标评价每个样本的预测标记排名 维百分比为10%、20%、30%、40%、50%、60%、 中需要在标记序列表中最少查找到第几位才可以 70%、80%、90%、100%,共10个百分比的实验对比。 找出所有与该样本相关的标记。 4.2多标记学习评价指标 4.3实验结果 在多标记学习问题中,由于每个对象可能同 5种算法和基准算法共6个算法,在6个多标 时具有多个类别标记,因此传统监督学习中常用 记数据集上用5个评价指标进行对比实验,实验 的单标记评价指标无法直接用于多标记学习系统 的结果展示在表2~6。 的性能评价。因此,研究者们相继提出了一系列 表2不同降维方法的平均精度 多标记评价指标,一般可分为两种类型,即基于 Table 2 Average precision of different algorithms 样本的评价指标(example-based metrics)2以及基 于类别的评价指标(label-based metrics)26。本文 () A B D E F 主要采用5种指标,即平均精度(average precision)、 Baseline0.50930.87980.63340.68120.45440.6193 汉明损失(Hamming loss)、排名损失(ranking PCA0.53340.87620.65920.72330.52590.6639 loss)、一错误(oneerror)和覆盖(coverage),具体的 LPP 0.51630.87460.63090.69260.48780.6356 计算公式如下。 LE 0.49630.86560.62120.68690.45600.6131 1)平均精度 MDDM0.55750.88690.67300.70040.51060.6546 MUAE0.53590.88930.67870.71530.52930.6626 (15) >l lrankr(ry)s rank(y).yey rank(xi,y) 表2是评价平均精度指标的实验结果,其数 平均精度,是一种最直观的评价方式,评价样 值是越高越好,最好的结果用黑体表示。实验结 本的类别标记排序序列中,排在相关标记之前的 果显示,MUAE方法在Business、Computers、Re- 标记占标记集合的平均比例,这个指标是相关标 creation三个数据集上都取得最好结果,PCA在Health
实验过程中,将 MUAE 算法与 4 种算法进行 对比,对比算法分别是线性维数约简主成分分析 PCA 算法[22] 、非线性维数约简局部保留投影 LPP[23] 算法和拉普拉斯特征映射 LE 算法[24] ,以及多标 记依赖最大化 MDDM 算法[5] 。 k = 10 µ = 0.5 k = 10 在维数约简后统一使用 ML-kNN 算法[12]进行 多标记分类,其中 ,并以 ML-kNN 算法在原 始特征空间的评价性能作为参照基线,记 为 Baseline。MDDM 算法的 ,LLP 算法分类时 构造邻接图的最近邻个数与 ML-KNN 算法一样 设置 。所有维数约简方法降维到相同的维 度进行对比,所有算法在 6 个数据集上的特征降 维百分比为 10%、20%、30%、40%、50%、60%、 70%、80%、90%、100%,共 10 个百分比的实验对比。 4.2 多标记学习评价指标 在多标记学习问题中,由于每个对象可能同 时具有多个类别标记,因此传统监督学习中常用 的单标记评价指标无法直接用于多标记学习系统 的性能评价。因此,研究者们相继提出了一系列 多标记评价指标,一般可分为两种类型,即基于 样本的评价指标 (example-based metrics)[25]以及基 于类别的评价指标 (label-based metrics)[26]。本文 主要采用 5 种指标,即平均精度 (average precision)、 汉明损失 (Hamming loss)、排名损失 (ranking loss)、一错误 (oneerror) 和覆盖 (coverage),具体的 计算公式如下。 1) 平均精度 Averageprecision(h) = 1 p ∑p i=1 1 |Yi | ∑ y∈Yi { y ′ |rankf (xi , y ′ ) ⩽ rankf (xi , y), y ′ ∈ Yi } rankf (xi , y) (15) 平均精度,是一种最直观的评价方式,评价样 本的类别标记排序序列中,排在相关标记之前的 标记占标记集合的平均比例,这个指标是相关标 记预测的概率平均。 2) 汉明损失 Hammingloss(h) = 1 p ∑p i=1 1 q |h(xi)∆Yi | (16) 汉明损失,是通过计算多标记分类器预测的 标记结果与实际的标记差距来度量多标记分类器 的性能。 3) 排名损失 Rankingloss(f) = 1 p ∑p i=1 1 |Yi | |Y¯ i | {(y1, y2)| f (xi , y1) ⩽ f (xi , y2),(y1 , y2) ∈ Yi ×Y¯ i } (17) 排名损失,评价所有样本的预测标记排名中, 不相关标记在相关标记前面的概率平均。 4) 一错误 Oneerror(f) = 1 p ∑p i=1 argmax y∈Y f (xi , y) < Yi (18) 一错误,该指标评价每个样本的预测标记排 名中,排在第一位的标记不在该样本的相关标记 集中的概率评价。 5) 覆盖 Coverage(f) = 1 p ∑p i=1 max y∈Yi rankf (xi , y)−1 (19) 覆盖,该指标评价每个样本的预测标记排名 中需要在标记序列表中最少查找到第几位才可以 找出所有与该样本相关的标记。 4.3 实验结果 5 种算法和基准算法共 6 个算法,在 6 个多标 记数据集上用 5 个评价指标进行对比实验,实验 的结果展示在表 2~6。 表 2 是评价平均精度指标的实验结果,其数 值是越高越好,最好的结果用黑体表示。实验结 果显示,MUAE 方法在 Business、Computers、Recreation 三个数据集上都取得最好结果,PCA 在 Health 表 1 数据集基本描述 Table 1 Data description 数据集/ 数据信息 训练样 本数 测试样 本数 标记 个数 特征 个数 A: Arts 2 000 3 000 26 462 B: Business 2 000 3 000 30 438 C: Computers 2 000 3 000 33 681 D: Health 2 000 3 000 32 612 E: Recreation 2 000 3 000 22 606 F: Reference 2 000 3 000 33 793 表 2 不同降维方法的平均精度 Table 2 Average precision of different algorithms (↑) A B C D E F Baseline 0.509 3 0.879 8 0.633 4 0.681 2 0.454 4 0.619 3 PCA 0.533 4 0.876 2 0.659 2 0.723 3 0.525 9 0.663 9 LPP 0.516 3 0.874 6 0.630 9 0.692 6 0.487 8 0.635 6 LE 0.496 3 0.865 6 0.621 2 0.686 9 0.456 0 0.613 1 MDDM 0.557 5 0.886 9 0.673 0 0.700 4 0.510 6 0.654 6 MUAE 0.535 9 0.889 3 0.678 7 0.715 3 0.529 3 0.662 6 ·812· 智 能 系 统 学 报 第 13 卷