第15卷第2期 智能系统学报 Vol.15 No.2 2020年3月 CAAI Transactions on Intelligent Systems Mar.2020 D0:10.11992/tis.201810014 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20190829.0906.002.html 面向众包数据的特征扩维标签质量提高方法 李易南,王士同 (江南大学数字媒体学院,江苏无锡214122) 摘要:众包是一个新兴的收集数据集标签的方法。虽然它经济实惠,但面临着数据标签质量无法保证的问 题。尤其是当客观原因存在使得众包工作者工作质量较差时,所得的标签会更加不可靠。因此提出一个名为 基于特征扩维提高众包质量的方法(FA-method),其基本思想是,首先由专家标注少部分标签,再利用众包者标 注的数据集训练模型,对专家集进行预测,所得结果作为专家数据集新的特征,并利用扩维后的专家集训练模 型进行预测,计算每个实例为噪声的可能性以及噪声数量上限来过滤出潜在含噪声标签的数据集,类似地,对 过滤后的高质量集再次使用扩维的方法进一步校正噪声。在8个UCI数据集上进行验证的结果表明,和现有 的结合噪声识别和校正的众包标签方法相比,所提方法能够在重复标签数量较少或标注质量较低时均取得很 好的效果。 关键词:众包:标签质量:扩维:专家标注:噪声识别:噪声校正:噪声可能性:噪声数量上限 中图分类号:TP181文献标志码:A文章编号:1673-4785(2020)02-0227-08 中文引用格式:李易南,王士同.面向众包数据的特征扩维标签质量提高方法.智能系统学报,2020,15(2):227-234. 英文引用格式:LI Yinan,WANG Shitong..A feature augmentation method for enhancing the labeling quality of crowdsourcing data[J].CAAI transactions on intelligent systems,2020,15(2):227-234. A feature augmentation method for enhancing the labeling quality of crowdsourcing data LI Yinan,WANG Shitong (School of Digital Media.Jiangnan University,Wuxi 214122,China) Abstract:Crowdsourcing is a new method of collecting the labels of data.Although it is economical,crowdsourcing faces an unavoidable problem,i.e.,the quality of the labels cannot be guaranteed.In particular,when the quality of la- beling work is low because of the existence of objective causes,the result of crowdsourcing will be unreliable.In this study,a feature augmentation method for enhancing the labeling quality of crowdsourcing data is proposed.In the pro- posed method,first,a small amount of expert data is labeled by several people with professional knowledge.Then,the crowdsourcing data are used to create the classifiers and predict the expert data.The resultant predicted labels are used to augment the expert data.Then,the augmented expert data are used to create the classifiers,predict the original data, and calculate the probability of noise for each instance and the upper limit of noise number to filter out the high-quality dataset from potentially noisy labels.Similarly,the filtered high-quality dataset is utilized to further correct the noisy la- bels using the proposed feature augmentation method.The experiments conducted on eight UCI datasets show that the proposed feature augmentation method has achieved encouraging results when the number of repeated labels is compar- atively small or the quality of labeling is comparatively low. Keywords:crowdsourcing;labeling quality;feature augmentation;expert labeling;noise identification;noise correc- tion;noise probability;upper limit of noise number 收稿日期:2018-10-15.网络出版日期:2019-08-29. 基金项目:国家自然科学基金项目(61272210). 众包,一般认为是由美国作家杰夫·豪(Jeff 通信作者:李易南.E-mail:1920898036@qq.com Howe)在2006年6月于《众包:大众力量缘何推
DOI: 10.11992/tis.201810014 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190829.0906.002.html 面向众包数据的特征扩维标签质量提高方法 李易南,王士同 (江南大学 数字媒体学院,江苏 无锡 214122) 摘 要:众包是一个新兴的收集数据集标签的方法。虽然它经济实惠,但面临着数据标签质量无法保证的问 题。尤其是当客观原因存在使得众包工作者工作质量较差时,所得的标签会更加不可靠。因此提出一个名为 基于特征扩维提高众包质量的方法 (FA-method),其基本思想是,首先由专家标注少部分标签,再利用众包者标 注的数据集训练模型,对专家集进行预测,所得结果作为专家数据集新的特征,并利用扩维后的专家集训练模 型进行预测,计算每个实例为噪声的可能性以及噪声数量上限来过滤出潜在含噪声标签的数据集,类似地,对 过滤后的高质量集再次使用扩维的方法进一步校正噪声。在 8 个 UCI 数据集上进行验证的结果表明,和现有 的结合噪声识别和校正的众包标签方法相比,所提方法能够在重复标签数量较少或标注质量较低时均取得很 好的效果。 关键词:众包;标签质量;扩维;专家标注;噪声识别;噪声校正;噪声可能性;噪声数量上限 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2020)02−0227−08 中文引用格式:李易南, 王士同. 面向众包数据的特征扩维标签质量提高方法 [J]. 智能系统学报, 2020, 15(2): 227–234. 英文引用格式:LI Yinan, WANG Shitong. A feature augmentation method for enhancing the labeling quality of crowdsourcing data[J]. CAAI transactions on intelligent systems, 2020, 15(2): 227–234. A feature augmentation method for enhancing the labeling quality of crowdsourcing data LI Yinan,WANG Shitong (School of Digital Media, Jiangnan University, Wuxi 214122, China) Abstract: Crowdsourcing is a new method of collecting the labels of data. Although it is economical, crowdsourcing faces an unavoidable problem, i.e., the quality of the labels cannot be guaranteed. In particular, when the quality of labeling work is low because of the existence of objective causes, the result of crowdsourcing will be unreliable. In this study, a feature augmentation method for enhancing the labeling quality of crowdsourcing data is proposed. In the proposed method, first, a small amount of expert data is labeled by several people with professional knowledge. Then, the crowdsourcing data are used to create the classifiers and predict the expert data. The resultant predicted labels are used to augment the expert data. Then, the augmented expert data are used to create the classifiers, predict the original data, and calculate the probability of noise for each instance and the upper limit of noise number to filter out the high-quality dataset from potentially noisy labels. Similarly, the filtered high-quality dataset is utilized to further correct the noisy labels using the proposed feature augmentation method. The experiments conducted on eight UCI datasets show that the proposed feature augmentation method has achieved encouraging results when the number of repeated labels is comparatively small or the quality of labeling is comparatively low. Keywords: crowdsourcing; labeling quality; feature augmentation; expert labeling; noise identification; noise correction; noise probability; upper limit of noise number 众包,一般认为是由美国作家杰夫·豪 (Jeff Howe) 在 2006 年 6 月于《众包:大众力量缘何推 收稿日期:2018−10−15. 网络出版日期:2019−08−29. 基金项目:国家自然科学基金项目 (61272210). 通信作者:李易南. E-mail:1920898036@qq.com. 第 15 卷第 2 期 智 能 系 统 学 报 Vol.15 No.2 2020 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2020
·228· 智能系统学报 第15卷 动商业未来》(Crowdsourcing:Why the Power of 与真值相比的准确率为度量;其二是获取更多数 the Crowd is Driving the Future of Business)一书中 据以训练模型,专注于所得模型的质量,以模型 首次提出并做了详细的阐释。书中关于众包的定 的泛化能力为度量。 义为:“一个公司或机构把过去由员工执行的工作 对于前者,常见思路是通过众包标签集推断 任务,以自由自愿的形式外包给非特定的(而且 真实标签,如上文所述,目前最常用且简单有效 通常是大型的)大众网络的做法。众包的任务通 的方法为多数投票(MV),即针对每个实例的多重 常是由个人来承担,但如果涉及到需要多人协作 标签集合,取多数为最终标签。该方法的前提 完成的任务,也有可能以依靠开源的个体生产的 是工作人员的准确率需高于50%,在此基础上, 形式出现”。 随着工作人员数量的增加,其正确率会不断提 众包是不准确监督的一种典型场景山,包括 高。其他方法还有GLAD方法阿、贝叶斯方法RY 机器学习、数据挖掘等在内的技术,通常需要大 ZenCrowd算法等,一些对不同数据集进行实验 量带有标记的数据对算法以及模型进行训练、预 测以及验证。数据数量越大,准确率越高,算法 证明,这些真值推理方法效果差异并不明显叨。 及模型的效果就越好。结合众包系统获取标签成 因此,仅仅通过设计新颖的推理算法来提高标签 本低、单个质量不可靠的特点,通常采取对同一 质量比较困难。 实例由多个不同标记者进行标记,并用真值推理 对于后者,一种思路是在上面真值推理方法 算法将所得的多重标签进行整合。基础的真值推 所得的集成标签基础上进一步识别出疑似噪声样 理算法有多数投票(MV),此方法要求保证工人的 本并在数据集中将其去掉。一项实验证明,简单 平均正确率大于50%,则工人数量越多,标签质 去除噪声可以提高所训练模型的质量,因此一 量越高。其他还有一些以投票法为基础的改进形 些噪声识别方法可以应用于此。例如,基于阈值 式回,但实验表明,仅仅通过真值推理的方式效果 的方法12),用一些特殊的标准(例如熵)来对每 差别并不明显)。在上述真值推理算法的基础 个实例进行打分。如果分数超过阈值,则该实例 上,结合噪声识别和校正是一种行之有效的方案, 将被视为噪声;基于模型预测的过滤算法,通过 但需要较高的标记质量(如增加众包人数或者寻 模型对实例进行分类并识别噪声,有如表决过滤 求更好的标记者),否则结果偏差较大。 (VF)),对数据集进行多次交叉验证,若超过一半 从成本和质量两个角度考虑,我们可以由专 不相同则认为该实例为噪声样本。 家首先标记少部分实例,并适当减少众包工人人 目前常用的方法,或者标签质量不够理想,或 数和水平来达到成本和质量的最优解。针对这一 者需要去除部分实例以保证质量。为达到既能保 场景,本文提出了一个适应性较强的基于特征扩 证质量,又能完整保留数据集全部实例的目的, 维提高众包质量的框架(FA-method),结合少量的 Zhang等首先提出了将噪声识别和校正相结合的 专家标签,运用特征扩维的方法对真值推理算法 方法AVNC。在集成标签的基础上,首先由多 所得的集成标签集进行处理,通过计算每个实例 次交叉验证识别噪声,计算噪声可能程度和噪声 为噪声的可能程度以及集成标签的噪声数量的上 数量范围以识别噪声,然后采用集成学习的方式 限区分噪声,并进一步提高标签质量和可靠性。 进行校正。此方法在标记质量较高时有不错的效 实验证明,本方法在不同标记质量下均可以取得 果,当标记质量较低时,仅仅通过交叉验证识别 较好的效果,在众包标记质量较低或众包工人较 会产生较大的偏差,从而导致后续校正无法继续。 少的情况下,依然可以得到较高质量的标签。并 为解决上述问题,本文在AVNC所采用的噪 且以校正后的数据集训练所得模型的泛化能力有 声识别和校正相结合的基础框架上做了改进,引 进一步的提高。和现有的结合噪声识别和校正的 入了少量专家标记,并采用特征扩维的方法进行 框架相比也具有优势。 噪声识别和校正,保证了当标记质量较低时所得 结果质量的稳定。 1相关工作 2基于特征扩维的众包质量提高方法 通常,在人工智能领域,采用众包的方法获取 标签有两个目的:其一是为了获得大量的带有标 2.1基本框架 签的数据,专注于标签本身的质量,以所得标签 图1所示为本方法的基本框架。首先,由每
动商业未来》(Crowdsourcing:Why the Power of the Crowd is Driving the Future of Business) 一书中 首次提出并做了详细的阐释。书中关于众包的定 义为:“一个公司或机构把过去由员工执行的工作 任务,以自由自愿的形式外包给非特定的 (而且 通常是大型的) 大众网络的做法。众包的任务通 常是由个人来承担,但如果涉及到需要多人协作 完成的任务,也有可能以依靠开源的个体生产的 形式出现”。 众包是不准确监督的一种典型场景[1] ,包括 机器学习、数据挖掘等在内的技术,通常需要大 量带有标记的数据对算法以及模型进行训练、预 测以及验证。数据数量越大,准确率越高,算法 及模型的效果就越好。结合众包系统获取标签成 本低、单个质量不可靠的特点,通常采取对同一 实例由多个不同标记者进行标记,并用真值推理 算法将所得的多重标签进行整合。基础的真值推 理算法有多数投票 (MV),此方法要求保证工人的 平均正确率大于 50%,则工人数量越多,标签质 量越高。其他还有一些以投票法为基础的改进形 式 [2] ,但实验表明,仅仅通过真值推理的方式效果 差别并不明显[3]。在上述真值推理算法的基础 上,结合噪声识别和校正是一种行之有效的方案[4] , 但需要较高的标记质量 (如增加众包人数或者寻 求更好的标记者),否则结果偏差较大。 从成本和质量两个角度考虑,我们可以由专 家首先标记少部分实例,并适当减少众包工人人 数和水平来达到成本和质量的最优解。针对这一 场景,本文提出了一个适应性较强的基于特征扩 维提高众包质量的框架 (FA-method),结合少量的 专家标签,运用特征扩维的方法对真值推理算法 所得的集成标签集进行处理,通过计算每个实例 为噪声的可能程度以及集成标签的噪声数量的上 限区分噪声,并进一步提高标签质量和可靠性。 实验证明,本方法在不同标记质量下均可以取得 较好的效果,在众包标记质量较低或众包工人较 少的情况下,依然可以得到较高质量的标签。并 且以校正后的数据集训练所得模型的泛化能力有 进一步的提高。和现有的结合噪声识别和校正的 框架相比也具有优势。 1 相关工作 通常,在人工智能领域,采用众包的方法获取 标签有两个目的:其一是为了获得大量的带有标 签的数据,专注于标签本身的质量,以所得标签 与真值相比的准确率为度量;其二是获取更多数 据以训练模型,专注于所得模型的质量,以模型 的泛化能力为度量。 对于前者,常见思路是通过众包标签集推断 真实标签,如上文所述,目前最常用且简单有效 的方法为多数投票 (MV),即针对每个实例的多重 标签集合,取多数为最终标签[5]。该方法的前提 是工作人员的准确率需高于 50%,在此基础上, 随着工作人员数量的增加,其正确率会不断提 高。其他方法还有 GLAD 方法[6] 、贝叶斯方法 RY[7] 、 ZenCrowd 算法[8] 等,一些对不同数据集进行实验 证明,这些真值推理方法效果差异并不明显[3, 9]。 因此,仅仅通过设计新颖的推理算法来提高标签 质量比较困难。 对于后者,一种思路是在上面真值推理方法 所得的集成标签基础上进一步识别出疑似噪声样 本并在数据集中将其去掉。一项实验证明,简单 去除噪声可以提高所训练模型的质量[10] ,因此一 些噪声识别方法可以应用于此。例如,基于阈值 的方法[11-12] ,用一些特殊的标准 (例如熵) 来对每 个实例进行打分。如果分数超过阈值,则该实例 将被视为噪声;基于模型预测的过滤算法,通过 模型对实例进行分类并识别噪声,有如表决过滤 (VF)[13] ,对数据集进行多次交叉验证,若超过一半 不相同则认为该实例为噪声样本。 目前常用的方法,或者标签质量不够理想,或 者需要去除部分实例以保证质量。为达到既能保 证质量,又能完整保留数据集全部实例的目的, Zhang 等首先提出了将噪声识别和校正相结合的 方法 AVNC[4]。在集成标签的基础上,首先由多 次交叉验证识别噪声,计算噪声可能程度和噪声 数量范围以识别噪声,然后采用集成学习的方式 进行校正。此方法在标记质量较高时有不错的效 果,当标记质量较低时,仅仅通过交叉验证识别 会产生较大的偏差,从而导致后续校正无法继续。 为解决上述问题,本文在 AVNC 所采用的噪 声识别和校正相结合的基础框架上做了改进,引 入了少量专家标记,并采用特征扩维的方法进行 噪声识别和校正,保证了当标记质量较低时所得 结果质量的稳定。 2 基于特征扩维的众包质量提高方法 2.1 基本框架 图 1 所示为本方法的基本框架。首先,由每 ·228· 智 能 系 统 学 报 第 15 卷
第2期 李易南,等:面向众包数据的特征扩维标签质量提高方法 ·229· 个众包工人标记的结果训练一个模型,并对专家 2.3噪声识别部分 集进行预测,所得结果作为专家集新的特征。之 定义一个众包系统,以下均针对二分类情 后用扩维后的专家集训练模型并对原始数据进行 况。设众包数据共有I个实例,每个实例均经过 预测,与集成标签相比较,计算每个实例的集成 众包工人标记了J个标签。对于每个实例i,其特 标签是噪声的可能程度以及噪声数量。将集成标 征记为X,J个标签集合记为{,,…,,其中 签划分为质量可靠的保留集和需要校正的含噪声 1∈{-1,1(分别代表负例和正例),未知的真实标签 集,同时形成用于辅助校正的M个辅助集。之后 记为y,经过标签集成算法处理后的集成标签记 用铺助集对保留集扩维,对含噪声集合进行校 为。这里需要明确的是,每个工人的正确率需 正,最终将校正后的数据和保留集合并为最终结 要大于50%,否则众包系统无法成立。在实际 果。整个框架的关键在于噪声识别和噪声校正两 中,众包工作者通常会经过初步的筛选,以防止 个部分,将在后文分别介绍。 恶意标注者(标注正确率低于50%)的出现。 对于每个标记者,可以简单按式(1)估计出其 助集 H…H 错误率: 特征扩维 (1) 特征扩维 留集 别 对于每个实例,由基础分类算法(如决策 众包标 人多数」 树)进行M轮预测后会得到M个分类标签{,,…, 签集 投票 ),将其作为实例新的特征,并和初始标签产进 行对比,计算不相同次数C。 图1基于特征扩维的众包质量提高方法的基本框架 Fig.1 The framework of the feature-augmentation meth- ci= (2) od of enhancing the labeling quality of crowdsourcing data 式(1)和式(2)中函数1()是一个指示器函数, 2.2特征扩维方法 如果括号内条件满足则返回1,不满足则返回0。 本文所用的特征扩维方法类似于文献[14], 第m轮扩维将实例i预测为正例的概率为 是一种两层学习器结合的方法,以噪声识别部分 c,预测为负例的概率为c-”。则实例i的标签不 为例:首先由众包数据训练出一组初级学习器, 确定程度可由式(3)来度量,即: 然后输出所得的类概率作为专家数据集的新的特 e=- cilogc+cm logcm (3) 征,专家数据集的标签仍作为新数据集的标签。 这些增加的特征实质上可以打开原始输入空间的 下面定义一个量a,来表示实例i的集成标 流形结构,从而可以增强的专家数据集的分类性 签,是噪声的可能程度: 能。与由专家集直接训练模型相比,其在泛化性 ai=ci+lei/ (4) 能上能够有进一步的提高。 设J个众包人员标记的众包标签集为C= a,是一种双层排序,以不相同次数c,作为整 {X,),(X22),…,(X,yh,专家集P(X,yp),基础算 数部分,以不确定度做小数部分。不相同次数 法C,原始数据集D(X)。该方法的伪代码如下: c,将标签集分为M什1组,C,越大,意味着有更多的 forj=1,2,…,Jdo: 模型将这个标签标记为噪声。在每组内又按照不 hj=L(Xj.y ) 确定程度进行排序,不确定程度越大,意味着越 yri=hj(Xp) 有可能是噪声。按4大小对所有实例进行排序,显 yDj=hj(Xp) 然α越大,就意味着集成标签越有可能是噪声。 end for 接下来计算噪声可能的数量,以期将集成标 H=(Xp,yPI,…,yp),yp) 签进行划分。由于我们采用的是投票法对众包标 输出:z=H(Xoyp1,…yD) 签集进行初步整合,为保证识别出的高质量集的
个众包工人标记的结果训练一个模型,并对专家 集进行预测,所得结果作为专家集新的特征。之 后用扩维后的专家集训练模型并对原始数据进行 预测,与集成标签相比较,计算每个实例的集成 标签是噪声的可能程度以及噪声数量。将集成标 签划分为质量可靠的保留集和需要校正的含噪声 集,同时形成用于辅助校正的 M 个辅助集。之后 用辅助集对保留集扩维,对含噪声集合进行校 正,最终将校正后的数据和保留集合并为最终结 果。整个框架的关键在于噪声识别和噪声校正两 个部分,将在后文分别介绍。 保留集 校正集 专家标 签集 众包标 签集 特征扩维 多数 投票 含噪声 集 辅助集 H1…HM 特征扩维 噪声识别 噪声校正 图 1 基于特征扩维的众包质量提高方法的基本框架 Fig. 1 The framework of the feature-augmentation method of enhancing the labeling quality of crowdsourcing data 2.2 特征扩维方法 本文所用的特征扩维方法类似于文献 [14], 是一种两层学习器结合的方法,以噪声识别部分 为例:首先由众包数据训练出一组初级学习器, 然后输出所得的类概率作为专家数据集的新的特 征,专家数据集的标签仍作为新数据集的标签。 这些增加的特征实质上可以打开原始输入空间的 流形结构,从而可以增强的专家数据集的分类性 能。与由专家集直接训练模型相比,其在泛化性 能上能够有进一步的提高。 {(X1, y1), (X2, y2),··· ,(XJ , yJ )} P(XP, yP) L D(XD) 设 J 个众包人员标记的众包标签集为 C = ,专家集 ,基础算 法 ,原始数据集 。该方法的伪代码如下: for j = 1,2,··· , J do: hj = L ( Xj , yj ) ; yP j = hj(XP) yD j = hj(XD) end for h ′ = L((XP, yP1,··· , yPJ ), yP) z = h ′ 输出: (XD, yD1,··· , yDJ ) 2.3 噪声识别部分 { l 1 i , l 2 i ,··· ,l J i } l 1 i ∈ {−1,1} yˆi 定义一个众包系统,以下均针对二分类情 况。设众包数据共有 I 个实例,每个实例均经过 众包工人标记了 J 个标签。对于每个实例 i,其特 征记为 Xi,J 个标签集合记为 ,其中 (分别代表负例和正例),未知的真实标签 记为 yi,经过标签集成算法处理后的集成标签记 为 。这里需要明确的是,每个工人的正确率需 要大于 50%,否则众包系统无法成立。在实际 中,众包工作者通常会经过初步的筛选,以防止 恶意标注者 (标注正确率低于 50%) 的出现。 对于每个标记者,可以简单按式 (1) 估计出其 错误率: qj = ∑I i=1 I ( l j i , yˆi ) /I (1) {l 1 i , l 2 i ,··· , l M i } yˆi 对于每个实例 i,由基础分类算法 (如决策 树) 进行 M 轮预测后会得到 M 个分类标签 ,将其作为实例新的特征,并和初始标签 进 行对比,计算不相同次数 ci。 ci = ∑M m=1 I ( l m i , yˆi ) (2) 式 (1) 和式 (2) 中函数 I(·) 是一个指示器函数, 如果括号内条件满足则返回 1,不满足则返回 0。 第 m 轮扩维将实例 i 预测为正例的概率为 c1 m ,预测为负例的概率为 c−1 m。则实例 i 的标签不 确定程度可由式 (3) 来度量,即: ei = − ∑M m=1 [ c (m) −1 logc (m) −1 +c (m) 1 logc (m) 1 ] (3) yˆi 下面定义一个量 αi 来表示实例 i 的集成标 签, 是噪声的可能程度: αi = ci + ei/ ∑I i=1 ei (4) yˆi αi 是一种双层排序,以不相同次数 ci 作为整 数部分,以不确定度做小数部分。不相同次数 ci 将标签集分为 M+1 组,ci 越大,意味着有更多的 模型将这个标签标记为噪声。在每组内又按照不 确定程度进行排序,不确定程度越大,意味着越 有可能是噪声。按 αi 大小对所有实例进行排序,显 然 αi 越大,就意味着集成标签 越有可能是噪声。 接下来计算噪声可能的数量,以期将集成标 签进行划分。由于我们采用的是投票法对众包标 签集进行初步整合,为保证识别出的高质量集的 第 2 期 李易南,等:面向众包数据的特征扩维标签质量提高方法 ·229·
·230· 智能系统学报 第15卷 质量可靠,本着“宁缺毋滥”的原则,因此我们需 众包集C,专家集 要计算出噪声比例的上限。 P,参数=5 由式(1)可计算贴标者错误率为g,通过投票 法整合J个标记者,超过半数正确则集成结果正 众包标签集多数投票形成 标签集Lc 确。在这里,各个标记者错误率可视为相互独立, 可由Hoeffding不等式推导出集成错误率的上限: 由式(1)、(6)计算噪声数 0= ()1-g≤ 量上限noise num (5) ep-21-2g =Omax N M≤MR noise_num=Qmax·I= exp-1-2q)).1 (6) 分别取第1、2、…、J个标记者所标记的数据训练 按a大小对所有实例进行降序排序,我们可 模型,对专家集和原始数据集扩维,用扩维后的专 家集训练模型并对扩维后的原始数据集进行预测 以将集成标签集分为两部分:前noise_num个标 签为待进一步处理的含噪声集,其余为可靠的保 留集。 与集成标签比较,由式(2)计算c,并形成辅助集H 2.4噪声校正部分 目前,关于噪声校正的研究数量较少,且一些 实验也证明校正噪声是比较困难的。一种直接的 由式(4)计算a,将所有实例按a,降序排列,前 noise num为含噪声集,其余为保留集 思路是,在分离出含噪声的集合后,用高质量集 直接训练模型对噪声集进行校正,但效果不理想。 为了提高分离出的高质量集所训练的模型的 分别取第1、2、·、M个辅助集训练模型,对保留集 和含噪声集扩维,用扩维后的保留集训练模型并对扩维 泛化能力,我们再次使用扩维的方法:噪声识别 后的含噪声集进行预测,重复轮 过程中,每轮扩维预测后,每个实例i均获得一个 标签l,若l=,则将实例i加入辅助集Hm中,共 对个校正结果进行投票,作为校正结果,与保留集 获得M个辅助集{H1,H2,…,Hw。和识别部分类似,用 合并,返回最终结果 之前得到的辅助集{H,H2,…,Hw}分别训练得到 图2算法流程图 模型2,促,…,h必),对噪声集和保留集扩维并进 Fig.2 Flowchart of the proposed method 行预测,重复M轮,用投票法整合所得的M个标 签集合,作为对噪声集的校正结果。把校正后的 3实验结果分析 结果和保留集合并为最终结果。 由上文所述,众包通常关注于两个结果:1)标 2.5完整框架 签本身质量:2)训练所得模型的质量。因此在这 该算法主要时间消耗在于对专家集扩维、对 里分别进行实验。基础的学习模型均采用决策 保留集扩维两个部分,且与所选择的基础算法£ 树,由python的sklearn库实现,参数均取默认值, 有关。设基础学习算法对实例数为n的众包集训 取M=5 练及预测的时间复杂度为T(),则本方法的时间 3.1实验数据 复杂度为M[J.T(n)+T(nr]+M[M.T(')+T(m"], 实验数据来自UCI机器学习库的8个数据 其中,M为预设重复轮数,J为众包者数量,r为专 集,它们具有不同的数量的实例,不同的类分布, 家集比例,n'为辅助集实例数,n"为噪声集实例 不同数量的特征及其类型,以便验证本方法在不 数,以上均为常数,且Mn,J≤n,0<r<1,n'<n, 同情况下的适用性。其中4个为较小规模数据 n"<n。由此可见本方法的时间复杂度取决于所选 集,4个为较大规模数据集。在模拟实验中不对 择的基础算法时间复杂度。完整流程图如图2 数据集本身做任何特征处理。数据集具体情况如 所示。 表1
质量可靠,本着“宁缺毋滥”的原则,因此我们需 要计算出噪声比例的上限。 由式 (1) 可计算贴标者错误率为 q,通过投票 法整合 J 个标记者,超过半数正确则集成结果正 确。在这里,各个标记者错误率可视为相互独立, 可由 Hoeffding 不等式推导出集成错误率的上限[15] : Q = ∑ ⌊J/2⌋ k=0 ( J k ) q J−k (1−q) k ⩽ exp( − 1 2 J(1−2q) 2 ) = Qmax (5) noise_num = Qmax ·I = exp( − 1 2 J(1−2q) 2 ) ·I (6) 按 αi 大小对所有实例进行降序排序,我们可 以将集成标签集分为两部分:前 noise_num 个标 签为待进一步处理的含噪声集,其余为可靠的保 留集。 2.4 噪声校正部分 目前,关于噪声校正的研究数量较少,且一些 实验也证明校正噪声是比较困难的。一种直接的 思路是,在分离出含噪声的集合后,用高质量集 直接训练模型对噪声集进行校正,但效果不理想。 li = yˆi {H1,H2,··· ,HM} {H1,H2,··· ,HM} { h 1 C ,h 2 C ,··· ,h M C } 为了提高分离出的高质量集所训练的模型的 泛化能力,我们再次使用扩维的方法:噪声识别 过程中,每轮扩维预测后,每个实例 i 均获得一个 标签 li,若 ,则将实例 i 加入辅助集 Hm 中,共 获得M个辅助集 。和识别部分类似,用 之前得到的辅助集 分别训练得到 模型 ,对噪声集和保留集扩维并进 行预测,重复 M 轮,用投票法整合所得的 M 个标 签集合,作为对噪声集的校正结果。把校正后的 结果和保留集合并为最终结果。 2.5 完整框架 L M [J ·T (n)+T (nr)]+ M [M ·T (n ′ )+T (n ′′)] M ≪ n J ≪ n 该算法主要时间消耗在于对专家集扩维、对 保留集扩维两个部分,且与所选择的基础算法 有关。设基础学习算法对实例数为 n 的众包集训 练及预测的时间复杂度为 T(n),则本方法的时间 复杂度为 , 其中,M 为预设重复轮数,J 为众包者数量,r 为专 家集比例,n'为辅助集实例数,n''为噪声集实例 数,以上均为常数,且 , ,0<r<1,n'<n, n''<n。由此可见本方法的时间复杂度取决于所选 择的基础算法时间复杂度。完整流程图如图 2 所示。 众包集C,专家集 P,参数m=5 众包标签集多数投票形成 标签集LC 由式(1)、(6)计算噪声数 量上限noise_num M≤M? 分别取第1、2、…、J个标记者所标记的数据训练 模型,对专家集和原始数据集扩维,用扩维后的专 家集训练模型并对扩维后的原始数据集进行预测 与集成标签比较,由式(2)计算ci,并形成辅助集Hm 由式(4)计算ai,将所有实例按ai降序排列,前 noise_num为含噪声集,其余为保留集 分别取第1、2、…、M个辅助集训练模型,对保留集 和含噪声集扩维,用扩维后的保留集训练模型并对扩维 后的含噪声集进行预测,重复M轮 对M个校正结果进行投票,作为校正结果,与保留集 合并,返回最终结果 Y N 图 2 算法流程图 Fig. 2 Flowchart of the proposed method 3 实验结果分析 由上文所述,众包通常关注于两个结果:1) 标 签本身质量;2) 训练所得模型的质量。因此在这 里分别进行实验。 基础的学习模型均采用决策 树,由 python 的 sklearn 库实现,参数均取默认值, 取 M=5。 3.1 实验数据 实验数据来自 UCI 机器学习库的 8 个数据 集,它们具有不同的数量的实例,不同的类分布, 不同数量的特征及其类型,以便验证本方法在不 同情况下的适用性。其中 4 个为较小规模数据 集,4 个为较大规模数据集。在模拟实验中不对 数据集本身做任何特征处理。数据集具体情况如 表 1。 ·230· 智 能 系 统 学 报 第 15 卷
第2期 李易南,等:面向众包数据的特征扩维标签质量提高方法 ·231· 表18个UCI数据集的基本情况 Table 1 Basic conditions of 8 UCI datasets 名称 数量 正例 负例 特征数量 特征类型 mushroom 8124 3916 4280 23 类别 kr-vs-kp 3196 1527 1669 37 类别 spambase 4601 1813 2788 58 数值 sick 3772 231 3541 30 混合 biodeg 1055 356 699 42 数值 tic-tac-toe 958 332 626 10 类别 vote 435 168 267 17 类别 ionosphere 351 126 225 35 数值 首先,在较大规模数据集取=0.05的数据,较 图3和图4分别是平均标记准确率为0.7和 小规模数据集取=0.1的数据作为专家标签集, 0.6时4种方法的准确率。 以他们的真实标签作为专家标记的标签。接下来 1.0 1.0 模拟众包的过程:创建一个模拟标记者,为数据 0.9 0.9 集中的每个实例标记一次。然后,第二个模拟标 解0.8 能0.8 记者执行相同的任务,直到第J个模拟标记者完 毫o7+8 4MV 0.6+MV+AVNC 0.6+MV+AVNC 成同样的任务。最终,使每个实例都包含J个标 MV+FAEQ MV+FAEQ 0.5 3 5 7 9 0.5 3 5 7 签。模拟标记者的标记质量均匀分布,且所有的 众包标签数量 众包标签数量 模拟标记者都有不同的标记质量。所有实例以及 (a)mushroom (b)kr-vs-kp 它们对应的多个噪声标签集形成一个模拟众包标 1.0h 1.0f 签数据集。默认J取10,平均质量较高的情况下, 0.9 0.9 取模拟标记者质量范围为[0.6,0.8],平均为0.7;平 每0.8 00.8 均质量较低的情况下,取模拟标记者质量范围为 是07 是07 0.6 MV+AVNC [0.5,0.7],平均为0.6,每个实例的集成标签由多数 MV+FAEQ .6 AC MV+FAEQ 0.5 0.5 1 7 3 5 投票产生。 3 5 9 9 众包标签数量 众包标签数量 3.2准确率对比 (c)sprmpase (d)sick 众包的一个目的在于获得大量数据的标签, 1.0h 1.0h 因此需要考察众包处理后的标签和真实标签的准 0.9 0.9 确率。由于AVNC是首次被提出将噪声识别和 校正组合来提升众包质量的方法,且实验证明其 +MV +MV 0.6 -+-MV+AVNC 0.6+MV+AVNC 可以进一步提高标签集成算法的质量。因此本次 MV+FAEQ MV+FAEO 0.5 w2 0.5 9 3 5 实验选择多数投票为基础标签集成算法,在其基 众包标签数量 众包标签数量 础上比较AVNC和FA-method对于众包质量的提 (e)biodeg (f)tic-tac-toe 高程度。实验方法如下: 1.0 1.0h 1)直接由多数投票形成的集成标签(MV): 0.9 0.9 2)多轮交叉验证,计算噪声数和不相同次数 划分噪声集,采用集成学习方法进行校正(AVNC): 0.7 MV 07 +MV 0.6 MV+AVNC 0.6 MV+AVNC 3)由特征扩维识别并校正噪声(FA-method)。 MV+FAEQ MV+FAEQ 0.5 3 0.5 5 7 9 3 579 每种方法重复实验10次,每次随机取奇数个 众包标签数量 众包标签数量 模拟标记人员所标记的标签(避免多数投票出现 (g)vote (h)ionosphere 随机值),对比三者所得到的标签和真实值相比的 图3高质量标记时众包准确率 准确率以及标准差。 Fig.3 Accuracy of crowdsourcing on high quality labeling
表 1 8 个 UCI 数据集的基本情况 Table 1 Basic conditions of 8 UCI datasets 名称 数量 正例 负例 特征数量 特征类型 mushroom 8 124 3 916 4 280 23 类别 kr-vs-kp 3 196 1 527 1 669 37 类别 spambase 4 601 1 813 2 788 58 数值 sick 3 772 231 3 541 30 混合 biodeg 1 055 356 699 42 数值 tic-tac-toe 958 332 626 10 类别 vote 435 168 267 17 类别 ionosphere 351 126 225 35 数值 首先,在较大规模数据集取 r=0.05 的数据,较 小规模数据集取 r=0.1 的数据作为专家标签集, 以他们的真实标签作为专家标记的标签。接下来 模拟众包的过程:创建一个模拟标记者,为数据 集中的每个实例标记一次。然后,第二个模拟标 记者执行相同的任务,直到第 J 个模拟标记者完 成同样的任务。最终,使每个实例都包含 J 个标 签。模拟标记者的标记质量均匀分布,且所有的 模拟标记者都有不同的标记质量。所有实例以及 它们对应的多个噪声标签集形成一个模拟众包标 签数据集。默认 J 取 10,平均质量较高的情况下, 取模拟标记者质量范围为 [0.6,0.8],平均为 0.7;平 均质量较低的情况下,取模拟标记者质量范围为 [0.5,0.7],平均为 0.6,每个实例的集成标签由多数 投票产生。 3.2 准确率对比 众包的一个目的在于获得大量数据的标签, 因此需要考察众包处理后的标签和真实标签的准 确率。 由于 AVNC 是首次被提出将噪声识别和 校正组合来提升众包质量的方法,且实验证明其 可以进一步提高标签集成算法的质量。因此本次 实验选择多数投票为基础标签集成算法,在其基 础上比较 AVNC 和 FA-method 对于众包质量的提 高程度。实验方法如下: 1) 直接由多数投票形成的集成标签 (MV); 2) 多轮交叉验证,计算噪声数和不相同次数 划分噪声集,采用集成学习方法进行校正 (AVNC); 3) 由特征扩维识别并校正噪声 (FA-method)。 每种方法重复实验 10 次,每次随机取奇数个 模拟标记人员所标记的标签 (避免多数投票出现 随机值),对比三者所得到的标签和真实值相比的 准确率以及标准差。 图 3 和图 4 分别是平均标记准确率为 0.7 和 0.6 时 4 种方法的准确率。 3 MV MV+AVNC MV+FAEQ 1 5 (a) mushroom 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (b) kr-vs-kp 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (c) sprmpase 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (d) sick 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (e) biodeg 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (f) tic-tac-toe 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (g) vote 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (h) ionosphere 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 图 3 高质量标记时众包准确率 Fig. 3 Accuracy of crowdsourcing on high quality labeling 第 2 期 李易南,等:面向众包数据的特征扩维标签质量提高方法 ·231·