当前位置：和泉文库 > 电气与自动化 > 浏览文档

【知识工程】面向众包数据的特征扩维标签质量提高方法

文件格式：PDF，文件大小：1.93MB，售价：3.12元

文档详细内容（约8页）

第15卷第2期智能系统学报 Vol.15 No.2 2020年3月 CAAI Transactions on Intelligent Systems Mar.2020 D0:10.11992/tis.201810014 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20190829.0906.002.html 面向众包数据的特征扩维标签质量提高方法李易南，王士同（江南大学数字媒体学院，江苏无锡214122) 摘要：众包是一个新兴的收集数据集标签的方法。虽然它经济实惠，但面临着数据标签质量无法保证的问题。尤其是当客观原因存在使得众包工作者工作质量较差时，所得的标签会更加不可靠。因此提出一个名为基于特征扩维提高众包质量的方法(FA-method),其基本思想是，首先由专家标注少部分标签，再利用众包者标注的数据集训练模型，对专家集进行预测，所得结果作为专家数据集新的特征，并利用扩维后的专家集训练模型进行预测，计算每个实例为噪声的可能性以及噪声数量上限来过滤出潜在含噪声标签的数据集，类似地，对过滤后的高质量集再次使用扩维的方法进一步校正噪声。在8个UCI数据集上进行验证的结果表明，和现有的结合噪声识别和校正的众包标签方法相比，所提方法能够在重复标签数量较少或标注质量较低时均取得很好的效果。关键词：众包：标签质量：扩维：专家标注：噪声识别：噪声校正：噪声可能性：噪声数量上限中图分类号：TP181文献标志码：A文章编号：1673-4785(2020)02-0227-08 中文引用格式：李易南，王士同.面向众包数据的特征扩维标签质量提高方法.智能系统学报，2020,15(2)：227-234. 英文引用格式：LI Yinan,WANG Shitong..A feature augmentation method for enhancing the labeling quality of crowdsourcing data[J].CAAI transactions on intelligent systems,2020,15(2):227-234. A feature augmentation method for enhancing the labeling quality of crowdsourcing data LI Yinan,WANG Shitong (School of Digital Media.Jiangnan University,Wuxi 214122,China) Abstract:Crowdsourcing is a new method of collecting the labels of data.Although it is economical,crowdsourcing faces an unavoidable problem,i.e.,the quality of the labels cannot be guaranteed.In particular,when the quality of la- beling work is low because of the existence of objective causes,the result of crowdsourcing will be unreliable.In this study,a feature augmentation method for enhancing the labeling quality of crowdsourcing data is proposed.In the pro- posed method,first,a small amount of expert data is labeled by several people with professional knowledge.Then,the crowdsourcing data are used to create the classifiers and predict the expert data.The resultant predicted labels are used to augment the expert data.Then,the augmented expert data are used to create the classifiers,predict the original data, and calculate the probability of noise for each instance and the upper limit of noise number to filter out the high-quality dataset from potentially noisy labels.Similarly,the filtered high-quality dataset is utilized to further correct the noisy la- bels using the proposed feature augmentation method.The experiments conducted on eight UCI datasets show that the proposed feature augmentation method has achieved encouraging results when the number of repeated labels is compar- atively small or the quality of labeling is comparatively low. Keywords:crowdsourcing;labeling quality;feature augmentation;expert labeling;noise identification;noise correc- tion;noise probability;upper limit of noise number 收稿日期：2018-10-15.网络出版日期：2019-08-29. 基金项目：国家自然科学基金项目(61272210). 众包，一般认为是由美国作家杰夫·豪(Jeff 通信作者：李易南.E-mail:1920898036@qq.com Howe)在2006年6月于《众包：大众力量缘何推

DOI: 10.11992/tis.201810014 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190829.0906.002.html 面向众包数据的特征扩维标签质量提高方法李易南，王士同（江南大学数字媒体学院，江苏无锡 214122）摘要：众包是一个新兴的收集数据集标签的方法。虽然它经济实惠，但面临着数据标签质量无法保证的问题。尤其是当客观原因存在使得众包工作者工作质量较差时，所得的标签会更加不可靠。因此提出一个名为基于特征扩维提高众包质量的方法 (FA-method)，其基本思想是，首先由专家标注少部分标签，再利用众包者标注的数据集训练模型，对专家集进行预测，所得结果作为专家数据集新的特征，并利用扩维后的专家集训练模型进行预测，计算每个实例为噪声的可能性以及噪声数量上限来过滤出潜在含噪声标签的数据集，类似地，对过滤后的高质量集再次使用扩维的方法进一步校正噪声。在 8 个 UCI 数据集上进行验证的结果表明，和现有的结合噪声识别和校正的众包标签方法相比，所提方法能够在重复标签数量较少或标注质量较低时均取得很好的效果。关键词：众包；标签质量；扩维；专家标注；噪声识别；噪声校正；噪声可能性；噪声数量上限中图分类号：TP181 文献标志码：A 文章编号：1673−4785(2020)02−0227−08 中文引用格式：李易南, 王士同. 面向众包数据的特征扩维标签质量提高方法 [J]. 智能系统学报, 2020, 15(2): 227–234. 英文引用格式：LI Yinan, WANG Shitong. A feature augmentation method for enhancing the labeling quality of crowdsourcing data[J]. CAAI transactions on intelligent systems, 2020, 15(2): 227–234. A feature augmentation method for enhancing the labeling quality of crowdsourcing data LI Yinan，WANG Shitong (School of Digital Media, Jiangnan University, Wuxi 214122, China) Abstract: Crowdsourcing is a new method of collecting the labels of data. Although it is economical, crowdsourcing faces an unavoidable problem, i.e., the quality of the labels cannot be guaranteed. In particular, when the quality of labeling work is low because of the existence of objective causes, the result of crowdsourcing will be unreliable. In this study, a feature augmentation method for enhancing the labeling quality of crowdsourcing data is proposed. In the proposed method, first, a small amount of expert data is labeled by several people with professional knowledge. Then, the crowdsourcing data are used to create the classifiers and predict the expert data. The resultant predicted labels are used to augment the expert data. Then, the augmented expert data are used to create the classifiers, predict the original data, and calculate the probability of noise for each instance and the upper limit of noise number to filter out the high-quality dataset from potentially noisy labels. Similarly, the filtered high-quality dataset is utilized to further correct the noisy labels using the proposed feature augmentation method. The experiments conducted on eight UCI datasets show that the proposed feature augmentation method has achieved encouraging results when the number of repeated labels is comparatively small or the quality of labeling is comparatively low. Keywords: crowdsourcing; labeling quality; feature augmentation; expert labeling; noise identification; noise correction; noise probability; upper limit of noise number 众包，一般认为是由美国作家杰夫·豪 (Jeff Howe) 在 2006 年 6 月于《众包：大众力量缘何推收稿日期：2018−10−15. 网络出版日期：2019−08−29. 基金项目：国家自然科学基金项目 (61272210). 通信作者：李易南. E-mail：1920898036@qq.com. 第 15 卷第 2 期智能系统学报 Vol.15 No.2 2020 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2020

·228· 智能系统学报第15卷动商业未来》(Crowdsourcing:Why the Power of 与真值相比的准确率为度量；其二是获取更多数 the Crowd is Driving the Future of Business)一书中据以训练模型，专注于所得模型的质量，以模型首次提出并做了详细的阐释。书中关于众包的定的泛化能力为度量。义为：“一个公司或机构把过去由员工执行的工作对于前者，常见思路是通过众包标签集推断任务，以自由自愿的形式外包给非特定的（而且真实标签，如上文所述，目前最常用且简单有效通常是大型的)大众网络的做法。众包的任务通的方法为多数投票(MV),即针对每个实例的多重常是由个人来承担，但如果涉及到需要多人协作标签集合，取多数为最终标签。该方法的前提完成的任务，也有可能以依靠开源的个体生产的是工作人员的准确率需高于50%，在此基础上，形式出现”。随着工作人员数量的增加，其正确率会不断提众包是不准确监督的一种典型场景山，包括高。其他方法还有GLAD方法阿、贝叶斯方法RY 机器学习、数据挖掘等在内的技术，通常需要大 ZenCrowd算法等，一些对不同数据集进行实验量带有标记的数据对算法以及模型进行训练、预测以及验证。数据数量越大，准确率越高，算法证明，这些真值推理方法效果差异并不明显叨。及模型的效果就越好。结合众包系统获取标签成因此，仅仅通过设计新颖的推理算法来提高标签本低、单个质量不可靠的特点，通常采取对同一质量比较困难。实例由多个不同标记者进行标记，并用真值推理对于后者，一种思路是在上面真值推理方法算法将所得的多重标签进行整合。基础的真值推所得的集成标签基础上进一步识别出疑似噪声样理算法有多数投票(MV),此方法要求保证工人的本并在数据集中将其去掉。一项实验证明，简单平均正确率大于50%，则工人数量越多，标签质去除噪声可以提高所训练模型的质量，因此一量越高。其他还有一些以投票法为基础的改进形些噪声识别方法可以应用于此。例如，基于阈值式回，但实验表明，仅仅通过真值推理的方式效果的方法12)，用一些特殊的标准（例如熵）来对每差别并不明显)。在上述真值推理算法的基础个实例进行打分。如果分数超过阈值，则该实例上，结合噪声识别和校正是一种行之有效的方案，将被视为噪声；基于模型预测的过滤算法，通过但需要较高的标记质量（如增加众包人数或者寻模型对实例进行分类并识别噪声，有如表决过滤求更好的标记者)，否则结果偏差较大。 (VF)),对数据集进行多次交叉验证，若超过一半从成本和质量两个角度考虑，我们可以由专不相同则认为该实例为噪声样本。家首先标记少部分实例，并适当减少众包工人人目前常用的方法，或者标签质量不够理想，或数和水平来达到成本和质量的最优解。针对这一者需要去除部分实例以保证质量。为达到既能保场景，本文提出了一个适应性较强的基于特征扩证质量，又能完整保留数据集全部实例的目的，维提高众包质量的框架(FA-method),结合少量的 Zhang等首先提出了将噪声识别和校正相结合的专家标签，运用特征扩维的方法对真值推理算法方法AVNC。在集成标签的基础上，首先由多所得的集成标签集进行处理，通过计算每个实例次交叉验证识别噪声，计算噪声可能程度和噪声为噪声的可能程度以及集成标签的噪声数量的上数量范围以识别噪声，然后采用集成学习的方式限区分噪声，并进一步提高标签质量和可靠性。进行校正。此方法在标记质量较高时有不错的效实验证明，本方法在不同标记质量下均可以取得果，当标记质量较低时，仅仅通过交叉验证识别较好的效果，在众包标记质量较低或众包工人较会产生较大的偏差，从而导致后续校正无法继续。少的情况下，依然可以得到较高质量的标签。并为解决上述问题，本文在AVNC所采用的噪且以校正后的数据集训练所得模型的泛化能力有声识别和校正相结合的基础框架上做了改进，引进一步的提高。和现有的结合噪声识别和校正的入了少量专家标记，并采用特征扩维的方法进行框架相比也具有优势。噪声识别和校正，保证了当标记质量较低时所得结果质量的稳定。 1相关工作 2基于特征扩维的众包质量提高方法通常，在人工智能领域，采用众包的方法获取标签有两个目的：其一是为了获得大量的带有标 2.1基本框架签的数据，专注于标签本身的质量，以所得标签图1所示为本方法的基本框架。首先，由每

动商业未来》(Crowdsourcing：Why the Power of the Crowd is Driving the Future of Business) 一书中首次提出并做了详细的阐释。书中关于众包的定义为：“一个公司或机构把过去由员工执行的工作任务，以自由自愿的形式外包给非特定的 (而且通常是大型的) 大众网络的做法。众包的任务通常是由个人来承担，但如果涉及到需要多人协作完成的任务，也有可能以依靠开源的个体生产的形式出现”。众包是不准确监督的一种典型场景[1] ，包括机器学习、数据挖掘等在内的技术，通常需要大量带有标记的数据对算法以及模型进行训练、预测以及验证。数据数量越大，准确率越高，算法及模型的效果就越好。结合众包系统获取标签成本低、单个质量不可靠的特点，通常采取对同一实例由多个不同标记者进行标记，并用真值推理算法将所得的多重标签进行整合。基础的真值推理算法有多数投票 (MV)，此方法要求保证工人的平均正确率大于 50%，则工人数量越多，标签质量越高。其他还有一些以投票法为基础的改进形式 [2] ，但实验表明，仅仅通过真值推理的方式效果差别并不明显[3]。在上述真值推理算法的基础上，结合噪声识别和校正是一种行之有效的方案[4] ，但需要较高的标记质量 (如增加众包人数或者寻求更好的标记者)，否则结果偏差较大。从成本和质量两个角度考虑，我们可以由专家首先标记少部分实例，并适当减少众包工人人数和水平来达到成本和质量的最优解。针对这一场景，本文提出了一个适应性较强的基于特征扩维提高众包质量的框架 (FA-method)，结合少量的专家标签，运用特征扩维的方法对真值推理算法所得的集成标签集进行处理，通过计算每个实例为噪声的可能程度以及集成标签的噪声数量的上限区分噪声，并进一步提高标签质量和可靠性。实验证明，本方法在不同标记质量下均可以取得较好的效果，在众包标记质量较低或众包工人较少的情况下，依然可以得到较高质量的标签。并且以校正后的数据集训练所得模型的泛化能力有进一步的提高。和现有的结合噪声识别和校正的框架相比也具有优势。 1 相关工作通常，在人工智能领域，采用众包的方法获取标签有两个目的：其一是为了获得大量的带有标签的数据，专注于标签本身的质量，以所得标签与真值相比的准确率为度量；其二是获取更多数据以训练模型，专注于所得模型的质量，以模型的泛化能力为度量。对于前者，常见思路是通过众包标签集推断真实标签，如上文所述，目前最常用且简单有效的方法为多数投票 (MV)，即针对每个实例的多重标签集合，取多数为最终标签[5]。该方法的前提是工作人员的准确率需高于 50%，在此基础上，随着工作人员数量的增加，其正确率会不断提高。其他方法还有 GLAD 方法[6] 、贝叶斯方法 RY[7] 、 ZenCrowd 算法[8] 等，一些对不同数据集进行实验证明，这些真值推理方法效果差异并不明显[3, 9]。因此，仅仅通过设计新颖的推理算法来提高标签质量比较困难。对于后者，一种思路是在上面真值推理方法所得的集成标签基础上进一步识别出疑似噪声样本并在数据集中将其去掉。一项实验证明，简单去除噪声可以提高所训练模型的质量[10] ，因此一些噪声识别方法可以应用于此。例如，基于阈值的方法[11-12] ，用一些特殊的标准 (例如熵) 来对每个实例进行打分。如果分数超过阈值，则该实例将被视为噪声；基于模型预测的过滤算法，通过模型对实例进行分类并识别噪声，有如表决过滤 (VF)[13] ，对数据集进行多次交叉验证，若超过一半不相同则认为该实例为噪声样本。目前常用的方法，或者标签质量不够理想，或者需要去除部分实例以保证质量。为达到既能保证质量，又能完整保留数据集全部实例的目的， Zhang 等首先提出了将噪声识别和校正相结合的方法 AVNC[4]。在集成标签的基础上，首先由多次交叉验证识别噪声，计算噪声可能程度和噪声数量范围以识别噪声，然后采用集成学习的方式进行校正。此方法在标记质量较高时有不错的效果，当标记质量较低时，仅仅通过交叉验证识别会产生较大的偏差，从而导致后续校正无法继续。为解决上述问题，本文在 AVNC 所采用的噪声识别和校正相结合的基础框架上做了改进，引入了少量专家标记，并采用特征扩维的方法进行噪声识别和校正，保证了当标记质量较低时所得结果质量的稳定。 2 基于特征扩维的众包质量提高方法 2.1 基本框架图 1 所示为本方法的基本框架。首先，由每 ·228· 智能系统学报第 15 卷

第2期李易南，等：面向众包数据的特征扩维标签质量提高方法 ·229· 个众包工人标记的结果训练一个模型，并对专家 2.3噪声识别部分集进行预测，所得结果作为专家集新的特征。之定义一个众包系统，以下均针对二分类情后用扩维后的专家集训练模型并对原始数据进行况。设众包数据共有I个实例，每个实例均经过预测，与集成标签相比较，计算每个实例的集成众包工人标记了J个标签。对于每个实例i,其特标签是噪声的可能程度以及噪声数量。将集成标征记为X,J个标签集合记为{，，…，，其中签划分为质量可靠的保留集和需要校正的含噪声 1∈{-1,1（分别代表负例和正例），未知的真实标签集，同时形成用于辅助校正的M个辅助集。之后记为y,经过标签集成算法处理后的集成标签记用铺助集对保留集扩维，对含噪声集合进行校为。这里需要明确的是，每个工人的正确率需正，最终将校正后的数据和保留集合并为最终结要大于50%，否则众包系统无法成立。在实际果。整个框架的关键在于噪声识别和噪声校正两中，众包工作者通常会经过初步的筛选，以防止个部分，将在后文分别介绍。恶意标注者（标注正确率低于50%）的出现。对于每个标记者，可以简单按式(1)估计出其助集 H…H 错误率：特征扩维 (1) 特征扩维留集别对于每个实例，由基础分类算法（如决策众包标人多数」树)进行M轮预测后会得到M个分类标签{，，…，签集投票 ),将其作为实例新的特征，并和初始标签产进行对比，计算不相同次数C。图1基于特征扩维的众包质量提高方法的基本框架 Fig.1 The framework of the feature-augmentation meth- ci= (2) od of enhancing the labeling quality of crowdsourcing data 式(1)和式(2)中函数1()是一个指示器函数， 2.2特征扩维方法如果括号内条件满足则返回1，不满足则返回0。本文所用的特征扩维方法类似于文献[14]，第m轮扩维将实例i预测为正例的概率为是一种两层学习器结合的方法，以噪声识别部分 c,预测为负例的概率为c-”。则实例i的标签不为例：首先由众包数据训练出一组初级学习器，确定程度可由式(3)来度量，即：然后输出所得的类概率作为专家数据集的新的特 e=- cilogc+cm logcm (3) 征，专家数据集的标签仍作为新数据集的标签。这些增加的特征实质上可以打开原始输入空间的下面定义一个量a,来表示实例i的集成标流形结构，从而可以增强的专家数据集的分类性签，是噪声的可能程度：能。与由专家集直接训练模型相比，其在泛化性 ai=ci+lei/ (4) 能上能够有进一步的提高。设J个众包人员标记的众包标签集为C= a,是一种双层排序，以不相同次数c,作为整 {X,),(X22),…,(X,yh,专家集P(X,yp),基础算数部分，以不确定度做小数部分。不相同次数法C,原始数据集D(X)。该方法的伪代码如下： c,将标签集分为M什1组，C,越大，意味着有更多的 forj=1,2,…,Jdo: 模型将这个标签标记为噪声。在每组内又按照不 hj=L(Xj.y ) 确定程度进行排序，不确定程度越大，意味着越 yri=hj(Xp) 有可能是噪声。按4大小对所有实例进行排序，显 yDj=hj(Xp) 然α越大，就意味着集成标签越有可能是噪声。 end for 接下来计算噪声可能的数量，以期将集成标 H=(Xp,yPI,…,yp),yp) 签进行划分。由于我们采用的是投票法对众包标输出：z=H(Xoyp1,…yD）签集进行初步整合，为保证识别出的高质量集的

个众包工人标记的结果训练一个模型，并对专家集进行预测，所得结果作为专家集新的特征。之后用扩维后的专家集训练模型并对原始数据进行预测，与集成标签相比较，计算每个实例的集成标签是噪声的可能程度以及噪声数量。将集成标签划分为质量可靠的保留集和需要校正的含噪声集，同时形成用于辅助校正的 M 个辅助集。之后用辅助集对保留集扩维，对含噪声集合进行校正，最终将校正后的数据和保留集合并为最终结果。整个框架的关键在于噪声识别和噪声校正两个部分，将在后文分别介绍。保留集校正集专家标签集众包标签集特征扩维多数投票含噪声集辅助集 H1…HM 特征扩维噪声识别噪声校正图 1 基于特征扩维的众包质量提高方法的基本框架 Fig. 1 The framework of the feature-augmentation method of enhancing the labeling quality of crowdsourcing data 2.2 特征扩维方法本文所用的特征扩维方法类似于文献 [14]，是一种两层学习器结合的方法，以噪声识别部分为例：首先由众包数据训练出一组初级学习器，然后输出所得的类概率作为专家数据集的新的特征，专家数据集的标签仍作为新数据集的标签。这些增加的特征实质上可以打开原始输入空间的流形结构，从而可以增强的专家数据集的分类性能。与由专家集直接训练模型相比，其在泛化性能上能够有进一步的提高。 {(X1, y1), (X2, y2),··· ,(XJ , yJ )} P(XP, yP) L D(XD) 设 J 个众包人员标记的众包标签集为 C = ，专家集，基础算法，原始数据集。该方法的伪代码如下： for j = 1,2,··· , J do： hj = L ( Xj , yj ) ； yP j = hj(XP) yD j = hj(XD) end for h ′ = L((XP, yP1,··· , yPJ ), yP) z = h ′ 输出： (XD, yD1,··· , yDJ ) 2.3 噪声识别部分 { l 1 i , l 2 i ,··· ,l J i } l 1 i ∈ {−1,1} yˆi 定义一个众包系统，以下均针对二分类情况。设众包数据共有 I 个实例，每个实例均经过众包工人标记了 J 个标签。对于每个实例 i，其特征记为 Xi，J 个标签集合记为，其中 (分别代表负例和正例)，未知的真实标签记为 yi，经过标签集成算法处理后的集成标签记为。这里需要明确的是，每个工人的正确率需要大于 50%，否则众包系统无法成立。在实际中，众包工作者通常会经过初步的筛选，以防止恶意标注者 (标注正确率低于 50%) 的出现。对于每个标记者，可以简单按式 (1) 估计出其错误率： qj = ∑I i=1 I ( l j i , yˆi ) /I (1) {l 1 i , l 2 i ,··· , l M i } yˆi 对于每个实例 i，由基础分类算法 (如决策树) 进行 M 轮预测后会得到 M 个分类标签，将其作为实例新的特征，并和初始标签进行对比，计算不相同次数 ci。 ci = ∑M m=1 I ( l m i , yˆi ) (2) 式 (1) 和式 (2) 中函数 I(·) 是一个指示器函数，如果括号内条件满足则返回 1，不满足则返回 0。第 m 轮扩维将实例 i 预测为正例的概率为 c1 m ，预测为负例的概率为 c−1 m。则实例 i 的标签不确定程度可由式 (3) 来度量，即： ei = − ∑M m=1 [ c (m) −1 logc (m) −1 +c (m) 1 logc (m) 1 ] (3) yˆi 下面定义一个量 αi 来表示实例 i 的集成标签，是噪声的可能程度： αi = ci +   ei/ ∑I i=1 ei   (4) yˆi αi 是一种双层排序，以不相同次数 ci 作为整数部分，以不确定度做小数部分。不相同次数 ci 将标签集分为 M+1 组，ci 越大，意味着有更多的模型将这个标签标记为噪声。在每组内又按照不确定程度进行排序，不确定程度越大，意味着越有可能是噪声。按 αi 大小对所有实例进行排序，显然 αi 越大，就意味着集成标签越有可能是噪声。接下来计算噪声可能的数量，以期将集成标签进行划分。由于我们采用的是投票法对众包标签集进行初步整合，为保证识别出的高质量集的第 2 期李易南，等：面向众包数据的特征扩维标签质量提高方法 ·229·

·230· 智能系统学报第15卷质量可靠，本着“宁缺毋滥”的原则，因此我们需众包集C,专家集要计算出噪声比例的上限。 P,参数=5 由式(1)可计算贴标者错误率为g,通过投票法整合J个标记者，超过半数正确则集成结果正众包标签集多数投票形成标签集Lc 确。在这里，各个标记者错误率可视为相互独立，可由Hoeffding不等式推导出集成错误率的上限：由式(1)、(6)计算噪声数 0= ()1-g≤ 量上限noise num (5) ep-21-2g =Omax N M≤MR noise_num=Qmax·I= exp-1-2q)).1 (6) 分别取第1、2、…、J个标记者所标记的数据训练按a大小对所有实例进行降序排序，我们可模型，对专家集和原始数据集扩维，用扩维后的专家集训练模型并对扩维后的原始数据集进行预测以将集成标签集分为两部分：前noise_num个标签为待进一步处理的含噪声集，其余为可靠的保留集。与集成标签比较，由式(2)计算c,并形成辅助集H 2.4噪声校正部分目前，关于噪声校正的研究数量较少，且一些实验也证明校正噪声是比较困难的。一种直接的由式(4)计算a,将所有实例按a,降序排列，前 noise num为含噪声集，其余为保留集思路是，在分离出含噪声的集合后，用高质量集直接训练模型对噪声集进行校正，但效果不理想。为了提高分离出的高质量集所训练的模型的分别取第1、2、·、M个辅助集训练模型，对保留集和含噪声集扩维，用扩维后的保留集训练模型并对扩维泛化能力，我们再次使用扩维的方法：噪声识别后的含噪声集进行预测，重复轮过程中，每轮扩维预测后，每个实例i均获得一个标签l,若l=,则将实例i加入辅助集Hm中，共对个校正结果进行投票，作为校正结果，与保留集获得M个辅助集{H1,H2,…,Hw。和识别部分类似，用合并，返回最终结果之前得到的辅助集{H,H2,…,Hw}分别训练得到图2算法流程图模型2，促，…，h必)，对噪声集和保留集扩维并进 Fig.2 Flowchart of the proposed method 行预测，重复M轮，用投票法整合所得的M个标签集合，作为对噪声集的校正结果。把校正后的 3实验结果分析结果和保留集合并为最终结果。由上文所述，众包通常关注于两个结果：1)标 2.5完整框架签本身质量：2)训练所得模型的质量。因此在这该算法主要时间消耗在于对专家集扩维、对里分别进行实验。基础的学习模型均采用决策保留集扩维两个部分，且与所选择的基础算法￡树，由python的sklearn库实现，参数均取默认值，有关。设基础学习算法对实例数为n的众包集训取M=5 练及预测的时间复杂度为T(),则本方法的时间 3.1实验数据复杂度为M[J.T(n)+T(nr]+M[M.T(')+T(m"], 实验数据来自UCI机器学习库的8个数据其中，M为预设重复轮数，J为众包者数量，r为专集，它们具有不同的数量的实例，不同的类分布，家集比例，n'为辅助集实例数，n"为噪声集实例不同数量的特征及其类型，以便验证本方法在不数，以上均为常数，且Mn,J≤n,0<r<1,n'<n, 同情况下的适用性。其中4个为较小规模数据 n"<n。由此可见本方法的时间复杂度取决于所选集，4个为较大规模数据集。在模拟实验中不对择的基础算法时间复杂度。完整流程图如图2 数据集本身做任何特征处理。数据集具体情况如所示。表1

质量可靠，本着“宁缺毋滥”的原则，因此我们需要计算出噪声比例的上限。由式 (1) 可计算贴标者错误率为 q，通过投票法整合 J 个标记者，超过半数正确则集成结果正确。在这里，各个标记者错误率可视为相互独立，可由 Hoeffding 不等式推导出集成错误率的上限[15] ： Q = ∑ ⌊J/2⌋ k=0 ( J k ) q J−k (1−q) k ⩽ exp( − 1 2 J(1−2q) 2 ) = Qmax (5) noise_num = Qmax ·I = exp( − 1 2 J(1−2q) 2 ) ·I (6) 按 αi 大小对所有实例进行降序排序，我们可以将集成标签集分为两部分：前 noise_num 个标签为待进一步处理的含噪声集，其余为可靠的保留集。 2.4 噪声校正部分目前，关于噪声校正的研究数量较少，且一些实验也证明校正噪声是比较困难的。一种直接的思路是，在分离出含噪声的集合后，用高质量集直接训练模型对噪声集进行校正，但效果不理想。 li = yˆi {H1,H2,··· ,HM} {H1,H2,··· ,HM} { h 1 C ,h 2 C ,··· ,h M C } 为了提高分离出的高质量集所训练的模型的泛化能力，我们再次使用扩维的方法：噪声识别过程中，每轮扩维预测后，每个实例 i 均获得一个标签 li，若，则将实例 i 加入辅助集 Hm 中，共获得M个辅助集。和识别部分类似，用之前得到的辅助集分别训练得到模型，对噪声集和保留集扩维并进行预测，重复 M 轮，用投票法整合所得的 M 个标签集合，作为对噪声集的校正结果。把校正后的结果和保留集合并为最终结果。 2.5 完整框架 L M [J ·T (n)+T (nr)]+ M [M ·T (n ′ )+T (n ′′)] M ≪ n J ≪ n 该算法主要时间消耗在于对专家集扩维、对保留集扩维两个部分，且与所选择的基础算法有关。设基础学习算法对实例数为 n 的众包集训练及预测的时间复杂度为 T(n)，则本方法的时间复杂度为，其中，M 为预设重复轮数，J 为众包者数量，r 为专家集比例，n'为辅助集实例数，n''为噪声集实例数，以上均为常数，且，，0<r<1，n'<n， n''<n。由此可见本方法的时间复杂度取决于所选择的基础算法时间复杂度。完整流程图如图 2 所示。众包集C，专家集 P，参数m=5 众包标签集多数投票形成标签集LC 由式（1）、（6）计算噪声数量上限noise_num M≤M? 分别取第1、2、…、J个标记者所标记的数据训练模型，对专家集和原始数据集扩维，用扩维后的专家集训练模型并对扩维后的原始数据集进行预测与集成标签比较，由式（2）计算ci，并形成辅助集Hm 由式（4）计算ai，将所有实例按ai降序排列，前 noise_num为含噪声集，其余为保留集分别取第1、2、…、M个辅助集训练模型，对保留集和含噪声集扩维，用扩维后的保留集训练模型并对扩维后的含噪声集进行预测，重复M轮对M个校正结果进行投票，作为校正结果，与保留集合并，返回最终结果 Y N 图 2 算法流程图 Fig. 2 Flowchart of the proposed method 3 实验结果分析由上文所述，众包通常关注于两个结果：1) 标签本身质量；2) 训练所得模型的质量。因此在这里分别进行实验。基础的学习模型均采用决策树，由 python 的 sklearn 库实现，参数均取默认值，取 M=5。 3.1 实验数据实验数据来自 UCI 机器学习库的 8 个数据集，它们具有不同的数量的实例，不同的类分布，不同数量的特征及其类型，以便验证本方法在不同情况下的适用性。其中 4 个为较小规模数据集，4 个为较大规模数据集。在模拟实验中不对数据集本身做任何特征处理。数据集具体情况如表 1。 ·230· 智能系统学报第 15 卷

第2期李易南，等：面向众包数据的特征扩维标签质量提高方法 ·231· 表18个UCI数据集的基本情况 Table 1 Basic conditions of 8 UCI datasets 名称数量正例负例特征数量特征类型 mushroom 8124 3916 4280 23 类别 kr-vs-kp 3196 1527 1669 37 类别 spambase 4601 1813 2788 58 数值 sick 3772 231 3541 30 混合 biodeg 1055 356 699 42 数值 tic-tac-toe 958 332 626 10 类别 vote 435 168 267 17 类别 ionosphere 351 126 225 35 数值首先，在较大规模数据集取=0.05的数据，较图3和图4分别是平均标记准确率为0.7和小规模数据集取=0.1的数据作为专家标签集， 0.6时4种方法的准确率。以他们的真实标签作为专家标记的标签。接下来 1.0 1.0 模拟众包的过程：创建一个模拟标记者，为数据 0.9 0.9 集中的每个实例标记一次。然后，第二个模拟标解0.8 能0.8 记者执行相同的任务，直到第J个模拟标记者完毫o7+8 4MV 0.6+MV+AVNC 0.6+MV+AVNC 成同样的任务。最终，使每个实例都包含J个标 MV+FAEQ MV+FAEQ 0.5 3 5 7 9 0.5 3 5 7 签。模拟标记者的标记质量均匀分布，且所有的众包标签数量众包标签数量模拟标记者都有不同的标记质量。所有实例以及 (a)mushroom (b)kr-vs-kp 它们对应的多个噪声标签集形成一个模拟众包标 1.0h 1.0f 签数据集。默认J取10，平均质量较高的情况下， 0.9 0.9 取模拟标记者质量范围为[0.6,0.8]，平均为0.7；平每0.8 00.8 均质量较低的情况下，取模拟标记者质量范围为是07 是07 0.6 MV+AVNC [0.5,0.7],平均为0.6，每个实例的集成标签由多数 MV+FAEQ .6 AC MV+FAEQ 0.5 0.5 1 7 3 5 投票产生。 3 5 9 9 众包标签数量众包标签数量 3.2准确率对比 (c)sprmpase (d)sick 众包的一个目的在于获得大量数据的标签， 1.0h 1.0h 因此需要考察众包处理后的标签和真实标签的准 0.9 0.9 确率。由于AVNC是首次被提出将噪声识别和校正组合来提升众包质量的方法，且实验证明其 +MV +MV 0.6 -+-MV+AVNC 0.6+MV+AVNC 可以进一步提高标签集成算法的质量。因此本次 MV+FAEQ MV+FAEO 0.5 w2 0.5 9 3 5 实验选择多数投票为基础标签集成算法，在其基众包标签数量众包标签数量础上比较AVNC和FA-method对于众包质量的提 (e)biodeg (f)tic-tac-toe 高程度。实验方法如下： 1.0 1.0h 1)直接由多数投票形成的集成标签(MV): 0.9 0.9 2)多轮交叉验证，计算噪声数和不相同次数划分噪声集，采用集成学习方法进行校正(AVNC): 0.7 MV 07 +MV 0.6 MV+AVNC 0.6 MV+AVNC 3)由特征扩维识别并校正噪声(FA-method)。 MV+FAEQ MV+FAEQ 0.5 3 0.5 5 7 9 3 579 每种方法重复实验10次，每次随机取奇数个众包标签数量众包标签数量模拟标记人员所标记的标签（避免多数投票出现 (g)vote (h)ionosphere 随机值)，对比三者所得到的标签和真实值相比的图3高质量标记时众包准确率准确率以及标准差。 Fig.3 Accuracy of crowdsourcing on high quality labeling

表 1 8 个 UCI 数据集的基本情况 Table 1 Basic conditions of 8 UCI datasets 名称数量正例负例特征数量特征类型 mushroom 8 124 3 916 4 280 23 类别 kr-vs-kp 3 196 1 527 1 669 37 类别 spambase 4 601 1 813 2 788 58 数值 sick 3 772 231 3 541 30 混合 biodeg 1 055 356 699 42 数值 tic-tac-toe 958 332 626 10 类别 vote 435 168 267 17 类别 ionosphere 351 126 225 35 数值首先，在较大规模数据集取 r=0.05 的数据，较小规模数据集取 r=0.1 的数据作为专家标签集，以他们的真实标签作为专家标记的标签。接下来模拟众包的过程：创建一个模拟标记者，为数据集中的每个实例标记一次。然后，第二个模拟标记者执行相同的任务，直到第 J 个模拟标记者完成同样的任务。最终，使每个实例都包含 J 个标签。模拟标记者的标记质量均匀分布，且所有的模拟标记者都有不同的标记质量。所有实例以及它们对应的多个噪声标签集形成一个模拟众包标签数据集。默认 J 取 10，平均质量较高的情况下，取模拟标记者质量范围为 [0.6,0.8]，平均为 0.7；平均质量较低的情况下，取模拟标记者质量范围为 [0.5,0.7]，平均为 0.6，每个实例的集成标签由多数投票产生。 3.2 准确率对比众包的一个目的在于获得大量数据的标签，因此需要考察众包处理后的标签和真实标签的准确率。由于 AVNC 是首次被提出将噪声识别和校正组合来提升众包质量的方法，且实验证明其可以进一步提高标签集成算法的质量。因此本次实验选择多数投票为基础标签集成算法，在其基础上比较 AVNC 和 FA-method 对于众包质量的提高程度。实验方法如下： 1) 直接由多数投票形成的集成标签 (MV)； 2) 多轮交叉验证，计算噪声数和不相同次数划分噪声集，采用集成学习方法进行校正 (AVNC)； 3) 由特征扩维识别并校正噪声 (FA-method)。每种方法重复实验 10 次，每次随机取奇数个模拟标记人员所标记的标签 (避免多数投票出现随机值)，对比三者所得到的标签和真实值相比的准确率以及标准差。图 3 和图 4 分别是平均标记准确率为 0.7 和 0.6 时 4 种方法的准确率。 3 MV MV+AVNC MV+FAEQ 1 5 (a) mushroom 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (b) kr-vs-kp 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (c) sprmpase 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (d) sick 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (e) biodeg 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (f) tic-tac-toe 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (g) vote 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (h) ionosphere 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 图 3 高质量标记时众包准确率 Fig. 3 Accuracy of crowdsourcing on high quality labeling 第 2 期李易南，等：面向众包数据的特征扩维标签质量提高方法 ·231·

点击进入文档下载页（PDF格式）

共8页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录