当前位置：和泉文库 > 电气与自动化 > 浏览文档

【学术论文】概念漂移数据流分类研究综述

文件格式：PDF，文件大小：1MB，售价：3.9元

文档详细内容（约10页）

第8卷第2期智能系统学报 Vol.8 No.2 2013年4月 CAAI Transactions on Intelligent Systems Apr.2013 D0I:10.3969/i.i8sn.1673-4785.201208012 网络出版t地址：htp://www.cnki.net/kcma/detail/23.1538.TP.20121116.1701.004.html 概念漂移数据流分类研究综述文益民，强保华，范志刚2 (1.桂林电子科技大学计算机科学与工程学院，广西桂林541004；2.中国科学院上海高等研究院，上海201203) 摘要：由于现有各种机器学习算法本质上都基于一个静态学习环境，而以尽量保证学习系统泛化能力为目标的寻优过程，概念漂移数据流分类给机器学习带来了巨大挑战.从数据流与概念漂移、概念漂移数据流分类研究的发展与趋势、概念漂移数据流分类的主要研究领域、概念漂移数据流分类研究的新动态4个方面展开了文献综述，并分析了当前概念漂移数据流分类算法存在的问题. 关键词：大数据；概念漂移；增量学习；适应学习；数据流：机器学习中图分类号：TP391.4文献标志码：A文章编号：16734785(2012)020095-10 A survey of the classification of data streams with concept drift WEN Yimin',QIANG Baohua',FAN Zhigang? (1.College of Computer Science and Engineering,Guilin University of Electronic Technology,Guilin 541004,China;2.Shanghai Advanced Research Institute,Chinese Academy of Sciences,Shanghai 201203,China) Abstract:Because the current machine learning algorithms all are essentially an optimization procedure that aims to ensure the generalization ability based on static learning environment,the classification data streams with concept drift has brought severe challenges to machine learning.In order to address these concerns,a survey was developed consisting of four aspects:the introduction to data streams and concept drift,the development process and future trends,the main research fields,and the new developments in the study field of the classification data streams with concept drift.The existing problems relating to classification data streams with concept drift were discussed at last. Keywords:big data;concept drift;incremental learning;adaptive learning;data stream;machine learning 在社会生产和生活实践中，有一类问题是数据地检测到概念漂移，并对自身进行适应概念漂移的调所包含的概念可能随时间而变化.自动化生产线整，以对不断到来的数据尽可能地正确判断。上，相近原因的问题产品会连续出现，然后问题产品概念漂移问题给机器学习带来了巨大的挑战. 的特征也随之发生变化；商务活动中，顾客的购买兴目前各种人工学习系统的构造算法在本质上都是基趣随时间而变化；网络安全中，网络的访问模式随用于一个静态的学习环境，而以尽量保证学习系统泛户不同而变化；社交媒体上，用户的实际行为随其注化能力为目标的寻优过程，所以现有的各种机器学册位置而变化这些问题的共同特点是：不断产生数习算法在本质上都不适应进行概念漂移数据流学据形成流；数据流没有终点；数据流中数据包含的概习.这种不适应体现在：计算模型或者缺乏获取新知念随时可能产生变化.数据流中这种概念的变化在文识的能力，或者不能保持原本学到的知识3) 中被称为概念漂移21.概念漂移要求学习系统能尽早自“概念漂移”(concept drift)在1986年由 Schlimmer和Granger2首次提出后，国内外众多研收稿日期：2012-0807.网络出版日期：2012-11-16 基金项目：湖南省自然科学基金资助项目(10J5067):湖南省科技计究人员对概念漂移数据流分类展开了深入研划资助项目(2010GK3047);广西省可信软件重点实验室究.Kuncheva4、Tsymbalt3)、王涛[6]、Zliobaite (桂林电子科技大学)开放课题资助项目(KX201118). 通信作者：文益民.E-mail:ymwen2004@yahoo.com.cm. Hoens8]和Gama9]等先后从各自的角度对概念漂移数据流分类研究进行了很好的文献综述.与以上

·104 智能系统学报第8卷 [C]//Proceedings of the Eighth Australian Joint Confer- 其中被SC1、E以检索18篇，翻译译著1部. ence on Artificial Intelligence.Canberra,Australia,1995: 91-98. 强保华，男，1972年生，教授，硕士 [96]MOVELLAN J R,MINEIRO P.Robust sensor fusion:a- 生导师，博士，主要研究方向为Wb信 nalysis and application to audio visual speech recognition 息处理、智能搜索、海量信息处理、网络 [J].Machine Learning,1998,32(2):85-100. 信息集成.获西南大学教学成果奖果三 [97]BERNSTEIN A,VORBURGER P,EGGER P.A scenario- 等奖1项，主持国家自然科学基金及省 based approach for direct interruptability prediction on 部级科研项目共8项.发表学术论文20 wearable devices[J].Interational Journal of Pervasive 余篇，其中被I检索12篇，翻译译著1部. Computing and Communications,2008,3(4):426-438. 作者简介：范志刚，男，1978年生，副研究员，文益民，男，1969年生，教授，硕士博士，主要研究方向为大规模数据挖掘生导师，博士，CCF高级会员，主要研究和机器学习及其高性能分布式计算.曾方向为机器学习与数据挖掘、极化SAR 主持中科院重点部署项目等科研项目图像处理、社会计算获得省部级教学、发表学术论文14篇，其中被SCI、EI检科研奖励5项，主持省部级科研项目8 索10篇. 项，发表学术论文30余篇，高级数据挖掘与应用国际学术会议 The 9th International Conference on Advanced Data Mining and Applications (ADMA 2013) ADMA 2013 will take place in Zhejiang University,Hangzhou,14th-16th December 2013.It is our pleasure to invite you to contribute papers,register and participate at ADMA 2013.The conference aims at bringing together the experts on data mining from around the world,and providing a leading intemational forum for the dissemination of original research find- ings in data mining,spanning applications,algorithms,software and systems,as well as different applied disciplines with potential in data mining. Topics of interest include but not limited to: Advanced data ming Mass data mining Web mining Social network mining Document mining High performance data mining Economic data mining Image mining Data mining visualization Parallel and distributed data mining Multimedia mining Security and privacy issues Data stream mining Biomedical data mining Other issues on data mining Graph mining Complex data mining Applications Social network application E-commerce and Web service Data mining systems in finance,economic,e-commerce Medical informatics Emerging applications of mass data mining Disaster prediction Empirical study of data mining algorithm Financial market analysis Parallel data mining application Data mining for education DNA sequencing,Bioinformatics Intelligent systems Genomics and biometrics Website:http://www.adma2013.org/

96 智能系统学报第8卷这些综述相比，本综述具有如下特色之处：1)剖析人认为是一种概念漂移191，有人则认为属于概念进了概念漂移数据流分类研究产生和发展的脉络：2) 化[2 包含了概念漂移数据流分类的最新研究动向—概总之，学术界对概念漂移的认识日渐清晰，但目念漂移数据流分类中的类别不平衡学习、重复概念前还缺少对概念漂移的统一描述.Moreno-Torres等学习及半监督学习和主动学习问题；3)深入分析了试图利用数据漂移(data shif)的概念来统一已有各当前概念漂移数据流分类算法存在的问题种概念漂移的描述2 1数据流与概念漂移 2概念漂移数据流分类研究的发展与趋势数据流分类问题引起研究人员关注的原因主要自“概念漂移”首次提出后，得到了学术界的日有2个：1)因为自动数据获取技术的飞速发展使得益重视.从1986一2000年左右这段时间的研究主要人类获得了大量的数据.数据量太大时，数据不能被围绕单分类器展开一使用单个分类器实现概念漂一次性装入内存；2)由于传感器技术的发展，使得移数据流分类.Kilander等提出了COBBIT2i;Wid- 人类获得了大量与时间和环境相关的数据「o).Ga mer和Kbat提出了FLORAU];Hulten等提出了 ma1和Street!山讨论了数据流分类问题的顺序处 CVFDT4;Black等提出了CD3s];同时研究人员开理、单向通过、内存有限等特点.数据流分类通常被始关注概念漂移数据流分类的理论问题24.为深入描述为在线分类模型2]，也就是分类器每次只对一探讨数据产生的情境(context)与概念漂移的关系，个样本分类，在完成对该样本的分类后，分类器将得 l98年由Dietterich、Widmer和Kubat发起，Machine 到由专家给出的该样本的真实类别，该样本及其类 Learning出版了研究概念漂移数据流的专刊2] 别标志被用于分类器更新，当分类器完成更新后，将由于使用单分类器处理概念漂移数据流时需要对下一个接收到的样本实施分类.在线分类模型通不断更新分类模型且分类器泛化能力不高，Street 常又被扩展为分类器每次分类或学习一批样本。等首次将集成学习引入概念漂移数据流分类，提数据流分为2种：1)数据源产生的数据独立同出了SEA算法.因此，从2000年左右开始，研究人分布，研究人员称为稳定数据流]：2)数据源产生员对概念漂移数据流分类的研究开始转移到分类器的数据不独立同分布，研究人员认为在数据产生过集成上来.通过多分类器集成，实现对历史样本的选程中发生了“概念漂移”21，称其为动态数据流4。择，提高分类器泛化能力.Wang等提出的AWE[]、研究人员对概念漂移的深入理解是通过分析概念漂 Kolter等提出的DWM和AddExp[293o]和Bifet等提移的种类及产生的原因逐步得到的. 出的ADWIN和ASHT[31]是这个领域里非常有影响 Widmer等5]认为数据产生环境的变化导致了的成果。概念漂移，并将概念漂移区分为虚概念漂移和实概 2000年左右，概念漂移数据流分类研究进人了念漂移.Kly等16认为概念漂移是样本与其类别快速发展期，研究人员开始考虑更加接近实际状况的联合概率随时间变化而产生，其产生原因分3种：的概念漂移数据流.Klinkenberg和Lanquillon比较 1)某类的先验概率发生变化；2)某类的类概率发生早地研究了在检测概念漂移时只有部分样本获得用变化；3)样本后验概率发生变化.Kuncheva4]引用户反馈或者没有反馈的情形234].2004年由Intelli- 时间序列分析方法将概念漂移分为4种：随机噪声、 gent Data Analysis期刊出版的概念漂移数据流专随机趋势、随机替换和系统趋势.其中，随机趋势中刊35]主要探讨了如何利用增量学习方法以较小的包含渐变性概念漂移，随机替换中包含突变性概念代价使已有分类器适应概念漂移；之后概念漂移数漂移，系统趋势中包含着重复性概念漂移.Narasim- 据流分类中的类别不平衡学习362]、概念重复学 hamurthy等I)根据数据产生的多源性提出了概念习345]、半监督学习68]、主动学习[94]等问题开漂移的产生模型.Zliobaite把概念漂移分为4种：突始得到较多关注.2010年IOS还出版了《Adaptive 变性概念漂移、渐变性概念漂移、增量性概念漂移和 Stream Mining:Pattern Learning and Mining from E- 重复性概念漂移].Minku等8]在总结他人工作的 volving Data Streams》.从近年机器学习与数据挖掘基础上，选择了纯度、速度、可预测度、频度、重复度领域的一些国际权威期刊和国际顶级会议上发表的 5个维度，将概念漂移分成14种.对数据流中增加论文来看，概念漂移数据流分类的研究正日益成为了类别的情形，学术界还没有达成一致认识一有学术界关注的焦点，对概念漂移数据流的研究已经

第2期文益民，等：概念漂移数据流分类研究综述 ·97· 开始与转移学习5s6、进化计算758]、特征选择s9] 一个类似SEA的AWE(accuracy-weighted ensem- 聚类1、时间复杂度分析611、社会计算1等结合 bles)算法，该算法根据最新采集的训练样本集计算起来.由于运动是物质的本质，概念漂移也是数据的各基分类器的权值.Kyosuke]提出了ACE(adap 本质.因此，从趋势上来讲，已有各种模式分类的理 tive classifier-ensemble)算法，该算法在集成分类器论和算法都可与概念漂移相结合而引出更多新的研的基础上增加了一个能进行在线学习的分类器，以究问题提高算法对概念漂移的反应速度.Muhlbaier 等[9,4提出了Leam+NSE,该算法根据已训练的 3 概念漂移数据流分类的主要研究领域基分类器和集成分类器在最新采集训练样本集上的 3.1概念漂移数据流学习器的构建分类性能，来调整各样本对应的权值和各基分类器对已有各种学习器进行调整使之适应概念漂移的权值.文益民等5]提出了基于分类置信度的概念数据流学习是目前主要的研究方向.这些算法可分漂移检测方法，根据分类置信度实现分类器的选择为2类：1)通过单分类器实现；2)通过多分类器集集成，使得集成分类器能快速适应新概念.关菁华成实现等6提出了一种选择性集成方法，该算法根据各基利用单分类器进行概念漂移数据流学习的方法分类器在验证数据集上的输出结果与参考向量之间有4种：1)选择训练样本.该类方法的主要思路是：的角度来选择参与集成的分类器.朱群等)提出了从采集的训练样本中选择一部分最合适对未来数据一种基于双层窗口方法，该算法将滑动窗口分解成多实施准确分类的样本训练分类器，其主要做法有滑个基本窗口，以基本窗口为单位进行概念漂移检测动窗口法、自适应滑动窗口调整法[64]以及动态样以上这些算法还有一个共同点，即假定一个数据块中本选择法[66].2)给训练样本赋以权值.该类方法没有概念漂移，因此需要事先了解数据流的结构的主要思路是对最新的训练样本赋以最大的权值，基于在线学习模型对整个数据流实施集成学习以提高对新概念的反应速度[1.3)调整学习器的的思路与Adaboosting算法的思路类似.Kolter等提结构.该类方法的特点是动态调整分类器的内部结出了基于动态带权多数投票(DWM)的学习算法[29] 构，以适应概念漂移检测的要求.Hulten等提出的和Add正xp3o,该算法能根据集成分类器的分类性 CVTI4用适合新概念的子树替换旧子树；Nunez等能动态地增加或者删除基分类器；孙岳等[78]提出了提出了OlineTree2,该算法中决策树的每个叶子节一种基于多分类器的概念漂移挖掘算法，该算法的点都维护一个时间窗口和局部性能测度，当测度下思路与AddExp类似，只是基分类器的权值设置不降时，时间窗口将减小21.4)是各种方法的组同；辛轶等[9提出了IKnnM-DHecoc算法，该算法根合6,14 据新到样本的概念漂移度调整编码矩阵，然后根据多分类器集成是机器学习的研究热点之一.国调整后的编码矩阵更新训练基分类器，内外学者在利用集成学习策略实施概念漂移数据流 3.2概念漂移数据流学习理论的研究学习方面已经做了许多探索，具体的研究内容主要概念漂移数据学习理论主要是基于在线学习模分2个方面：1)利用集成学习策略对数据流实施分型展开研究.Ku[24]给出了在前一个概念是可能近块学习；2)基于在线学习模型对整个数据流实施集似正确学习(PAC)的条件下，实现对下一个概念的成学习，即所有基分类器采用相同的学习算法，它们 PAC学习所需的最多样本数的上界；Helmbold等2s] 各自的训练样本来自同一数据流。在稳定渐变概念漂移和确保未来样本错误率下界的利用集成学习策略对数据流实施分块学习，使条件下，给出了概念漂移程度的上界；Bave等[26]研用了滑动窗口技术.这类算法通常假定最近获得的究了在确保分类器泛化能力的条件下，数据流中相训练样本与即将要采集的样本同分布.Street等Iu四邻2个样本概念漂移的最大幅度；Wag等2给出提出了SEA(streaming ensemble algorithm)算法，该了使用带权多数投票进行概念漂移学习的理论证算法根据一个预设的质量标准使用新分类器替代不明；Kolter等0]证明了AddExp的错误率的界；必要的旧分类器，而保持分类器总数不变，而实现对 Kuncheva等Iso]试图建立确定滑动窗口大小的理论新概念的学习.然而当概念漂移突然发生时，体现新根据，给出了分类错误率与滑动窗口大小的关系：概念的分类器不足以跟旧分类器相抗衡，因此SEA Minku等1a,8]分析了分类器之间多样度(Diversity) 在一段时间内不能识别新概念.Wang等2]提出了对概念漂移检测的影响

·98 智能系统学报第8卷 3.3概念漂移的检测提醒29)、电价预测29,31,39,4,52，，7201、TREC[32,3,921 检测概念漂移大致有3种方法：性能法、距离法垃圾邮件过滤5s,,、Netflix电影等级数据集【®] 和性质法。 Yahoo购物数据，m)、邮件链表、集群计算机负 1)性能法.跟踪当前分类器对最新采集训练集载均衡[3)、传感网数据4]、交通数据41、金融时间的分类性能，如分类性能出现较大下降，这说明最新序列5]、视听说话识别6]、可穿戴设备7]、航班延采集训练集中包含有概念漂移.Widmer和Kubatis] 误2]和电影标注数据集52] 提出的LORA系列算法，根据分类器对正类样本覆使用频率比较高的人工概念漂移数据集包括：盖量以及分类准确率调整滑动窗口；Klinkenberg STAGCER数据集2,5,29,010,7，，m,M5、SEA数据等[2]使用对训练集的分类准确率、训练集中某类的集，，9,7，n,1、高斯数据，1,45、旋转平面分类准确率和召回率(recall)来实施概念漂移检测，数据集[4,8,3L,24,9,,6,769,31,56 以调整窗口大小；他们还通过估算各个滑动窗口上另外，UCI中的一些数据集也常用于概念漂移得到的支持向量机的泛化能力来确定滑动窗口的大数据流分类[40,4243,4546,52,6162,6,72,7.21 小T64;Last等[3]提出了OLN,该算法通过比较分类器在训练集与验证集上的错误率来判断是否产生了 4概念漂移数据流分类研究的新动态概念漂移；Gama84)通过计算一个训练样本被错误 4.1 概念漂移数据流中的类别不平衡学习问题分类的概率和其变化的范围来检测训练集中概，念漂类别不平衡使得概念漂移数据流问题更加复移的起点和终点；Nishida等[51使用分类器对最新杂，因此直到最近学术界才开始关注这方面的研究，采集训练样本的分类准确率和对全部训练样本的分总的思路是将已有处理类别不平衡的算法加以改类准确率来检测概念漂移；罗秀等]提出了基于误进，以适应概念漂移数据流中的类别不平衡问题！差率的检测方法.性能法是最常用的概念漂移检测 Ga0等36研究了概念漂移数据流学习中的类别不方法，但当数据流中存在类别不平衡时或只有部分平衡问题，对最新采集训练集中的多类（样本数量训练样本具有类别标志时，性能法将不适合用于概多的类)样本采取多轮“下采样”，将所有已学习过念漂移检测的少类（样本数量少的类）样本和最新采集训练集 2)距离法.Katakis等7]将一个数据块映射成中的少类样本合并成一个子集，然后将该子集分别一个“概念向量”，然后对多个概念向量实施聚类，与属于多类每轮“下采样”得到的子集合并训练分由一个聚类代表一个概念.当采集到一个数据集时，类器，以实现对最新采集样本集的集成学习；Chen 计算该数据集对应的概念向量与各个聚类中心的距等[79]利用Mahalanobie距离从已学习过的所有少离，以检测是否产生概念漂移.Katakis用该方法实类样本中选择一部分样本与最新采集的不平衡样本现了对重复概念的检测，但该方法有一个前提：一个集合并，以减轻类别不平衡；Lichtenwalter等[o]对属数据块中的各数据属于同一个概念。于多类的样本进行下采样，将多类中被错误分类的 3)性质法.分析最近获得圳练集的一些统计特样本与全部少类样本构成训练集；Gregory等[4]采性：各类的分布、各特征值的分布等来实现对概念漂用Gao采取的方法，实现对最新采集样本集的集成移的检测.Alippi等[so利用中心极限定理，设计了学习，然后通过修改Leam++NSE中的权值使其偏不依赖数据分布模型的，不需要任何先验信息的概向多类和少类的查全率，实现其与已训练好分类器念漂移检测算法；Peter等91j提出了基于熵的概念的集成：Zhang等2]将分类错误的少类样本加入训漂移检测方法，通过一种熵的计算来评测训练集之练集并使用F,值控制分类器更新频率.由于存在概间样本分布的区别；Kuncheva2]在KL距离和T平念漂移，这些方法都不能取得在数据分布不改变情方测试的基础上通过假定数据服从组合正态分布导形下类别不平衡学习算法所能达到的性能出了SPLL概念漂移检测方法 4.2概念漂移数据流中的概念重复学习问题 3.4概念漂移数据流分类研究使用的数据集 Widmer比较早地注意到了概念会重复出到目前为止，概念漂移数据流分类技术被用于现5]，但是概念漂移数据流中的概念重复学习问题以下实际问题的解决：Web数据B41、英国银行数直到最近才得到学术界的广泛关注.Widmer等将已据16、天气预报9、Reuters语料4,21、KDDCup数经学习过的概念描述保存起来，当已学习过的概念据0,0,58,9，刀、信用卡欺诈数据8、日程重新出现时，保存的分类器被重新激活；Ramamur-

点击进入文档下载页（PDF格式）

共10页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录

【学术论文】概念漂移数据流分类研究综述