孟小峰等:大数据管理:概念、技术与挑战 151 以作者为中心来展示多学科中文文献的集成数据库取和集成,一直到最终的结果展示, ScholarSpace完 系统.该系统已经从最初的计算机领域扩展到包括整地体现出大数据处理的一般流程.在其基础上我 经济、法律等人文社会科学在内的多领域,从数据抽们归纳出大数据的基本流程,如图3所示 Visualization ata provenance Interaction Recommendation Analysis ----1 (Data Mining)(Statistics ociated Data Schema and Integration Data Integration Data Extraction Semi-Structured Unstructured L Fig, 3 Basic framework of big data processing 图3大数据处理基本流程 整个大数据的处理流程可以定义为在合适工具 数据抽取和集成技术不是一项全新的技术,传 的辅助下,对广泛异构的数据源进行抽取和集成,结统数据库领域已对此问题有了比较成熟的研究.随 果按照一定的标准统一存储.利用合适的数据分析着新的数据源的涌现,数据集成方法也在不断的发 技术对存储的数据进行分析,从中提取有益的知识展之中从数据集成模型来看,现有的数据抽取与集 并利用恰当的方式将结果展现给终端用户.具体来说成方式可以大致分为以下4种类型:基于物化或 可以分为数据抽取与集成、数据分析以及数据解释.ETL方法的引擎( materialization or ETL engine)、基 2.2.1数据抽取与集成 于联邦数据库或中间件方法的引擎( federation engine 大数据的一个重要特点就是多样性,这就意味 or mediator)、基于数据流方法的引擎( stream engine) 着数据来源极其广泛,数据类型极为繁杂,这种复杂及基于搜索引擎的方法( search engine) 的数据环境给大数据的处理带来极大的挑战.要想2.2.2数据分析 处理大数据,首先必须对所需数据源的数据进行抽 数据分析是整个大数据处理流程的核心,因为 取和集成,从中提取出关系和实体,经过关联和聚合大数据的价值产生于分析过程.从异构数据源抽取 之后采用统一定义的结构来存储这些数据.在数据和集成的数据构成了数据分析的原始数据.根据不 集成和提取时需要对数据进行清洗,保证数据质量同应用的需求可以从这些数据中选择全部或部分进 及可信性.同时还要特别注意前面提及的大数据时行分析.传统的分析技术如数据挖掘、机器学习、统 代模式和数据的关系,大数据时代的数据往往是先有计分析等在大数据时代需要作出调整,因为这些技 数据再有模式,且模式是在不断的动态演化之中的.术在大数据时代面临着一些新的挑战,主要有
EfÃR3Ox(n.-3OOçOÇÊef{ (zKÌ(zvwÅJO!"#ÁÂè(yÿé wð(êb4OHö-.nOnÁÂ$Åef <rÇÊ$yiOvå($"<=/431"73<9Ë UoT]6efÑÀOàÒÓKn/|ò ]st6efO/iÒÓ$ý¨(i# VMJK( W3;M<51369O/1R/5QMJ>38371/<9;;M2JK ¨( 6efÑÀ/iÒÓ U'6efOÑÀÒÓE¤¥RnÇÔ{ O56§$|}ïOefÞçè<rÇÊ$v åßë¤O»z\ K"æÇÔOefÏÐ ;<\ OefçèÏÐ$Å3Ô<k%O½[ "æì´OXYÛvå(]©iíæKTx¸ EÏRef<&ÇÊ(efÏÐE^ef¨WK 'K'K$ ef<&ÇÊ 6efO'º³ù&ón»$9Zb DefxÞ¤|}$eféV¤Rý\$9ùl\ Oef45©6efOÑÀàx¤6O¯°K³Õ ÑÀ6ef$wxºîiªefÞOefçè <rÇÊ$Å3Ô<(r¼T$wRarïÇ ô>;æz¤¥Ovx\ 9®efKnef ÇÊrÔ<uª³efçèðñ$òóefq ^>»KCuø³ùúZh«Ô^O6efu SYrefO($6efuSOefóxk efQkY$$YónZ[O¤ôØäô3OK ef<rÇÊ;<Zó1×UO;<$V zef{ÁÂvBkÊõO$%KC DUOefÞO\]$efÇÊX4nZ[O' (ô3KÅefÇÊVx$]kOef<&Ç ÊXYE6íÏRE§BùéV+'C,#/L`ä T,GXOö÷!63891M34MP38M/2/1T,G92JM29"(/ Laøef{3¢ÁXOö÷!59>9138M/292JM29 /169>M38/1"(/LefÒXOö÷!;8193692JM29" ^/LùLö÷OX!;931<=92JM29"K 'K'K' efÏÐ efÏÐóU'6efÑÀÒÓOÔO$R 6efOµ¶LÏÐRÓKÅïefÞ< rÇÊOefÊefÏÐOefKîfZ CåæOªSEÅ9®ef3*å×úúÏç èÏÐKVzOÏÐ;<ýefÙÚ(#¦.û(z !ÏÐbn6efuSª³füU$R9®; <n6efuS«¬D®UO¯°$²³k# ûòüb#6ef¿À#jk(;<&¯° $A$
152 计算机研究与发展2013,50(1 1)数据量大并不一定意味着数据价值的增加,( history flow)、空间信息流( spatial information 相反这往往意味着数据噪音的增多.因此在数据分flow)等.可以根据具体的应用需要选择合适的可视 析之前必须进行数据清洗等预处理工作,但是预处化技术 理如此大量的数据对于机器硬件以及算法都是严峻 2)让用户能够在一定程度上了解和参与具体 的考验 的分析过程.这个既可以采用人机交互技术,利用交 2)大数据时代的算法需要进行调整.首先大数互式的数据分析过程来引导用户逐步地进行分析 据的应用常常具有实时性的特点,算法的准确率不使得用户在得到结果的同时更好地理解分析结果的 再是大数据应用的最主要指标.很多场景中算法需由来.也可以采用数据起源技术2,通过该技术可 要在处理的实时性和准确率之间取得一个平衡,比以帮助追溯整个数据分析的过程,有助于用户理解 如在线的机器学习算法( online machine learning);结果 其次云计算是进行大数据处理的有力工具,这就要 求很多算法必须作出调整以适应云计算的框架,算3关键技术分析 法需要变得具有可扩展性;最后在选择算法处理大 数据时必须谨慎,当数据量增长到一定规模以后,可 大数据价值的完整体现需要多种技术的协同 以从小量数据中挖掘出有效信息的算法并一定适用文件系统提供最底层存储能力的支持.为了便于数 于大数据.统计学中的邦弗朗尼原理( Bonferroni's据管理,需要在文件系统之上建立数据库系统.通过 principle)2就是一个典型的例子 索引等的构建,对外提供高效的数据查询等常用功 3)数据结果好坏的衡量.得到分析结果并不能.最终通过数据分析技术从数据库中的大数据提 难,但是结果好坏的衡量却是大数据时代数据分析取出有益的知识 的新挑战.大数据时代的数据量大、类型庞杂,进行3.1云计算:大数据的基础平台与支撑技术 分析时往往对整个数据的分布特点掌握的不太清 如果将各种大数据的应用比作一辆辆“汽车” 楚,这会导致最后在设计衡量的方法以及指标时遇支撑起这些“汽车”运行的“高速公路”就是云计算 到诸多困难 正是云计算技术在数据存储、管理与分析等方面的 大数据分析已被广泛应用于诸多领域,典型的支撑,才使得大数据有用武之地 有推荐系统、商业智能、决策支持等 在所有的“高速公路”中, Google无疑是技术最 2.2.3数据解释 为先进的一个需求推动创新,面对海量的Web数 数据分析是大数据处理的核心,但是用户往往据, Google于2006年首先提出了云计算的概念,支 更关心结果的展示.如果分析的结果正确但是没有撑 Google内部各种大数据应用的正是其自行研发 采用适当的解释方法,则所得到的结果很可能让用的一系列云计算技术和工具.难能可贵的是 Google 户难以理解,极端情况下甚至会误导用户.数据解释并未将这些技术完全封闭,而是以论文的形式逐步 的方法很多,比较传统的就是以文本形式输出结果公开其实现.正是这些公开的论文,使得以GFS 或者直接在电脑终端上显示结果.这种方法在面对 MapReduce, Bigtable为代表的一系列大数据处理 小数据量时是一种很好的选择.但是大数据时代的技术被广泛了解并得到应用,同时还催生出以 数据分析结果往往也是海量的,同时结果之间的关 Hadoop【为代表的一系列云计算开源工具.云计 联关系极其复杂,采用传统的解释方法基本不可行.算所涉及到的技术很多,但是通过 Google云计算技 可以考虑从下面两个方面提升数据解释能力. 术的介绍能够快速、完整地把握云计算技术的核心 1)引入可视化技术.可视化作为解释大量数据和精髓.本节以 Google的相关技术介绍为主线,详 最有效的手段之一率先被科学与工程计算领域采细介绍 Google以及其他众多学者和研究机构在大 用.通过对分析结果的可视化用形象的方式向用户数据技术方面已有的一些工作.根据 Google已公开 展示结果,而且图形化的方式比文字更易理解和接的论文及相关资料结合大数据处理的需求,我们对 受.常见的可视化技术有标签云( tag cloud)、历史流 Google的技术演化进行了整理,如图4所示: ①邦弗朗尼原理表明并非给定数据集和挖掘任务就背定能挖掘出合理的结果。具体内容见文献[27] ②上面所列的系统绝大部分都已经有论文公布其大致实现,虽然 Colossus和 Caffeine系统并没有论文公开,但是可以确定其存在.图4中 所列时间如无特别标明,均为论文发表时间,并不代表其在 Google内部的正式部署和使用时间
$"ef6Z¤ZbDefµ¶Op±$ Îd9ZbDefýþOpnKBnefÏ Ðôhºîçèefðñb-ÑÀ{f$ó-Ñ ÀýB6OefL#¦ÏÁE^"óÿ! OÕFK '"6efuSO"ª³çèüUKwx6e fOåæ^^k¼u»Où&$"O»."Z Qó6efåæO²³¿Kmn¯¦3"ª ³nÑÀO¼u»r»."ô¢<?'#$ ýnÜO#¦.û"!/24M2963<=M2949312M2J"% õ_!"óçè6efÑÀOk¢{$9³ Smn"ºîfüUEÔå_!"O}~$" ª³ã?kè(»%>n*å"ÑÀ6 efuºî$%$´efpqy¤E>$ EÅòef3ÙÚk$>?O"¤Ôæ L6efKz!.3Oø&'(À!W/25911/2Ma; 71M2<M749"+'+,# ó'[VO)oK ("efvå!*O#K?yÏÐvåZ É$óvå!*O#+ó6efuSefÏÐ OU¯°K6efuSOef6(éV\$çè ÏÐuU'efOÏWù&¼ÓOZ,ð -$9öìí>n!#OXE^¿uI y7n.ÉK 6efÏÐv:|}åæL7nÁÂ$[VO k/(z(0|/(©1·bK 'K'K( ef¨W efÏÐó6efÑÀOÔO$óæ ÿOvåO(KýåÏÐOvåg.óäk ;æÔ´O¨WX$Äi?yOvåm/2æ ÉEÀ¨$¤íGH§}~ö3ìæKef¨W OXmn$VzOóEOiJYËvå ÃniíòvåK9ùXn« òefuóùm!O*åKó6efuSO efÏÐvå4ó O$Cuvåô¢O a(¤l\$;æVzO¨WX/iZèK EÕÖŧ«Ù'X«Ô4ef¨W/¢K $"öé;ä;<K;äfR¨W6ef k$Ogô"x:-.&{Ó!"ÁÂ; æKQRÏÐvåO;äæJOXY+æ (vå$$¨JäOXYOÿñÀ¨r cK^O;ä;<k5_!83J<4/0>"(EaÒ !=M;8/1N54/O"(6 ¢ > ? Ò !;738M34M25/1638M/2 54/O"bKEîfTOåæª³*åÇÔO; ä;<K '"2æ/:n¤Ómò¨r7&T OÏÐRÓK9'8E;æ4#I ;<$"æI YOefÏÐRÓxöìæ9KoçèÏÐ$ W?æn?yvåOCuÿ!oÀ¨ÏÐvåO «xK4E;æefdÞ;<+'E,$QRÌ;< E:6;<U'efÏÐORÓ$k6LæÀ¨ våK C 9:23?` 6efµ¶OËUT]ª³nù;<ORCK OÁ(zÔ=>?\ /¢O·KRóLe f¿À$ª³nOÁ(zôòz{ef{(zKQR LöbOz$¯Ô=:$Oef@Úb^æ¥ /KiQRefÏÐ;<Åef{3O6efÔ <k%O½[K C=< abc!+,-B'def4gh23 ýåÛEù6efOåæfAA&BC'$ d9®&BC'jèO&:lÛ='ó_!"K gó_!";<nef\ (¿À&ÏÐbX«O $)W?6efkæDôoK nikO&:lÛ='3$[//J49oó;< RxçO'KªS¤U$« O ^9Qe f$[//J49L'%%CwxÔ_!"OjkK [//J49úEù6efåæOgó+è$' O(ª_!";<r{KÉ/EOó [//J49 jÛ9®;<Ë×FG$óE·OOJY9K Û¼ ]Kg ó 9 ® Û O · O$W ? E [V"$ L37:9>0<9$WMJ83Q49RSTO(ª6efÑÀ ; < : | } ¨ ? y å æ$C u ø H E Z3>//7+'),RSTO(ª_!"Þ{K_! "iI^yO;<mn$óQR [//J49_!"; <OÍÎ/:l(ËUoÒÓ_!";<OÔO rJKKiLE [//J49OÎ;<ÍÎR²Ü$à ÍÎ [//J49E^)Yn.Ãr$%#n6 ef;<X«vkO®{fKîf [//J49vÛ O·O^Î0r$vÇ6efÑÀOªS$] [//J49O;<ØäçèUÀ$ý¨B$ i# # ø&'(ÀT¹#©¤efÇrÙÚÊQÞ¤/ÙÚÇÀOvå-TÅOç+'+,K $ ò«iªO(zM6úÏvwk·OÛW6í¼]$N, */4/;;0;r *3559M29(zäk·OÛ$óE.¤\nK¨B3 iªu¢ýùú¹$lR·O'Tu¢$ZSTn [//J49úOgYúOrWæu¢K $A' !"#$%&'( '%$($A%!$"