第36卷第6期 计算机学报 Vol.36 No.6 2013年6月 CHINESE JOURNAL OF COMPUTERS June 2013 网络大数据:现状与展望 王元卓靳小龙程学旗 (中国科学院计算技术研究所网络数据科学与技术重点实验室北京100190) 摘要网络大数据是指“人、机、物”三元世界在网络空间(Cyberspace)中交互、融合所产生并在互联网上可获得 的大数据.网络大数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律,给现有的T架构以及机器处理和 计算能力带来了极大挑战.同时,也为人们深度挖掘和充分利用网络大数据的大价值带来了巨大机遇,因此,迫切 需要探讨大数据的科学问题,发现网络大数据的共性规律,研究网络大数据定性、定量分析的基础理论与基本方 法.文中分析了网络大数据的复杂性、不确定性和涌现性,总结了网络空间感知与数据表示、网络大数据存储与管 理体系、网络大数据挖据和社会计算以及网络数据平台系统与应用等方面的主要问题与研究现状,并对大数据科 学、数据计算需要的新模式与新范式、新型的IT基础架构和数据的安全与隐私等方面的发展趋势进行了展望. 关键词大数据:网络大数据:网络空间感知:大数据存储:数据挖据:社会计算 中图法分类号TP393 D0I号10.3724/SP.J.1016.2013.01125 Network Big Data:Present and Future WANG Yuan-Zhuo JIN Xiao-Long CHENG Xue-Qi (Key Laboratory of Web Data Science &Technology,Institute of Computing Technology.Chinese Academy of Sciences,Beijing 100190) Abstract Network big data refer to the massive data generated by interaction and fusion of the ternary human-machine-thing universe in the Cyberspace and available on the Internet.The increase of their scale and complexity exceeds that of the capacity of hardware characterized by the Moore law,which brings grand challenges to the architecture and the processing and computing capacity of the contemporary IT systems,meanwhile presents unprecedented opportunities on deeply mining and taking full advantage of the big value of network big data.Therefore,it is pressing to investigate the disciplinary issues and discover the common laws of network big data, and further study the fundamental theory and basic approach to qualitatively or quantitatively dealing with network big data.This paper analyzes the challenges caused by the complexity, uncertainty and emergence of network big data,and summarizes major issues and research status of the awareness,representation,storage,management,mining,and social computing of network big data,as well as network data platforms and applications.It also looks ahead to the development trends of big data science,new modes and paradigm of data computing,new IT infrastructures, and data security and privacy,etc. Keywords big data;network big data;cyberspace awareness;storage of big data;data mining; social computing 收稿日期:2012-12-18:最终修改稿收到日期:2013-0320.本课题得到国家自然基金重点项目“在线社会关系网络挖掘与分析”(61232010)、 “支持與情监控的Wb搜索与挖掘的新理论和新方法”(60933005)、国家“九七三”重点基础研究发展规划项目课题“面向公共安全的社会感 知数据处理”“(2012CB316303):国家自然基金面上项目“基于随机博弈网的网络用户信息行为模型及演化性分析”(61173008)、国家自然科学 基金青年项目“通信网络中可变服务容量调度系统的性能建模、分析与优化”(61100175)资助.王元卓,男,1978年生,博士,副研究员,中国 计算机学会(CCF)高级会员,主要研究方向为社会计算.网铬行为分析,信息安全等.E-mail:wangyuanzhuo@ict.ac.cn.新小龙,男,l976 年生,博士,副研究员,主要研究方向为社会计算、网络性能建模与分析、多智能体系统等.程学旗,男,1971年生,博士,研究员,主要研究 领域为网络科学、网络与信息安全以及互联网搜索与服务. ?1994-2015 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
第36卷 第6期 2013年6月 计 算 机 学 报 CHINESEJOURNALOFCOMPUTERS Vol.36 No.6 June2013 收稿日期:2012-12-18;最终修改稿收到日期:2013-03-20.本课题得到国家自然基金重点项目“在线社会关系网络挖掘与分析”(61232010)、 “支持舆情监控的 Web搜索与挖掘的新理论和新方法”(60933005)、国家“九七三”重点基础研究发展规划项目课题“面向公共安全的社会感 知数据处理”(2012CB316303);国家自然基金面上项目“基于随机博弈网的网络用户信息行为模型及演化性分析”(61173008)、国家自然科学 基金青年项目“通信网络中可变服务容量调度系统的性能建模、分析与优化”(61100175)资助.王元卓,男,1978年生,博士,副研究员,中国 计算机学会(CCF)高级会员,主要研究方向为社会计算、网络行为分析、信息安全等.E-mail:wangyuanzhuo@ict.ac.cn.靳小龙,男,1976 年生,博士,副研究员,主要研究方向为社会计算、网络性能建模与分析、多智能体系统等.程学旗,男,1971年生,博士,研究员,主要研究 领域为网络科学、网络与信息安全以及互联网搜索与服务. 网络大数据:现状与展望 王元卓 靳小龙 程学旗 (中国科学院计算技术研究所 网络数据科学与技术重点实验室 北京 100190) 摘 要 网络大数据是指“人、机、物”三元世界在网络空间(Cyberspace)中交互、融合所产生并在互联网上可获得 的大数据.网络大数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律,给现有的IT 架构以及机器处理和 计算能力带来了极大挑战.同时,也为人们深度挖掘和充分利用网络大数据的大价值带来了巨大机遇.因 此,迫 切 需要探讨大数据的科学问题,发现网络大数据的共性规律,研究网络大数据定性、定量分析的基础理论与基本方 法.文中分析了网络大数据的复杂性、不确定性和涌 现 性,总结了网络空间感知与数据表示、网络大数据存储与管 理体系、网络大数据挖掘和社会计算以及网络数据平台系统与应用等方面的主要问题与研究现状,并 对 大 数 据 科 学、数据计算需要的新模式与新范式、新型的IT基础架构和数据的安全与隐私等方面的发展趋势进行了展望. 关键词 大数据;网络大数据;网络空间感知;大数据存储;数据挖掘;社会计算 中图法分类号 TP393 DOI号 10.3724/SP.J.1016.2013.01125 NetworkBigData:PresentandFuture WANGYuan-Zhuo JINXiao-Long CHENGXue-Qi (KeyLaboratoryofWebDataScience& Technology,InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing 100190) Abstract Networkbigdatarefertothemassivedatageneratedbyinteractionandfusionofthe ternaryhuman-machine-thinguniverseintheCyberspaceandavailableontheInternet.The increaseoftheirscaleandcomplexityexceedsthatofthecapacityofhardwarecharacterizedbythe Moorelaw,whichbringsgrandchallengestothearchitectureandtheprocessingandcomputing capacityofthecontemporaryITsystems,meanwhilepresentsunprecedentedopportunitieson deeplyminingandtakingfulladvantageofthebigvalueofnetworkbigdata.Therefore,itis pressingtoinvestigatethedisciplinaryissuesanddiscoverthecommonlawsofnetworkbigdata, andfurtherstudythefundamentaltheoryandbasicapproachtoqualitativelyorquantitatively dealingwithnetworkbigdata.Thispaperanalyzesthechallengescausedbythecomplexity, uncertaintyandemergenceofnetworkbigdata,andsummarizesmajorissuesandresearchstatusof theawareness,representation,storage,management,mining,andsocialcomputingofnetwork bigdata,aswellasnetworkdataplatformsandapplications.Italsolooksaheadtothedevelopment trendsofbigdatascience,new modesandparadigmofdatacomputing,newITinfrastructures, anddatasecurityandprivacy,etc. Keywords bigdata;networkbigdata;cyberspaceawareness;storageofbigdata;datamining; socialcomputing
1126 计算机学报 2013年 集、分析和挖掘②.目前,eBay的分析平台每天处理 1 引言 的数据量高达100PB,超过了纳斯达克交易所每天 的数据处理量.为了准确分析用户的购物行为,eBay 1.1研究与发展现状 定义了超过500种类型的数据,对顾客的行为进行 近年来,随着互联网、物联网、云计算、三网融合 跟踪分析③.2012年的双十一,中国互联网再次发生 等IT与通信技术的迅猛发展,数据的快速增长成 了最大规模的商业活动:淘宝系网站的销售总额达 了许多行业共同面对的严峻挑战和宝贵机遇,因而 到191亿元人民币.淘宝之所以能应对如此巨大的 信息社会已经进入了大数据(Big Data)时代.大数 交易量和超高并发性的分析需求,得益于其对往年 据的涌现不仅改变着人们的生活与工作方式、企业 的情况,特别是用户的消费习惯、搜索习惯以及浏览 的运作模式,甚至还引起科学研究模式的根本性 习惯等数据所进行的综合分析④. 改变. 网络大数据给学术界也同样带来了巨大的挑战 一般意义上,大数据是指无法在一定时间内用 和机遇.网络数据科学与技术作为信息科学、社会 常规机器和软硬件工具对其进行感知、获取、管理、 科学、网络科学和系统科学等相关领域交叉的新兴 处理和服务的数据集合[.网络大数据是指“人、机、 学科方向正逐步成为学术研究的新热点.近年, 物”三元世界在网络空间(Cyberspace)中彼此交互 《Nature》和《Science》等刊物相继出版专刊来探讨 与融合所产生并在互联网上可获得的大数据,简称 对大数据的研究.2008年《Nature》出版的专刊“Big 网络数据. Data”,从互联网技术、网络经济学、超级计算、环境 当前,网络大数据在规模与复杂度上的快速增 科学和生物医药等多个方面介绍了海量数据带来的 长对现有T架构的处理和计算能力提出了挑战. 挑战).20l1年《Science》推出关于数据处理的专刊 据著名咨询公司IDC发布的研究报告,2011年网络 “Dealing with Data”,讨论了数据洪流(Data Deluge) 大数据总量为18ZB,预计到2020年,总量将达到 所带来的机遇[町.特别指出,倘若能够更有效地组织 35ZB. 和使用这些数据,人们将得到更多的机会发挥科学 IBM将大数据的特点总结为3个V,即大量化 技术对社会发展的巨大推动作用. (Volume)、多样化(Variety)和快速化(Velocity). 1.2网络大数据研究的意义 首先,网络空间中数据的体量不断扩大,数据集合的 总体而言,网络大数据研究的重要性体现在以 规模已经从GB、TB到了PB,而网络大数据甚至以 下几个方面: EB和ZB(101)等单位来计数.IDC的研究报告称, (1)网络大数据的研究对捍卫国家网络空间的 未来十年全球大数据将增加50倍,管理数据仓库的 数字主权,维护社会稳定,推动社会与经济可持续发 服务器的数量将增加10倍以迎合50倍的大数据增 展有着独特的作用.信息化时代,国家层面的竞争力 长①.其次,网络大数据类型繁多,包括结构化数据、 将部分体现为一国拥有网络大数据的规模、活性以 半结构化数据和非结构化数据.在现代互联网应用 及对数据的解释与运用的能力.国家在网络空间的 中,呈现出非结构化数据大幅增长的特点,至2012年 数字主权也将是继海、陆、空、天四空间之后另一个 末非结构化数据占有比例达到互联网整个数据量的 大国博弈的空间,在网络大数据领域的落后,意味着 75%以上.这些非结构化数据的产生往往伴随着社 失守产业战略制高点,意味着国家安全将在网络空 交网络、移动计算和传感器等新技术的不断涌现和 间出现漏洞.为此,今年3月,美国政府整合6个部 应用.再次,网络大数据往往呈现出突发涌现等非线 门投资2亿美元启动“大数据研究和发展计划”.在 性状态演变现象,因此难以对其变化进行有效评估 该计划中,美国国家科学基金会提出要“形成一个包 和预测.另一方面,网络大数据常常以数据流的形式 括数学、统计基础和计算机算法的独特学科”.该计 动态、快速地产生,具有很强的时效性,用户只有把 划还强调,大数据技术事关美国的国家安全,影响科 握好对数据流的掌控才能充分利用这些数据. 学研究的步伐,还将引发教育和学习的变革,这意味 近几年,网络大数据越来越显示出巨大的影响 作用,正在改变着人们的工作与生活.2012年11月 ① http://www.emc.com/ 《时代》杂志撰文指出奥巴马总统连任成功背后的秘 2http://swampland.time.com// ③ http://www.china-cloud.com/ 密,其中的关键是对过去两年来相关网络数据的搜 http://server.51cto.com/ ?1994-2015 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
1 引 言 1.1 研究与发展现状 近年来,随着互联网、物联网、云计算、三网融合 等IT 与通信技术的迅猛发展,数 据 的 快 速 增 长 成 了许多行业共同面对的严峻挑战和宝贵机遇,因而 信息社会已 经 进 入 了 大 数 据(BigData)时 代.大 数 据的涌现不仅改变着人们的生活与工作方式、企业 的运作 模 式,甚 至 还 引 起 科 学 研 究 模 式 的 根 本 性 改变. 一般意义上,大数据是指无法在一定时间内用 常规机器和软硬件工具对其进行感知、获取、管理、 处理和服务的数据集合[1] .网络大数据是指“人、机、 物”三元世 界 在 网 络 空 间(Cyberspace)中 彼 此 交 互 与融合所产生并在互联网上可获得的大数据,简称 网络数据. 当前,网络大数据在规模与复杂度上的快速增 长对现有IT 架 构 的 处 理 和 计 算 能 力 提 出 了 挑 战. 据著名咨询公司IDC发布的研究报告,2011年网络 大数据总量为1.8ZB,预计到2020年,总量将达到 35ZB. IBM 将大数据的特点总结为3个 V,即大量化 (Volume)、多 样 化(Variety)和 快 速 化(Velocity). 首先,网络空间中数据的体量不断扩大,数据集合的 规模已经从 GB、TB到了 PB,而网络大数据甚至以 EB和ZB(1021)等单位来计数.IDC的研究报告称, 未来十年全球大数据将增加50倍,管理数据仓库的 服务器的数量将增加10倍以迎合50倍的大数据增 长①.其次,网络大数据类型繁多,包括结构化数据、 半结构化数据和非结构化数据.在现代互联网应用 中,呈现出非结构化数据大幅增长的特点,至2012年 末非结构化数据占有比例达到互联网整个数据量的 75%以上.这些非结构化数据的产生往往伴随着社 交网络、移动计算和传感器等新技术的不断涌现和 应用.再次,网络大数据往往呈现出突发涌现等非线 性状态演变现象,因此难以对其变化进行有效评估 和预测.另一方面,网络大数据常常以数据流的形式 动态、快速地产生,具有很强的时效性,用户只有把 握好对数据流的掌控才能充分利用这些数据. 近几年,网络大数据越来越显示出巨大的影响 作用,正在改变着人们的工作与生活.2012年11月 《时代》杂志撰文指出奥巴马总统连任成功背后的秘 密,其中的关键是对过去两年来相关网络数据的搜 集、分析和挖掘②.目前,eBay的分析平台每天处理 的数据量高达100PB,超过了纳斯达克交易所每天 的数据处理量.为了准确分析用户的购物行为,eBay 定义了超过500种类型的数据,对顾客的行为进行 跟踪分析③.2012年的双十一,中国互联网再次发生 了最大规模的商业活动:淘宝系网站的销售总额达 到191亿元人民币.淘宝之所以能应对如此巨大的 交易量和超高并发性的分析需求,得益于其对往年 的情况,特别是用户的消费习惯、搜索习惯以及浏览 习惯等数据所进行的综合分析④. 网络大数据给学术界也同样带来了巨大的挑战 和机遇.网络 数 据 科 学 与 技 术 作 为 信 息 科 学、社 会 科学、网络科学和系统科学等相关领域交叉的新兴 学 科 方 向 正 逐 步 成 为 学 术 研 究 的 新 热 点.近 年, 《Nature》和《Science》等 刊 物 相 继 出 版 专 刊 来 探 讨 对大数据的研究.2008年《Nature》出版的专刊“Big Data”,从互联网技术、网络经济学、超级 计 算、环 境 科学和生物医药等多个方面介绍了海量数据带来的 挑战[2] .2011年《Science》推出关于数据处理的专刊 “DealingwithData”,讨论了数据洪流(DataDeluge) 所带来的机遇[3] .特别指出,倘若能够更有效地组织 和使用这些数据,人们将得到更多的机会发挥科学 技术对社会发展的巨大推动作用. 1.2 网络大数据研究的意义 总体而言,网络大数据研究的重要性体现在以 下几个方面: (1)网络大数据的研究对捍卫国家网络空间的 数字主权,维护社会稳定,推动社会与经济可持续发 展有着独特的作用.信息化时代,国家层面的竞争力 将部分体现为一国拥有网络大数据的规模、活性以 及对数据的解释与运用的能力.国家在网络空间的 数字主权也将是继海、陆、空、天四空间之后另一个 大国博弈的空间.在网络大数据领域的落后,意味着 失守产业战略制高点,意味着国家安全将在网络空 间出现漏洞.为此,今年3月,美国政府整合6个部 门投资2亿美元启动“大数据研究和发展计划”.在 该计划中,美国国家科学基金会提出要“形成一个包 括数学、统计基础和计算机算法的独特学科”.该计 划还强调,大数据技术事关美国的国家安全,影响科 学研究的步伐,还将引发教育和学习的变革.这意味 6211 计 算 机 学 报 2013年 ① ② ③ ④ http://www.emc.com/ http://swampland.time.com// http://www.china-cloud.com/ http://server.51cto.com/
6期 王元卓等:网络大数据:现状与展望 1127 着网络大数据的主权已上升为国家意志,直接影响 Gray)在他最后一次演讲中描绘了数据密集型科学 国家和社会的稳定,事关国家的战略安全, 研究的“第四范式”(The Fourth Paradigm),把数 (2)网络大数据是国民经济核心产业信息化升 据密集型科学从计算科学中单独区分开来.格雷认 级的重要推动力量.“人、机、物”三元世界的融合产 为,要解决我们面临的某些最棘手的全球性挑战, 生了大规模的数据,如何感知、测量、利用这些网络 “第四范式”可能是唯一具有系统性的方法 大数据成为国民经济中许多行业面临的共同难题, 网络大数据的深挖掘、大规模利用是新兴产业 成为这些行业数字化、信息化的障碍和藩篱.如何使 界的立足点.即便针对大数据的研究目前还没有建立 不同行业都能突破这一障碍,关键在于对网络大数 一套完整的理论体系,也缺少高效快速的处理、分析 据基本共性问题的解决,譬如,对于非结构化数据的 与挖掘的算法与范式,但大数据的应用前景毋庸置 统一表示与分析,目前缺少有效的方法和工具.因 疑,因为大数据从根本上来说就是来源于应用的问 此,通过对网络大数据共性问题的分析和研究,使企 题.著名出版公司O'Reilly的创始人Tim)'Reilly 业能够掌握网络大数据的处理能力或者能够承受网 断言,大数据就是下一个Intel Inside,未来属于那 络大数据处理的成本与代价,进而使整个行业迈入 些能把数据转换为产品的公司和人群.MGI的研究 数字化与信息化的新阶段.在这个意义上,对网络大 报告也宣称,大数据是下一代革新、竞争力和生产力 数据基础共性问题的解决将是新一代信息技术融合 的先导,网络大数据可为世界经济创造巨大价值,提 应用的新焦点,是信息产业持续高速增长的新引擎, 高企业和公共部门的生产率和竞争力,并为消费者 也是行业用户提升竞争能力的新动力. 创造巨大的经济利益.Gartner公司则更具体地预 (3)网络大数据在科学和技术上的突破,将可 测,到2015年,采用大数据和海量信息管理的公司 能诞生出数据服务、数据材料、数据制药等战略性新 将在各项财务指标上,超过未做准备的竞争对手 兴产业.网络数据科学与技术的突破意味着人们能 20% 够理清数据交互连接产生的复杂性,掌握数据冗余 本文梳理了网络大数据所带来的挑战以及相关 与缺失双重特征引起的不确定性,驾驭数据的高速 的研究体系,从网络空间感知与数据表示、网络大数 增长与交叉互连引起的涌现性(Emergence)),进 据存储与管理体系、网络数据挖掘和社会计算以及 而能够根据实际需求从网络数据中挖掘出其所蕴含 网络数据平台系统与应用4个方面回顾了相关领域 的信息、知识甚至是智慧,最终达到充分利用网络数 的新近发展,探讨了网络大数据研究方向和所面临 据价值的目的.涌现性是指由低层次的多个元素构 的挑战,并展望了未来的主要研究方向. 成高层次的系统时展示出的每个单一元素所不具备 的性质.网络数据不再是产业环节上产生的副产品, 2网络大数据带来的挑战 相反地,网络数据已成为联系各个环节的关键纽带. 通过对网络数据纽带的分析与掌握,可以降低行业 如上所述,网络大数据面临着来自诸多方面的 成本、促进行业效率、提升行业生产力.因此,可以预 挑战.但从研究的角度来说,根本挑战在于其复杂 见,在网络数据的驱动下,行业模式的革新将可能催 性、不确定性和涌现性.对这3个基本特性的研究决 生出数据材料、数据制造、数据能源、数据制药等一 定着网络大数据的发展趋势、研究进展和应用前景, 系列战略性的新兴产业. 2.1网络大数据的复杂性 (4)大数据引起了学术界对科学研究方法论的 复杂性造成网络大数据存储、分析、挖掘等多个 重新审视,正在引发科学研究思维与方法的一场革 环节的困难.网络大数据的复杂性主要包括数据类 命.科学研究最初只有实验科学,随后出现了理论科 型的复杂性、数据结构的复杂性和数据内在模式的 学,研究各种定律和定理.由于在许多问题上,理论 复杂性 分析方法变得太过复杂以至于难以解决难题,人们 (1)数据类型复杂性.信息技术的发展使得数 开始寻求模拟的方法,这又产生了计算科学.而大数 据产生的途径不断增加,数据类型持续增多.相应 据的出现催生了一种新的科研模式,即面对大数据, 地,则需要开发新的数据采集、存储与处理技术.例 科研人员只需从数据中直接查找、分析或挖掘所需 如社交网络的兴起,使得微博、SNS个人状态信息 要的信息、知识和智慧,甚至无需直接接触需研究的 等短文本数据逐渐成为互联网上的主要信息传播媒 对象.2007年,已故的图灵奖得主吉姆格雷(Jim 介,与传统的长文本不同,短文本由于长度短,上下 ?1994-2015 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
着网络大数据的主权已上升为国家意志,直接影响 国家和社会的稳定,事关国家的战略安全. (2)网络大数据是国民经济核心产业信息化升 级的重要推动力量.“人、机、物”三元世界的融合产 生了大规模的数据,如何感知、测量、利用这些网络 大数据成为国民经济中许多行业面临的共同难题, 成为这些行业数字化、信息化的障碍和藩篱.如何使 不同行业都能突破这一障碍,关键在于对网络大数 据基本共性问题的解决.譬如,对于非结构化数据的 统一表示与 分 析,目 前 缺 少 有 效 的 方 法 和 工 具.因 此,通过对网络大数据共性问题的分析和研究,使企 业能够掌握网络大数据的处理能力或者能够承受网 络大数据处理的成本与代价,进而使整个行业迈入 数字化与信息化的新阶段.在这个意义上,对网络大 数据基础共性问题的解决将是新一代信息技术融合 应用的新焦点,是信息产业持续高速增长的新引擎, 也是行业用户提升竞争能力的新动力. (3)网络大数据在科学和技术上的突破,将 可 能诞生出数据服务、数据材料、数据制药等战略性新 兴产业.网络数据科学与技术的突破意味着人们能 够理清数据交互连接产生的复杂性,掌握数据冗余 与缺失双重特征引起的不确定性,驾驭数据的高速 增长与交叉互连引起的涌现性(Emergence)[4],进 而能够根据实际需求从网络数据中挖掘出其所蕴含 的信息、知识甚至是智慧,最终达到充分利用网络数 据价值的目的.涌现性是指由低层次的多个元素构 成高层次的系统时展示出的每个单一元素所不具备 的性质.网络数据不再是产业环节上产生的副产品, 相反地,网络数据已成为联系各个环节的关键纽带. 通过对网络数据纽带的分析与掌握,可以降低行业 成本、促进行业效率、提升行业生产力.因此,可以预 见,在网络数据的驱动下,行业模式的革新将可能催 生出数据材料、数据制造、数据能源、数据制药等一 系列战略性的新兴产业. (4)大数据引起了学术界对科学研究方法论的 重新审视,正在引发科学研究思维与方法的一场革 命.科学研究最初只有实验科学,随后出现了理论科 学,研究各种定律和定理.由于在许多问题上,理论 分析方法变得太过复杂以至于难以解决难题,人们 开始寻求模拟的方法,这又产生了计算科学.而大数 据的出现催生了一种新的科研模式,即面对大数据, 科研人员只需从数据中直接查找、分析或挖掘所需 要的信息、知识和智慧,甚至无需直接接触需研究的 对象.2007 年,已 故 的 图 灵 奖 得 主 吉 姆 格 雷 (Jim Gray)在他最后一次演讲中描绘了数据密集型科学 研究的“第四范式”(TheFourthParadigm)[5],把数 据密集型科学从计算科学中单独区分开来.格雷认 为,要解决 我 们 面 临 的 某 些 最 棘 手 的 全 球 性 挑 战, “第四范式”可能是唯一具有系统性的方法. 网络大数据的深 挖 掘、大规模利用是新兴产业 界的立足点.即便针对大数据的研究目前还没有建立 一套完整的理论体系,也缺少高效快速的处理、分析 与挖掘的算法与范式,但大数据的应用前景毋庸置 疑,因为大数据从根本上来说就是来源于应用的问 题.著名出版公司 O’Reilly的创始人 Tim O’Reilly 断言,大数据 就 是 下 一 个IntelInside,未 来 属 于 那 些能把数据转换为产品的公司和人群.MGI的研究 报告也宣称,大数据是下一代革新、竞争力和生产力 的先导,网络大数据可为世界经济创造巨大价值,提 高企业和公共部门的生产率和竞争力,并为消费者 创造巨大 的 经 济 利 益.Gartner公 司 则 更 具 体 地 预 测,到2015年,采用大数据和海量信息管理的公司 将在各 项 财 务 指 标 上,超 过 未 做 准 备 的 竞 争 对 手 20%. 本文梳理了网络大数据所带来的挑战以及相关 的研究体系,从网络空间感知与数据表示、网络大数 据存储与管理体系、网络数据挖掘和社会计算以及 网络数据平台系统与应用4个方面回顾了相关领域 的新近发展,探讨了网络大数据研究方向和所面临 的挑战,并展望了未来的主要研究方向. 2 网络大数据带来的挑战 如上所述,网络大数据面临着来自诸多方面的 挑战.但从研 究 的 角 度 来 说,根 本 挑 战 在 于 其 复 杂 性、不确定性和涌现性.对这3个基本特性的研究决 定着网络大数据的发展趋势、研究进展和应用前景. 2.1 网络大数据的复杂性 复杂性造成网络大数据存储、分析、挖掘等多个 环节的困难.网络大数据的复杂性主要包括数据类 型的复杂性、数据结构的复杂性和数据内在模式的 复杂性. (1)数据 类 型 复 杂 性.信 息 技 术 的 发 展 使 得 数 据产生的途 径 不 断 增 加,数 据 类 型 持 续 增 多.相 应 地,则需要开发新的数据采集、存储与处理技术.例 如社交 网 络 的 兴 起,使 得 微 博、SNS个 人 状 态 信 息 等短文本数据逐渐成为互联网上的主要信息传播媒 介.与传统的长文本不同,短文本由于长度短,上下 6 期 王元卓等:网络大数据:现状与展望 7211
1128 计算机学报 2013年 文信息和统计信息很少,给传统的文本挖掘(如检 仍然存在很多不足(如对一些长尾词的查询,对二义 索、主题发现、语义和情感分析等)带来很大的困难 性查询词的理解等),都有待进一步提高,另外,网络 相关的研究包括利用外部数据源(如Wikipedia[o)、 大数据通常是高维的,往往会带来数据高度稀疏与 搜索结果[)等)扩充文档,或者利用内部相似文档信 维度灾难等问题.在这种情况下,由于数据模式统计 息来扩充短文本的表达[侧.然而,无论是利用外部数 显著性较弱,以往的统计学习方法多针对高频数据 据,还是利用内部数据,都可能引入更多的噪声,另 挖掘模式,因此难以产生令人满意的效果.近年来, 一方面,不同数据类型的有机融合给传统的数据处 受实际应用驱动,高维稀疏问题成为了统计学习领 理方法带来了新的挑战.例如在社交媒体的研究当 域的热点问题)].相关理论研究发现,基于稀疏表 中地域信息与内容的融合[]、时空信息与内容信息 达的学习方法(如LASS)等),在获得较好学习效 的结合[1o等等. 果的同时,还具有更高的效率和鲁棒性) (2)数据结构的复杂性,传统上处理的数据对 2.2网络大数据的不确定性 象都是有结构的,能够存储到关系数据库中,但随着 不确定性使得网络数据难以被建模和学习,从 数据生成方式的多样化,如社交网络、移动计算和传 而难以有效利用其价值.网络数据的不确定性包括 感器等技术,非结构化数据成为大数据的主流形式, 数据本身的不确定性、模型的不确定性和学习的不 非结构化数据具有许多格式,包括文本、文档、图形、 确定性 视频等等.非结构化数据当中蕴含着丰富的知识,但 (1)数据的不确定性.原始数据的不准确以及 其异构和可变的性质也给数据分析与挖掘工作带来 数据采集处理粒度、应用需求与数据集成和展示等 了更大的挑战.与结构化的数据相比,非结构化数据 因素使得数据在不同维度、不同尺度上都有不同程 相对组织凌乱,包含更多的无用信息,给数据的存储 度的不确定性.传统侧重于准确性数据的处理方法, 与分析带来很大的困难.目前相关的研究热点,包括 难以应对海量、高维、多类型的不确定性数据.具体 开发非关系型数据库(如Google的BigTable,开源 而言,在数据的采集、存储、建模、查询、检索、挖掘等 的HBase等)来存储非结构化数据.Google提出了 方面都需要有新的方法来应对不确定性的挑战) MapReduce计算框架,Yahoo!、Facebook等公司在 近年来,概率统计的方法被逐步应用于不确定性数 此基础上实现了Hadoop、Hive之类的分布式架构, 据的处理中,一方面,数据的不确定性要求我们使用 对非结构化数据做基本的分析工作.国内各大公司 不确定的方法加以应对:另一方面,计算机硬件的发 和科研单位也启动了用于支撑非结构化处理的基础 展也为这类方法提供了效率、效能上的可能.日前, 设施研发,如百度的云计算平台、中国科学院计算技 该领域研究尚浅,在学术界和产业界尚有大量问题 术研究所的凌云(LingCloud)系统等. 亟待解决. (3)数据模式的复杂性.随着数据规模的增大, (2)模型的不确定性,数据的不确定性要求对 描述和刻画数据的特征必然随之增大,而由其组成 数据的处理方式能够提出新的模型方法,并能够把 的数据内在模式将会以指数形式增长.首先,数据类 握模型的表达能力与复杂程度之间的平衡.在对不 型的多样化决定了数据模式的多样化.不仅需要熟 确定数据的建模和系统设计上,最常用且朴素的观 悉各种类型的数据模式,同时也要善于把握它们之 点是“可能世界模型[).该观点认为,在一定的结 间的相互作用.这种面向多模式学习的研究需要综 构规范下,应将数据的每一种状态都加以刻画.但该 合利用各个方面的知识(如文本挖掘、图像处理、信 种模型过于复杂,难以用一种通用的模型结构来适 息网络、甚至社会学等等).为此,Sun提出用网络 应具体的应用需求.在实际应用中,我们往往采取简 来描述异质数据间的关系,同时提出了“元路径 化的模型刻画不确定性数据的特性,如独立性假设、 (Meta-Path)”的概率来刻画目标数据模式[叮.这 同分布假设等等.尤其值得注意的是,概率图模 样,通过定义合适的元路径,便可在数据网络中挖掘 型]由于具有很强的表达能力而且可对数据相关 有价值的模式.其次,非结构化的数据通常比结构化 性进行建模,因此已被广泛应用在不确定数据的建 数据蕴含更多的无用信息和噪声,网络数据需要高 模领域。另外,在数据的管理和挖掘上面,不确定性 效鲁棒的方法来实现去粗存精,去冗存真.搜索引擎 模型的构建应当考虑到数据的查询、检索、传输、展 就是从无结构化数据中检索出有用信息的一种工 示等方面的影响门 具,尽管搜索技术在工业上已经取得极大的成功,但 (3)学习的不确定性.数据模型通常都需要对 ?1994-2015 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
文信息和统 计 信 息 很 少,给 传 统 的 文 本 挖 掘(如 检 索、主题发现、语义和情感分析等)带来很大的困难. 相关的研究包括利用 外 部 数 据 源(如 Wikipedia[6]、 搜索结果[7]等)扩充文档,或者利用内部相似文档信 息来扩充短文本的表达[8] .然而,无论是利用外部数 据,还是利用内部数据,都可能引入更多的噪声.另 一方面,不同数据类型的有机融合给传统的数据处 理方法带来了新的挑战.例如在社交媒体的研究当 中地域信息与内容的融合[9]、时空信息与内容信息 的结合[10]等等. (2)数据结构的复杂性.传 统 上 处 理 的 数 据 对 象都是有结构的,能够存储到关系数据库中.但随着 数据生成方式的多样化,如社交网络、移动计算和传 感器等技术,非结构化数据成为大数据的主流形式. 非结构化数据具有许多格式,包括文本、文档、图形、 视频等等.非结构化数据当中蕴含着丰富的知识,但 其异构和可变的性质也给数据分析与挖掘工作带来 了更大的挑战.与结构化的数据相比,非结构化数据 相对组织凌乱,包含更多的无用信息,给数据的存储 与分析带来很大的困难.目前相关的研究热点,包括 开发非关系型数据库(如 Google的 BigTable,开源 的 HBase等)来存储非结构化数据.Google提出了 MapReduce计算框架,Yahoo!、Facebook等公司在 此基础上实现了 Hadoop、Hive之类的分布式架构, 对非结构化数据做基本的分析工作.国内各大公司 和科研单位也启动了用于支撑非结构化处理的基础 设施研发,如百度的云计算平台、中国科学院计算技 术研究所的凌云(LingCloud)系统等. (3)数据模式的复杂性.随着数据规模的增大, 描述和刻画数据的特征必然随之增大,而由其组成 的数据内在模式将会以指数形式增长.首先,数据类 型的多样化决定了数据模式的多样化.不仅需要熟 悉各种类型的数据模式,同时也要善于把握它们之 间的相互作用.这种面向多模式学习的研究需要综 合利用各个方面的知识(如文本挖掘、图像处理、信 息网络、甚 至 社 会 学 等 等).为 此,Sun 提 出 用 网 络 来描述异质数据间 的关系,同 时 提 出 了 “元 路 径 (Meta-Path)”的 概 率 来 刻 画 目 标 数 据 模 式[11] .这 样,通过定义合适的元路径,便可在数据网络中挖掘 有价值的模式.其次,非结构化的数据通常比结构化 数据蕴含更多的无用信息和噪声,网络数据需要高 效鲁棒的方法来实现去粗存精,去冗存真.搜索引擎 就是从无结 构 化 数 据 中 检 索 出 有 用 信 息 的 一 种 工 具.尽管搜索技术在工业上已经取得极大的成功,但 仍然存在很多不足(如对一些长尾词的查询,对二义 性查询词的理解等),都有待进一步提高.另外,网络 大数据通常是高维的,往往会带来数据高度稀疏与 维度灾难等问题.在这种情况下,由于数据模式统计 显著性较弱,以往的统计学习方法多针对高频数据 挖掘模式,因此难以产生令人满意的效果.近年来, 受实际应用驱动,高维稀疏问题成为了统计学习领 域的热点问 题[12] .相 关 理 论 研 究 发 现,基 于 稀 疏 表 达的学习方 法(如 LASSO 等),在 获 得 较 好 学 习 效 果的同时,还具有更高的效率和鲁棒性[13] . 2.2 网络大数据的不确定性 不确定性使得网络数据难以被建模和学习,从 而难以有效利用其价值.网络数据的不确定性包括 数据本身的不确定性、模型的不确定性和学习的不 确定性. (1)数据 的 不 确 定 性.原 始 数 据 的 不 准 确 以 及 数据采集处理粒度、应用需求与数据集成和展示等 因素使得数据在不同维度、不同尺度上都有不同程 度的不确定性.传统侧重于准确性数据的处理方法, 难以应对海量、高维、多类型的不确定性数据.具体 而言,在数据的采集、存储、建模、查询、检索、挖掘等 方面都需要有新的方法来应对不确定性的挑战[14] . 近年来,概率统计的方法被逐步应用于不确定性数 据的处理中.一方面,数据的不确定性要求我们使用 不确定的方法加以应对;另一方面,计算机硬件的发 展也为这类方法提供了效率、效能上的可能.目前, 该领域研究尚浅,在学术界和产业界尚有大量问题 亟待解决. (2)模型 的 不 确 定 性.数 据 的 不 确 定 性 要 求 对 数据的处理方式能够提出新的模型方法,并能够把 握模型的表达能力与复杂程度之间的平衡.在对不 确定数据的建模和系统设计上,最常用且朴素的观 点是“可能 世 界 模 型”[15] .该 观 点 认 为,在 一 定 的 结 构规范下,应将数据的每一种状态都加以刻画.但该 种模型过于复杂,难以用一种通用的模型结构来适 应具体的应用需求.在实际应用中,我们往往采取简 化的模型刻画不确定性数据的特性,如独立性假设、 同分 布 假 设 等 等.尤 其 值 得 注 意 的 是,概 率 图 模 型[16]由于具有 很 强 的 表 达 能 力 而 且 可 对 数 据 相 关 性进行建模,因此已被广泛应用在不确定数据的建 模领域.另外,在数据的管理和挖掘上面,不确定性 模型的构建应当考虑到数据的查询、检索、传输、展 示等方面的影响[17] . (3)学习 的 不 确 定 性.数 据 模 型 通 常 都 需 要 对 8211 计 算 机 学 报 2013年
6期 王元卓等:网络大数据:现状与展望 1129 模型参数进行学习,然而,在很多情况下找到模型的 并发现每个人连发两封邮件之间的时间间隔涌现出 最优解是P问题,甚至找到一个局部最优解都很 幂率分布特征.此外,自然界和社会中个体之间不同 困难,因此很多学习问题都采用近似的、不确定的方 的竞争模式会导致不同的同步状态的涌现性 法来寻找一个相对不错的解.但在大数据的背景下, (3)智慧的涌现性.网络数据在没有全局控制 传统近似的、不确定的学习方法需要面对规模和时 和预先定义的情况下,通过对来自大量自发个体的 效的挑战.随着多核CPU/GPU的普及以及并行计 语义进行互相融合和连接而形成语义,整个过程随 算框架的研究,分而治之的方法被普遍认为是解决 着数据的变化而持续演进,从而形成网络数据的涌 网络大数据问题一条必由之路.如何将近似的、不确 现语义,也可以称之为智慧涌现.作为一种特殊的智 定的学习方法拓展到这种框架上成为当前研究的重 慧涌现形式,众包正在通过互联网和社会网络快速 点.近年来,不少高校和研究机构,在该领域做出了 发展,成为一种新的商业模式、新的数据产生模式和 探索.如在矩阵分解运算中对数据进行分块的计算 新的数据处理协作模式, 方法能够利用多台机器并行计算,从而提高数据的 总体而言,尽管与网络大数据研究密切相关的 处理速度11町.此外,除了学习模型参数值的不确定 数据库、数据挖掘、机器学习和知识工程等领域近些 外,模型的复杂性和参数个数也受到不同领域、不同 年来都有很大的进展,甚至在许多不同的领域得到 数据类型和应用需求的影响而不能提前确定,近年 了深入的应用,但由于网络大数据规模海量、关系复 来,在统计学习领域,非参模型方法的提出[20]为自 杂等根本特性,使得相关领域的研究成果难以被直 动学习出模型复杂度和参数个数提供了一种思路. 接借鉴于网络大数据的研究,因此,网络大数据的研 但该类模型计算上较为复杂,如何分布式地、并行地 究需要一套全新的理论和方法来进行方向性的指 应用到网络大数据的处理上,还是一个开放问题. 导.但到目前为止,甚至连大数据的精确定义还缺乏 2.3网络大数据的涌现性 一个统一的标准.网络大数据科学与技术这门学科 涌现性是网络数据有别于其它数据的关键特 的内涵和外延还缺乏严格的限定和详实的论证:在 性.涌现性在度量、研判与预测上的困难使得网络数 大数据的环境下,传统“假设、模型、检验”的科学方 据难以被驾驭,网络数据的涌现性主要表现为模式 法受到质疑,从“数据”到“数据”的第四范式还没有 的涌现性、行为的涌现性和智慧的涌现性, 建立,需要一个完备的新的理论体系来指导该学科 (1)模式的涌现性,在多尺度、异质关系的网络 的发展和研究 数据中,由于不同的数据在属性、功能等方面既存在 差异又相互关联,因此使网络大数据在结构、功能等 3网络空间感知与数据表示 方面涌现出了局部结构所不具备的特定模式特征, 在结构方面,数据之间不同的关联程度使得数据构 网络数据具有跨媒体关联、强时效演变、多主体 成的网络涌现出模块结构.在功能方面,网络在演化 互动等特点,使得我们对网络大数据的态势感知、质 过程中会自发地形成相互分离的连通小块[222),这 量评估、融合表示等均面临新的问题. 一涌现性结果对于研究更多的社会网络模型和理解 3.1网络大数据的感知与获取 网络瓦解失效的发生有着重要意义, 按照网络空间中数据的蕴藏深度,整个网络空 (2)行为的涌现性.随着数据采集技术的不断 间可以划分为Surface Web和Deep Web],或称 发展,人们得到的很多数据都具有时序性,而社会网 作Hidden Webtz].Surface Web是指Web中通过 络中个体行为的涌现性则是基于数据时序分布的统 超链接可被传统搜索引擎爬取到的静态页面,而 计结果.在社会网络中有较大相似性的个体之间容 Deep Web则由Web中可在线访问的数据库组成. 易建立社会关系.通过研究Schelling给出的个体社 Deep Web的数据隐藏在Web数据库提供的查询接 会关系网络模型发现,网络在演化过程中会自发地 口后面,只有通过向查询接口提交查询才能获得.与 形成相互分离的连通块,这一个体行为涌现的结果 Surface Web相比,Deep Web所包含的信息更丰 不依赖于初始网络的拓扑结构,对于研究更多的社 富.同时,Deep Web具有规模大、实时动态变化、异 会网络模型和理解行为涌现的规律具有重要意 构性、分布性以及访问方式特殊等特点.为了充分利 义[2].著名网络科学家Barabasi研究发现,人们发 用Deep Web中的数据资源,需要充分获取Deep 邮件的数量在一天的某些时刻会出现“爆发”现象, Wb中高质量的数据并予以集成,整个集成过程可 ?1994-2015 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
模型参数进行学习.然而,在很多情况下找到模型的 最优解是 NP问题,甚至找 到 一 个 局 部 最 优 解 都 很 困难.因此很多学习问题都采用近似的、不确定的方 法来寻找一个相对不错的解.但在大数据的背景下, 传统近似的、不确定的学习方法需要面对规模和时 效的挑战.随着多核 CPU/GPU 的普及以及并行计 算框架的研究,分而治之的方法被普遍认为是解决 网络大数据问题一条必由之路.如何将近似的、不确 定的学习方法拓展到这种框架上成为当前研究的重 点.近年来,不少高校和研究机构,在该领域做出了 探索.如在矩阵分解运算中对数据进行分块的计算 方法能够利用多台机器并行计算,从而提高数据的 处理速度[18-19] .此外,除了学习模型参数值的不确定 外,模型的复杂性和参数个数也受到不同领域、不同 数据类型和应用需求的影响而不能提前确定.近年 来,在统计学习领域,非参模型方法的提出[20-21]为自 动学习出模型复杂度和参数个数提供了一种思路. 但该类模型计算上较为复杂,如何分布式地、并行地 应用到网络大数据的处理上,还是一个开放问题. 2.3 网络大数据的涌现性 涌 现 性 是 网 络 数 据 有 别 于 其 它 数 据 的 关 键 特 性.涌现性在度量、研判与预测上的困难使得网络数 据难以被驾驭.网络数据的涌现性主要表现为模式 的涌现性、行为的涌现性和智慧的涌现性. (1)模式的涌现性.在多尺度、异质关系的网络 数据中,由于不同的数据在属性、功能等方面既存在 差异又相互关联,因此使网络大数据在结构、功能等 方面涌现出了局部结构所不具备的特定模式特征. 在结构方面,数据之间不同的关联程度使得数据构 成的网络涌现出模块结构.在功能方面,网络在演化 过程中会自发地形成相互分离的连通小块[22-24] .这 一涌现性结果对于研究更多的社会网络模型和理解 网络瓦解失效的发生有着重要意义. (2)行为 的 涌 现 性.随 着 数 据 采 集 技 术 的 不 断 发展,人们得到的很多数据都具有时序性,而社会网 络中个体行为的涌现性则是基于数据时序分布的统 计结果.在社会网络中有较大相似性的个体之间容 易建立社会关系.通过研究Schelling给出的个体社 会关系网络模型发现,网络在演化过程中会自发地 形成相互分离的连通块,这一个体行为涌现的结果 不依赖于初始网络的拓扑结构,对于研究更多的社 会网络模型和理解行为涌现的 规 律 具 有 重 要 意 义[25] .著名网络 科 学 家 Barabasi研 究 发 现,人 们 发 邮件的数量在一天的某些时刻会出现“爆发”现象, 并发现每个人连发两封邮件之间的时间间隔涌现出 幂率分布特征.此外,自然界和社会中个体之间不同 的竞争模式会导致不同的同步状态的涌现性. (3)智慧 的 涌 现 性.网 络 数 据 在 没 有 全 局 控 制 和预先定义的情况下,通过对来自大量自发个体的 语义进行互相融合和连接而形成语义,整个过程随 着数据的变化而持续演进,从而形成网络数据的涌 现语义,也可以称之为智慧涌现.作为一种特殊的智 慧涌现形式,众包正在通过互联网和社会网络快速 发展,成为一种新的商业模式、新的数据产生模式和 新的数据处理协作模式. 总体而言,尽管与网络大数据研究密切相关的 数据库、数据挖掘、机器学习和知识工程等领域近些 年来都有很大的进展,甚至在许多不同的领域得到 了深入的应用,但由于网络大数据规模海量、关系复 杂等根本特性,使得相关领域的研究成果难以被直 接借鉴于网络大数据的研究.因此,网络大数据的研 究需要一套全新的理论和方法来进行方向性的指 导.但到目前为止,甚至连大数据的精确定义还缺乏 一个统一的标准.网络大数据科学与技术这门学科 的内涵和外延还缺乏严格的限定和详实的论证;在 大数据的环境下,传统“假设、模型、检验”的科学方 法受到质疑,从“数据”到“数据”的第四范式还没有 建立,需要一个完备的新的理论体系来指导该学科 的发展和研究. 3 网络空间感知与数据表示 网络数据具有跨媒体关联、强时效演变、多主体 互动等特点,使得我们对网络大数据的态势感知、质 量评估、融合表示等均面临新的问题. 3.1 网络大数据的感知与获取 按照网络空间中数据的蕴藏深度,整个网络空 间可 以 划 分 为 Surface Web和 Deep Web[26],或 称 作 Hidden Web[27] .Surface Web是 指 Web中 通 过 超链接可被传统搜索引擎爬取到的静 态页面,而 Deep Web则由 Web中可在线访问的数据库组成. DeepWeb的数据隐藏在 Web数据库提供的查询接 口后面,只有通过向查询接口提交查询才能获得.与 SurfaceWeb相 比,Deep Web 所 包 含 的 信 息 更 丰 富.同时,Deep Web具有规模大、实时动态变化、异 构性、分布性以及访问方式特殊等特点.为了充分利 用 Deep Web 中 的 数 据 资 源,需 要 充 分 获 取 Deep Web中高质量的数据并予以集成,整个集成过程可 6 期 王元卓等:网络大数据:现状与展望 9211