战略与决策研 Strategy Policy Decisior 大数据研究:未来科技 及经济社会发展的重大战略领域 大数据的研究现状与科学思考 文/李国杰程学旗 中国科学院计算技术研究所北京100190 【摘要】近来,大数据引起了产业界、科技界和政府部门的高度关注。本文简要 阐述了大数据的研究现状与重大意义,探讨了大数据的科学问题,介绍了大数据 应用与研究所面临的问题与挑战。最后,对大数据发展战略提出了几点建议。 【关键词】大数据,数据科学,数据工程,第四范式 DOI10.3969/isn.1000-30452012.06.001 近年来,大数据引起了产业界、科技界|学等)的研究产生了越来越多的数据。例 和政府部门的高度关注。2012年3月22如,用电子显微镜重建大脑中的突触网络,1 ,奥巴马宣布美国政府投资2亿美元启动立方毫米大脑的图像数据就超过PB。但 “大数据研究和发展计划 Big Data Re-近年来大数据的飙升主要还是来自日常生 search and Development Initiative)”。这是活,特别是互联网公司的服务。据著名咨询 继1993年美国宣布“信息高速公路”计划后公司DDC的统计,2011年全球被创建和复制 的又一次重大科技发展部署。美国政府认的数据总量为1.8ZB(10的21次方),其中 为,大数据是“未来的新石油”,并将对大数75%来自于个人(主要是图片、视频和音 据的研究上升为国家意志,这对未来的科技乐),远远超过人类有史以来所有印刷材料 与经济发展必将带来深远影响。 的数据总量(200PB)叫。 Google公司通过 大规模集群和 Mapreduce软件,每月处理 1何谓大数据 的数据量超过400PB:百度每天大约要处理 人、机、物三元世界的高度融合引发了几十PB数据: Facebow注册用户超过10 数据规模的爆炸式增长和数据模式的高度亿,每月上传的照片超过10亿张,每天生成 复杂化,世界已进入网络化的大数据Bg30B以上的日志数据:淘宝网会员超过 Data时代。以数据为中心的传统学科37亿,在线商品超过88亿,每天交易数千 (如基因组学、蛋白组学,天体物理学和脑科万笔,产生约20TB数据。传感网和物联网 *修改稿收到日期:2012年11月12日 的蓬勃发展是大数据的又一推动力,各个城 中子汽院刊 C1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
院刊 * 修改稿收到日期:2012年11月12日 647 【摘 要】 近来,大数据引起了产业界、科技界和政府部门的高度关注。本文简要 阐述了大数据的研究现状与重大意义,探讨了大数据的科学问题,介绍了大数据 应用与研究所面临的问题与挑战。最后,对大数据发展战略提出了几点建议。 【关键词】 大数据,数据科学,数据工程,第四范式 DOI 10.3969/j.issn.1000-3045.2012.06.001 文 / 李国杰 程学旗 中国科学院计算技术研究所 北京 100190 战略与决策研究 大数据研究:未来科技 及经济社会发展的重大战略领域 ——大数据的研究现状与科学思考* Strategy & Policy Decision Research 近年来,大数据引起了产业界、科技界 和政府部门的高度关注。2012 年 3 月 22 日,奥巴马宣布美国政府投资2亿美元启动 “ 大 数 据 研 究 和 发 展 计 划(Big Data Research and Development Initiative)”。这是 继1993年美国宣布“信息高速公路”计划后 的又一次重大科技发展部署。美国政府认 为,大数据是“未来的新石油”,并将对大数 据的研究上升为国家意志,这对未来的科技 与经济发展必将带来深远影响。 1 何谓大数据 人、机、物三元世界的高度融合引发了 数据规模的爆炸式增长和数据模式的高度 复杂化,世界已进入网络化的大数据(Big Data)时代[1,16] 。以数据为中心的传统学科 (如基因组学、蛋白组学,天体物理学和脑科 学等)的研究产生了越来越多的数据。例 如,用电子显微镜重建大脑中的突触网络,1 立方毫米大脑的图像数据就超过 1PB。但 近年来大数据的飙升主要还是来自日常生 活,特别是互联网公司的服务。据著名咨询 公司IDC的统计,2011年全球被创建和复制 的数据总量为 1.8ZB(10 的 21 次方),其中 75%来自于个人(主要是图片、视频和音 乐),远远超过人类有史以来所有印刷材料 的数据总量(200PB)[11] 。Google 公司通过 大规模集群和 MapReduce 软件,每月处理 的数据量超过400PB;百度每天大约要处理 几十 PB 数据;Facebook 注册用户超过 10 亿,每月上传的照片超过10亿张,每天生成 300TB 以上的日志数据;淘宝网会员超过 3.7 亿,在线商品超过 8.8 亿,每天交易数千 万笔,产生约20TB数据。传感网和物联网 的蓬勃发展是大数据的又一推动力,各个城
市的视频监控每时每刻都在采集巨量的流媒体数| Facebook等跨国巨头是发展大数据处理技术的主 据。工业设备的监控也是大数据的重要来源。例要推动者。自2005年以来,IBM投资160亿美元 如,劳斯莱斯公司对全世界数以万计的飞机引擎进行了30次与大数据有关的收购,促使其业绩稳 进行实时监控,每年传送PB数量级的数据 定高速增长。2012年,IBM股价突破200美元大 一般意义上,大数据是指无法在可容忍的时关,3年之内股价翻了3倍。华尔街早就开始招聘 间内用传统技术和软硬件工具对其进行感知、精通数据分析的天文学家和理论数学家来设计金 获取、管理、处理和服务的数据集合。大数据的特融产品。IBM现在是全球数学博士的最大雇主 8点可以总结为4个V,即 Volume(体量浩大)、Mri 数学家正在将其数据分析的才能应用于石油勘 房ey(模态繁多)、 velocity(生成快速)和wae价值探、医疗健康等各个领域。eBay通过数据挖掘可 巨大但密度很低)。首先,数据集合的规模不断护精确计算出广告中的每一个关键字为公司带来的 大,已从GB到TB再到PB级,甚至开始以EB和回报,通过对广告投放的优化207年以来eB ZB来计数。IDC的研究报告称,未来10年全球大产品销售的广告费降低了99%,而顶级卖家占总 数据将增加50倍,管理数据仓库的服务器数量将销售额的百分比却上升至3%.日前推动大数据 增加10倍叫,其次,大数据类型繁多,包括结构化研究的动力主要是企业经济效益,巨大的经济利 数据、半结构化数据和非结构化数据。现代互联益驱使大企业不断扩大数据处理规模sn 网应用呈现出非结构化数据大幅增长的特点,至 近几年, Nature和 Science等国际顶级学术刊 2012年末,非结构化数据占有比例将达到整个数物相继出版专刊来专门探讨对大数据的研究 据量的75%以上。同时,由于数据显性或隐性的2008年Nare出版专刊“ "Big Data"6,从互联网技 网络化存在,使得数据之间的复杂关联无所不术、网络经济学、超级计算、环境科学、生物医药等 在。再次,大数据往往以数据流的形式动态、快速多个方面介绍了海量数据带来的挑战。2011年 地产生,具有很强的时效性,用户只有把握好对数Scnc推出关于数据处理的专刊 Dealing with da 据流的掌控才能有效利用这些数据。另外,数据am,讨论了数据洪流 Data Deluge所带来的挑 自身的状态与价值也往往随时空变化而发生演战,特别指出,倘若能够更有效地组织和使用这些 变,数据的涌现特征明显。最后,虽然数据的价值数据,人们将得到更多的机会发挥科学技术对社 巨大,但是基于传统思维与技术,人们在实际环境会发展的巨大推动作用。2012年4月欧洲信息学 中往往面临信息泛滥而知识匮乏的窘态,大数据与数学研究协会会刊 ERCIM News出版专刊“Bg 的价值利用密度低 ata,讨论了大数据时代的数据管理、数据密集 型研究的创新技术等问题,并介绍了欧洲科研机 2大数据已引起高度关注 构开展的研究活动和取得的创新性进展。在这样 毫无疑问,大数据隐含着巨大的社会经济、的大背景下,2012年5月,香山科学会议组织了以 科研价值,已引起了各行各业的高度重视叫。“大数据科学与工程 门新兴的交叉学科?” 如果能有效地组织和使用大数据,将对社会经济为主题的第424次学术讨论会,来自国内外35个 和科学研究发展产生巨大的推动作用,同时也孕单位横跨II、经济、管理、社会、生物等多个不同学 育着前所未有的机遇。著名的ORy公司断言:科领域的43位专家代表参会,并就大数据的理论 “数据是下一个 ntel Inside’,未来属于将数据转与工程技术研究、应用方向以及大数据研究的组 换成产品的公司和人们。 织方式与资源支持形式等重要问题进行了深入讨 IBM、 Oracle、 Microsoft、 Google、 Amazon、论。6月,中国计算机学会青年计算机科技论坛 6482012年·第27卷·第6期 C1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
2012年 . 第27卷 . 第6期 战略与决策研究 Strategy & Policy Decision Research 648 市的视频监控每时每刻都在采集巨量的流媒体数 据。工业设备的监控也是大数据的重要来源。例 如,劳斯莱斯公司对全世界数以万计的飞机引擎 进行实时监控,每年传送PB数量级的数据。 一般意义上,大数据是指无法在可容忍的时 间内用传统IT技术和软硬件工具对其进行感知、 获取、管理、处理和服务的数据集合。大数据的特 点可以总结为4个V,即Volume(体量浩大)、Variety(模态繁多)、Velocity(生成快速)和Value(价值 巨大但密度很低)。首先,数据集合的规模不断扩 大,已从 GB 到 TB 再到 PB 级,甚至开始以 EB 和 ZB来计数。IDC的研究报告称,未来10年全球大 数据将增加50倍,管理数据仓库的服务器数量将 增加10倍[11] 。其次,大数据类型繁多,包括结构化 数据、半结构化数据和非结构化数据。现代互联 网应用呈现出非结构化数据大幅增长的特点,至 2012年末,非结构化数据占有比例将达到整个数 据量的 75%以上。同时,由于数据显性或隐性的 网络化存在,使得数据之间的复杂关联无所不 在。再次,大数据往往以数据流的形式动态、快速 地产生,具有很强的时效性,用户只有把握好对数 据流的掌控才能有效利用这些数据。另外,数据 自身的状态与价值也往往随时空变化而发生演 变,数据的涌现特征明显。最后,虽然数据的价值 巨大,但是基于传统思维与技术,人们在实际环境 中往往面临信息泛滥而知识匮乏的窘态,大数据 的价值利用密度低。 2 大数据已引起高度关注 毫无疑问,大数据隐含着巨大的社会、经济、 科研价值,已引起了各行各业的高度重视[14,15,17] 。 如果能有效地组织和使用大数据,将对社会经济 和科学研究发展产生巨大的推动作用,同时也孕 育着前所未有的机遇。著名的O'Reilly公司断言: “数据是下一个‘Intel Inside’,未来属于将数据转 换成产品的公司和人们。” IBM、Oracle、Microsoft、Google、Amazon、 Facebook等跨国巨头是发展大数据处理技术的主 要推动者。自 2005 年以来,IBM 投资 160 亿美元 进行了30次与大数据有关的收购,促使其业绩稳 定高速增长。2012 年,IBM 股价突破 200 美元大 关,3年之内股价翻了3倍。华尔街早就开始招聘 精通数据分析的天文学家和理论数学家来设计金 融产品。IBM 现在是全球数学博士的最大雇主, 数学家正在将其数据分析的才能应用于石油勘 探、医疗健康等各个领域。eBay通过数据挖掘可 精确计算出广告中的每一个关键字为公司带来的 回报。通过对广告投放的优化,2007年以来eBay 产品销售的广告费降低了 99%,而顶级卖家占总 销售额的百分比却上升至32%。目前推动大数据 研究的动力主要是企业经济效益,巨大的经济利 益驱使大企业不断扩大数据处理规模[14,15,17] 。 近几年,Nature 和 Science 等国际顶级学术刊 物相继出版专刊来专门探讨对大数据的研究[6-9] 。 2008 年 Nature 出版专刊“Big Data”[6] ,从互联网技 术、网络经济学、超级计算、环境科学、生物医药等 多个方面介绍了海量数据带来的挑战。2011 年 Science推出关于数据处理的专刊“Dealing with da⁃ ta”[7] ,讨论了数据洪流(Data Deluge)所带来的挑 战,特别指出,倘若能够更有效地组织和使用这些 数据,人们将得到更多的机会发挥科学技术对社 会发展的巨大推动作用。2012年4月欧洲信息学 与数学研究协会会刊 ERCIM News 出版专刊“Big Data”[9] ,讨论了大数据时代的数据管理、数据密集 型研究的创新技术等问题,并介绍了欧洲科研机 构开展的研究活动和取得的创新性进展。在这样 的大背景下,2012年5月,香山科学会议组织了以 “大数据科学与工程——一门新兴的交叉学科?” 为主题的第 424 次学术讨论会,来自国内外 35 个 单位横跨IT、经济、管理、社会、生物等多个不同学 科领域的43位专家代表参会,并就大数据的理论 与工程技术研究、应用方向以及大数据研究的组 织方式与资源支持形式等重要问题进行了深入讨 论。6 月,中国计算机学会青年计算机科技论坛
■大数据的研究现状与科学思考 ( CCF YOCSEF举办了“大数据时代,智谋|现。大数据时代,国家层面的竟争力将部分 未来学术报告会,就大数据时代的数据挖体现为一国拥有大数据的规模、活性以及对 掘、体系架构理论、大数据安全、大数据平台数据的解释、运用的能力。一个国家在网络 开发与大数据现实案例进行了全面的讨空间的数据主权将是继海、陆、空、天之后另 论。总体而言,大数据技术及相应的基础研一个大国博弈的空间。在大数据领域的落 究已经成为科技界的研究热点,大数据科学后,意味着失守产业战略制高点,意味着数 作为一个横跨信息科学、社会科学、网络科字主权无险可守,意味着国家安全将出现漏 学、系统科学、心理学、经济学等诸多领域的洞。大数据将直接影响国家和社会稳定,是 新兴交叉学科方向正在逐步形成。 关系国家安全的战略性问题。因此,我国应 大数据同时也引起了包括美国在内的尽快研究并制定我们国家的大数据战略。 许多国家政府的极大关注。如前所述,2012 大数据是现有产业升级与新产业诞生 年3月,美国公布了“大数据研发计划。的重要推动力量。数据为王的大数据时代 该计划旨在提高和改进人们从海量和复杂的到来产业界需求与关注点发生了重大转 的数据中获取知识的能力进而加速美国在变:企业关注的重点转向数据,计算机行业 科学与工程领域发明的步伐,增强国家安正在转变为真正的信息行业,从追求计算速 全。根据该计划,美国国家科学基金会度转变为关注大数据处理能力,软件也将从 NSP)、国立卫生研究院NHD、国防部编程为主转变为以数据为中心。大数据处 DOD)能源部①OE、国防部高级研究计理的兴起也改变了云计算的发展方向,使其 划局DAR、地质勘探局(SGs)6个联进入以分析即服务(Aas为主要标志的 邦部门和机构共同提高收集储存保留、管cod20时代。采用大数据处理方法,生物 理分析和共享海量数据所需的核心技术,制药新材料研制生产的流程会发生革命性 扩大大数据技术开发和应用所需人才的供的变化,可以通过数据处理能力极高的计算 给,该计划还强调,大数据技术事关美国国机并行处理,同时进行大批量的仿真比较和 家安全、科学和研究的步伐,将引发教育和筛选,大大提高科研和生产效率,甚至使整 学习的变革。欧盟方面也有类似的举措。个行业迈入数字化与信息化的新阶段。数 过去几年欧盟已对科学数据基础设施投资据已成为与矿物和化学元素一样的原始材 1亿多欧元,并将数据信息化基础设施作为料,未来可能形成数据服务数据探矿、数据 Hn2020计划的优先领域之一。2012化学、数据材料、数据制药等一系列战略性 年1月截止的预算为5000万欧元的FP7的新兴产业 Cal8专门征集针对大数据的研究项目,仍 大数据还引起了科技界对科学研究方 以基础设施为先导纵观国际形势,对大法论的重新审视,正在引发科学研究思维与 数据的研究与应用己引起各国政府的高度方法的一场革命。最早的科学研究只有实 重视,并已成为重要的战略布局方向 验科学,随后出现了以研究各种定律和定理 3大数据研究的重大意义 为特征的理论科学。由于理论分析方法在 大数据是与自然资源、人力资源一样重 许多问题上过于复杂,难以解决实际问题, 人们开始寻求模拟的方法,导致计算科学的 要的战略资源,是一个国家数字主权的体 中阉縛找院刊【64 C1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
院刊 大数据的研究现状与科学思考 649 (CCF YOCSEF)举办了“大数据时代,智谋 未来”学术报告会,就大数据时代的数据挖 掘、体系架构理论、大数据安全、大数据平台 开发与大数据现实案例进行了全面的讨 论。总体而言,大数据技术及相应的基础研 究已经成为科技界的研究热点,大数据科学 作为一个横跨信息科学、社会科学、网络科 学、系统科学、心理学、经济学等诸多领域的 新兴交叉学科方向正在逐步形成。 大数据同时也引起了包括美国在内的 许多国家政府的极大关注。如前所述,2012 年 3 月,美国公布了“大数据研发计划”[13] 。 该计划旨在提高和改进人们从海量和复杂 的数据中获取知识的能力,进而加速美国在 科学与工程领域发明的步伐,增强国家安 全。根据该计划,美国国家科学基金会 (NSF)、国立卫生研究院(NIH)、国防部 (DOD)、能源部(DOE)、国防部高级研究计 划局(DARPA)、地质勘探局(USGS)6 个联 邦部门和机构共同提高收集、储存、保留、管 理、分析和共享海量数据所需的核心技术, 扩大大数据技术开发和应用所需人才的供 给。该计划还强调,大数据技术事关美国国 家安全、科学和研究的步伐,将引发教育和 学习的变革。欧盟方面也有类似的举措。 过去几年欧盟已对科学数据基础设施投资 1亿多欧元,并将数据信息化基础设施作为 Horizon 2020 计划的优先领域之一。2012 年 1 月截止的预算为 5 000 万欧元的 FP7 Call 8专门征集针对大数据的研究项目,仍 以基础设施为先导[9] 。纵观国际形势,对大 数据的研究与应用已引起各国政府的高度 重视,并已成为重要的战略布局方向。 3 大数据研究的重大意义 大数据是与自然资源、人力资源一样重 要的战略资源,是一个国家数字主权的体 现。大数据时代,国家层面的竞争力将部分 体现为一国拥有大数据的规模、活性以及对 数据的解释、运用的能力。一个国家在网络 空间的数据主权将是继海、陆、空、天之后另 一个大国博弈的空间。在大数据领域的落 后,意味着失守产业战略制高点,意味着数 字主权无险可守,意味着国家安全将出现漏 洞。大数据将直接影响国家和社会稳定,是 关系国家安全的战略性问题。因此,我国应 尽快研究并制定我们国家的大数据战略。 大数据是现有产业升级与新产业诞生 的重要推动力量。数据为王的大数据时代 的到来,产业界需求与关注点发生了重大转 变:企业关注的重点转向数据,计算机行业 正在转变为真正的信息行业,从追求计算速 度转变为关注大数据处理能力,软件也将从 编程为主转变为以数据为中心。大数据处 理的兴起也改变了云计算的发展方向,使其 进入以分析即服务(AaaS)为主要标志的 Cloud 2.0时代。采用大数据处理方法,生物 制药、新材料研制生产的流程会发生革命性 的变化,可以通过数据处理能力极高的计算 机并行处理,同时进行大批量的仿真比较和 筛选,大大提高科研和生产效率,甚至使整 个行业迈入数字化与信息化的新阶段。数 据已成为与矿物和化学元素一样的原始材 料,未来可能形成数据服务、数据探矿、数据 化学、数据材料、数据制药等一系列战略性 的新兴产业。 大数据还引起了科技界对科学研究方 法论的重新审视,正在引发科学研究思维与 方法的一场革命。最早的科学研究只有实 验科学,随后出现了以研究各种定律和定理 为特征的理论科学。由于理论分析方法在 许多问题上过于复杂,难以解决实际问题, 人们开始寻求模拟的方法,导致计算科学的
兴起。海量数据的出现催生了一种新的科研模|他领域的学者解决大数据带来的技术挑战问题 式,即面对海量数据,科研人员只需从数据中直接通过分层次的不断抽象,大数据的共性科学问题 查找或挖掘所需要的信息、知识和智慧,甚至无需才会逐步清晰明朗 直接接触需研究的对象。2007年,已故的图灵奖 当前数据科学的目标还不很明确,但与其他 得主吉姆格雷 Jim Gray)在他最后一次演讲中描学科一样,科学研究的道路常常是先做“白盒研 绘了数据密集型科学研究的“第四范式”(The究”知识积累多了就有可能抽象出通用性较强的 8 Fourth Paradigm)",把数据密集型科学从计算科学“黑盒模型”和普适规律。数据库理论是一个很好 6中单独区分开来。格雷认为,要解决我们面临的的例子。在经历了层次数据库、网状数据库多年 §某些最棘手的全球性挑战,“第四范式”可能是唯实践后,Cod发现了数据库应用的共性规律,建 具有系统性的方法。其实,“第四范式”不仅是立了有坚实理论基础的关系模型。在这之前人们 科研方式的转变,也是人们思维方式的大变化 也一直在问数据库可不可能有共性的理论。现在 4对大数据研究的科学思考 大数据研究要做的事就是提出像关系数据库这样 41“数据科学”研究的对象是什么? 的理论来指导海量非结构化数据的处理。 信息技术的发展使我们逐步进入“人-机-物” 计算机科学是关于算法的科学,数据科学是融合的三元世界,未来的世界可以做到“机中有 关于数据的科学。从事数据科学研究的学者更关人,人中有机,物中有机机中有物”所谓机 注数据的科学价值试图把数据当成一个“自然体是联系人类社会(包括个人身体与大脑)与物理世 Data nature”来研究,提出所谓数据界aaum界的网络空间,其最基本的构成元素是不同于原 verse/”的概念,颇有把计算机科学划归为自然料子和神经元的bt。物理空间和人类社会(包括人 学的倾向,但脱离各个领域的物理世界”作为的大脑都有共性的科学问题和规律,与这两者有 客观事物间接存在形式的“数据界”究竟有什么共密切联系的网络空间会不会有不同的共性科学问 性问题还不清楚。物理世界在网络空间中有其数 题?从“人-机-物”三元世界的角度来探讨大数据 据映像,目前一些学者认为,数据界的规律其本质科学的共性问题,也许是一个可以尝试的突破口 可能是物理世界的规律(还需要在物理世界中测 42数据背后的共性问题—关系网络 试验证)。除去各个领域的规律,作为映像的“数 据界”还有其独特的共同规律吗?这是一个值得 观察各种复杂系统得到的大数据,直接反映 的往往是一个个孤立的数据和分散的链接,但这 深思的问题 些反映相互关系的链接整合起来就是一个网络 任何领域的研究,若要成为一门科学,一定是例如,基因数据构成基因网络,脑科学实验数据形 研究共性的问题。针对非常狭窄领域的某个具体成神经网络,wb数据反映出社会网络。数据的 问题,主要依靠该问题涉及的特殊条件和专门知共性网络的整体特征隐藏在数据网络中,大数据 识做数据挖掘,不大可能使大数据成为一门科往往以复杂关联的数据网络这样一种独特的形式 学。数据研究能成为一门科学的前提是,在一个存在,因此要理解大数据就要对大数据后面的网 领域发现的数据相互关系和规律具有可推广到其络进行深入分析,网络有不少参数和性质,如平 他领域的普适性。抽象出一个领域的共性科学问均路径长度、度分布、聚集系数、核数、介数等,这 题往往需要较长的时间,提炼“数据界”的共性科些性质和参数也许能刻画大数据背后网络的共 学问题还需要一段时间的实践积累。至少未来性。因此,大数据面临的科学问题本质上可能就 5—10年内计算机界的学者还需多花精力协助其 是网络科学问题,复杂网络分析应该是数据科学 6502012年第27卷·第6期 C1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
2012年 . 第27卷 . 第6期 战略与决策研究 Strategy & Policy Decision Research 兴起。海量数据的出现催生了一种新的科研模 式,即面对海量数据,科研人员只需从数据中直接 查找或挖掘所需要的信息、知识和智慧,甚至无需 直接接触需研究的对象。2007年,已故的图灵奖 得主吉姆·格雷(Jim Gray)在他最后一次演讲中描 绘了数据密集型科学研究的“第四范式”(The Fourth Paradigm)[5] ,把数据密集型科学从计算科学 中单独区分开来。格雷认为,要解决我们面临的 某些最棘手的全球性挑战,“第四范式”可能是唯 一具有系统性的方法。其实,“第四范式”不仅是 科研方式的转变,也是人们思维方式的大变化。 4 对大数据研究的科学思考 4.1“数据科学”研究的对象是什么? 计算机科学是关于算法的科学,数据科学是 关于数据的科学。从事数据科学研究的学者更关 注数据的科学价值,试图把数据当成一个“自然体 (Data nature)”来研究,提出所谓“数据界(Data universe)”的概念,颇有把计算机科学划归为自然科 学的倾向。但脱离各个领域的“物理世界”,作为 客观事物间接存在形式的“数据界”究竟有什么共 性问题还不清楚。物理世界在网络空间中有其数 据映像,目前一些学者认为,数据界的规律其本质 可能是物理世界的规律(还需要在物理世界中测 试验证)。除去各个领域的规律,作为映像的“数 据界”还有其独特的共同规律吗?这是一个值得 深思的问题。 任何领域的研究,若要成为一门科学,一定是 研究共性的问题。针对非常狭窄领域的某个具体 问题,主要依靠该问题涉及的特殊条件和专门知 识做数据挖掘,不大可能使大数据成为一门科 学。数据研究能成为一门科学的前提是,在一个 领域发现的数据相互关系和规律具有可推广到其 他领域的普适性。抽象出一个领域的共性科学问 题往往需要较长的时间,提炼“数据界”的共性科 学问题还需要一段时间的实践积累。至少未来 5—10年内计算机界的学者还需多花精力协助其 他领域的学者解决大数据带来的技术挑战问题。 通过分层次的不断抽象,大数据的共性科学问题 才会逐步清晰明朗。 当前数据科学的目标还不很明确,但与其他 学科一样,科学研究的道路常常是先做“白盒研 究”,知识积累多了就有可能抽象出通用性较强的 “黑盒模型”和普适规律。数据库理论是一个很好 的例子。在经历了层次数据库、网状数据库多年 实践后,Codd[18] 发现了数据库应用的共性规律,建 立了有坚实理论基础的关系模型。在这之前人们 也一直在问数据库可不可能有共性的理论。现在 大数据研究要做的事就是提出像关系数据库这样 的理论来指导海量非结构化数据的处理。 信息技术的发展使我们逐步进入“人-机-物” 融合的三元世界,未来的世界可以做到“机中有 人,人中有机,物中有机,机中有物”。所谓“机”就 是联系人类社会(包括个人身体与大脑)与物理世 界的网络空间,其最基本的构成元素是不同于原 子和神经元的bit。物理空间和人类社会(包括人 的大脑)都有共性的科学问题和规律,与这两者有 密切联系的网络空间会不会有不同的共性科学问 题?从“人-机-物”三元世界的角度来探讨大数据 科学的共性问题,也许是一个可以尝试的突破口。 4.2 数据背后的共性问题——关系网络 观察各种复杂系统得到的大数据,直接反映 的往往是一个个孤立的数据和分散的链接,但这 些反映相互关系的链接整合起来就是一个网络。 例如,基因数据构成基因网络,脑科学实验数据形 成神经网络,Web 数据反映出社会网络。数据的 共性、网络的整体特征隐藏在数据网络中,大数据 往往以复杂关联的数据网络这样一种独特的形式 存在,因此要理解大数据就要对大数据后面的网 络进行深入分析。网络有不少参数和性质,如平 均路径长度、度分布、聚集系数、核数、介数等,这 些性质和参数也许能刻画大数据背后网络的共 性。因此,大数据面临的科学问题本质上可能就 是网络科学问题,复杂网络分析应该是数据科学 650
■大数据的研究现状与科学思考 的重要基石。 有B,或者反过来有B就一定有A。严格来 目前,研究web数据的学者以复杂网络讲,统计学无法检验逻辑上的因果关系 上的数据(信息)传播机理、搜索聚类、同步如,根据统计结果:可以说“吸烟的人群肺癌 和控制作为主要研究方向。最新的研究成发病率会比不吸烟的人群高几倍”,但统计 果表明",随机的 Scale-free网络不是一般的结果无法得出“吸烟致癌”的逻辑结论。统 “小世界”,而是“超小世界 rasmall it学的相关性有时可能会产生把结果当成 world”,规模为N的网络的最短路径的平原因的错觉。如,统计结果表明:下雨之前 均长度不是一般小世界的lnN而是lN。常见到燕子低飞,从时间先后看两者的关系 网络数据研究应发现网络数据产生、传播以可能得出燕子低飞是下雨的原因,而事实 及网络信息涌现的内在机制,还要研究隐藏上,将要下雨才是燕子低飞的原因。 在数据背后的社会学、心理学、经济学的机 也许正是因为统计方法不能致力于寻 理,同时利用这些机理研究互联网对政治、找真正的原因,才促使数据挖掘和大数据技 经济、文化、教育、科研的影响。基于大数据术在商业领域广泛流行。企业的目标是多 对复杂系统内在机理进行整体性的研究,也赚钱,只要从数据挖掘中发现某种措施与增 许将为研究复杂系统提供新的途径。从这加企业利润有较强的相关性,采取这种措施 种意义上看,数据科学是从整体上研究复杂就是了,不必深究为什么能增加利润,更不 系统的一门科学, 必发现其背后的内在规律和模型。一般而 发现 Scale-free网络的 Albert-Laszlo言,企业收集和处理大数据,不是按学者们 Bas教授在2012年1月的 Nature Phys经常描述的从数据到信息再到知识和智 is上发表一篇重要文章“ The network take-慧”的研究思路,而是走“从数据直接到价 orer。文章认为:20世纪是量子力学的世值”的捷径。Goge广告获得巨额收入经常 纪,从电子学到天文物理学,从核能到量子被引用作为大数据相关分析的成功案例,美 计算,都离不开量子力学:而到了21世纪,国Wred杂志主编 Chris Anderson在他的著 网络理论正在成为量子力学的可尊敬的后名文章“ The End of Theory”的结尾发间:“现 继,正在构建一个新的理论和算法的框架。在是时候问这一句了:科学能从谷歌那儿学 43大数据研究中的关联关系与因果关系到什么?7 大数据研究不同于传统的逻辑推理研 因果关系的研究曾引发了科学体系的 究,而是对数量巨大的数据做统计性的搜建立,近代科学体系获得的成就已经证明 索、比较、聚类、分类等分析归纳,因此继承科学是研究因果关系最重要的手段。相关 了统计科学的一些特点。统计学关注数据性研究是可以替代因果分析的科学新发展 的相关性或称关联性,所谓相关性”是指两还只是因果分析的补充,不同的学者有完全 个或两个以上变量的取值之间存在某种规不同的看法。我们都是从做平面几何证明 律性。“相关分析的目的是找出数据集里隐题开始进入科学大花园的,脑子里固有的逻 藏的相互关系网(关联网),一般用支持度、辑思维模式少不了因果分析,判断是否是真 可信度、兴趣度等参数反映相关性。两个数理也习惯看充分必要条件,对于大数据的关 据A和B有相关性,只有反映A和B在取值联分析蕴含的科学意义往往理解不深。对 时相互有影响并不能告诉我们有A就一定于简单封闭的系统,基于小数据的因果分析 中阉院院刊651 C1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
院刊 的重要基石。 目前,研究Web数据的学者以复杂网络 上的数据(信息)传播机理、搜索、聚类、同步 和控制作为主要研究方向。最新的研究成 果表明[4] ,随机的Scale-free 网络不是一般的 “ 小 世 界 ”,而 是“ 超 小 世 界(Ultrasmall world)”,规模为 N 的网络的最短路径的平 均长度不是一般小世界的 lnN 而是 lnlnN。 网络数据研究应发现网络数据产生、传播以 及网络信息涌现的内在机制,还要研究隐藏 在数据背后的社会学、心理学、经济学的机 理,同时利用这些机理研究互联网对政治、 经济、文化、教育、科研的影响。基于大数据 对复杂系统内在机理进行整体性的研究,也 许将为研究复杂系统提供新的途径。从这 种意义上看,数据科学是从整体上研究复杂 系统的一门科学。 发 现 Scale-free 网 络 的 Albert-László Barabási 教授在 2012 年 1 月的 Nature Phys⁃ ics 上发表一篇重要文章“The network take⁃ over”[3] 。文章认为:20世纪是量子力学的世 纪,从电子学到天文物理学,从核能到量子 计算,都离不开量子力学;而到了 21 世纪, 网络理论正在成为量子力学的可尊敬的后 继,正在构建一个新的理论和算法的框架。 4.3 大数据研究中的关联关系与因果关系 大数据研究不同于传统的逻辑推理研 究,而是对数量巨大的数据做统计性的搜 索、比较、聚类、分类等分析归纳,因此继承 了统计科学的一些特点。统计学关注数据 的相关性或称关联性,所谓“相关性”是指两 个或两个以上变量的取值之间存在某种规 律性。“相关分析”的目的是找出数据集里隐 藏的相互关系网(关联网),一般用支持度、 可信度、兴趣度等参数反映相关性。两个数 据A和B有相关性,只有反映A和B在取值 时相互有影响,并不能告诉我们有A就一定 有B,或者反过来有B就一定有A。严格来 讲,统计学无法检验逻辑上的因果关系。 如,根据统计结果:可以说“吸烟的人群肺癌 发病率会比不吸烟的人群高几倍”,但统计 结果无法得出“吸烟致癌”的逻辑结论。统 计学的相关性有时可能会产生把结果当成 原因的错觉。如,统计结果表明:下雨之前 常见到燕子低飞,从时间先后看两者的关系 可能得出燕子低飞是下雨的原因,而事实 上,将要下雨才是燕子低飞的原因。 也许正是因为统计方法不能致力于寻 找真正的原因,才促使数据挖掘和大数据技 术在商业领域广泛流行。企业的目标是多 赚钱,只要从数据挖掘中发现某种措施与增 加企业利润有较强的相关性,采取这种措施 就是了,不必深究为什么能增加利润,更不 必发现其背后的内在规律和模型。一般而 言,企业收集和处理大数据,不是按学者们 经常描述的“从数据到信息再到知识和智 慧”的研究思路,而是走“从数据直接到价 值”的捷径。Google广告获得巨额收入经常 被引用作为大数据相关分析的成功案例,美 国 Wired 杂志主编 Chris Anderson 在他的著 名文章“The End of Theory”的结尾发问:“现 在是时候问这一句了:科学能从谷歌那儿学 到什么?”[2] 。 因果关系的研究曾引发了科学体系的 建立,近代科学体系获得的成就已经证明, 科学是研究因果关系最重要的手段。相关 性研究是可以替代因果分析的科学新发展 还只是因果分析的补充,不同的学者有完全 不同的看法。我们都是从做平面几何证明 题开始进入科学大花园的,脑子里固有的逻 辑思维模式少不了因果分析,判断是否是真 理也习惯看充分必要条件,对于大数据的关 联分析蕴含的科学意义往往理解不深。对 于简单封闭的系统,基于小数据的因果分析 651 大数据的研究现状与科学思考