引言一场生活、工作与思维的大变革 大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够 观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源 泉,而更多的改变正蓄势待发 【大数据先锋】 谷歌搜索与流感预测 Farecast与飞机票价预测系统 天文学,信息爆炸的起源
引言 一场生活、工作与思维的大变革 大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够 观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源 泉,而更多的改变正蓄势待发…… 【大数据先锋】 谷歌搜索与流感预测 Farecast与飞机票价预测系统 天文学,信息爆炸的起源
大数据,变革公共卫生 209年出现了一种新的流感病毒。这种甲型HN1流感结合了导致禽流感和猪流感的病毒的 特点,在短短几周之内迅速传播开来。全球的公共卫生机构都担心一场致命的流行病即将来 袭。有的评论家甚至警告说,可能会爆发大规模流感,类似于1918年在西班牙爆发的影响了5亿 人口并夺走了数千万人性命的大规模流感。更糟糕的是,我们还没有研发出对抗这种新型流感 病毒的疫苗。公共卫生专家能做的只是减慢它传播的速度。但要做到这一点,他们必须先知道 这种流感出现在哪里。 美国,和所有其他国家一样,都要求医生在发现新型流感病例时告知疾病控制与预防中 心。但由于人们可能患病多日实在受不了了才会去医院,同时这个信息传达回疾控中心也需要 时间,因此,通告新流感病例时往往会有一两周的延迟。而且,疾控中心每周只进行一次数据 汇总。然而,对于一种飞速传播的疾病,信息滞后两周的后果将是致命的。这种滞后导致公共 卫生机构在疫情爆发的关键时期反而无所适从。 在甲型HN流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了 篇引人注目的论文。它令公共卫生官员们和计算机科学家们感到震惊。文中解释了谷歌为什 么能够预测冬季流感的传播:不仅是全美范围的传播,而且可以具体到特定的地区和州。谷歌 通过观察人们在网上的搜索记录来完成这个预测,而这种方法以前一直是被忽略的。谷歌保存 了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条的搜索指令,如此庞大的数 据资源足以支撑和帮助它完成这项工作。 谷歌公司把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至208年间季节性 流感传播时期的数据进行了比较。他们希望通过分析人们的搜索记录来判断这些人是否患上了 流感,其他公司也曾试图确定这些相关的词条,但是他们缺乏像谷歌公司一样庞大的数据资 源、处理能力和统计技术。 虽然谷歌公司的员工猜测,特定的检索词条是为了在网络上得到关于流感的信息,如“哪些 是治疗咳嗽和发热的药物”,但是找出这些词条并不是重点,他们也不知道哪些词条更重要。更 关键的是,他们建立的系统并不依赖于这样的语义理解。他们设立的这个系统唯一关注的就是 特定检索词条的使用频率与流感在时间和空间上的传播之间的联系。谷歌公司为了测试这些检 索词条,总共处理了4.5亿个不同的数学模型。在将得出的预测与2007年、2008年美国疾控中心 记录的实际流感病例进行对比后,谷歌公司发现,他们的软件发现了45条检索词条的组合,将 它们用于一个特定的数学模型后,他们的预测与官方数据的相关性高达97%。和疾控中心 样,他们也能判断出流感是从哪里传播出来的,而且判断非常及时,不会像疾控中心一样要在 流感爆发一两周之后才可以做到。 所以,2009年甲型HN1流感爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个 更有效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数据信息。惊人的是,谷 歌公司的方法甚至不需要分发口腔试纸和联系医生它是建立在大数据的基础之上的。这是 当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得 有巨大价值的产品和服务,或深刻的洞见。基于这样的技术理念和数据储备,下一次流感来 袭的时候,世界将会拥有一种更好的预测工具,以预防流感的传播
大数据,变革公共卫生 2009年出现了一种新的流感病毒。这种甲型H1N1流感结合了导致禽流感和猪流感的病毒的 特点,在短短几周之内迅速传播开来。全球的公共卫生机构都担心一场致命的流行病即将来 袭。有的评论家甚至警告说,可能会爆发大规模流感,类似于1918年在西班牙爆发的影响了5亿 人口并夺走了数千万人性命的大规模流感。更糟糕的是,我们还没有研发出对抗这种新型流感 病毒的疫苗。公共卫生专家能做的只是减慢它传播的速度。但要做到这一点,他们必须先知道 这种流感出现在哪里。 美国,和所有其他国家一样,都要求医生在发现新型流感病例时告知疾病控制与预防中 心。但由于人们可能患病多日实在受不了了才会去医院,同时这个信息传达回疾控中心也需要 时间,因此,通告新流感病例时往往会有一两周的延迟。而且,疾控中心每周只进行一次数据 汇总。然而,对于一种飞速传播的疾病,信息滞后两周的后果将是致命的。这种滞后导致公共 卫生机构在疫情爆发的关键时期反而无所适从。 在甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了 一篇引人注目的论文。它令公共卫生官员们和计算机科学家们感到震惊。文中解释了谷歌为什 么能够预测冬季流感的传播:不仅是全美范围的传播,而且可以具体到特定的地区和州。谷歌 通过观察人们在网上的搜索记录来完成这个预测,而这种方法以前一直是被忽略的。谷歌保存 了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条的搜索指令,如此庞大的数 据资源足以支撑和帮助它完成这项工作。 谷歌公司把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性 流感传播时期的数据进行了比较。他们希望通过分析人们的搜索记录来判断这些人是否患上了 流感,其他公司也曾试图确定这些相关的词条,但是他们缺乏像谷歌公司一样庞大的数据资 源、处理能力和统计技术。 虽然谷歌公司的员工猜测,特定的检索词条是为了在网络上得到关于流感的信息,如“哪些 是治疗咳嗽和发热的药物”,但是找出这些词条并不是重点,他们也不知道哪些词条更重要。更 关键的是,他们建立的系统并不依赖于这样的语义理解。他们设立的这个系统唯一关注的就是 特定检索词条的使用频率与流感在时间和空间上的传播之间的联系。谷歌公司为了测试这些检 索词条,总共处理了4.5亿个不同的数学模型。在将得出的预测与2007年、2008年美国疾控中心 记录的实际流感病例进行对比后,谷歌公司发现,他们的软件发现了45条检索词条的组合,将 它们用于一个特定的数学模型后,他们的预测与官方数据的相关性高达97%。和疾控中心一 样,他们也能判断出流感是从哪里传播出来的,而且判断非常及时,不会像疾控中心一样要在 流感爆发一两周之后才可以做到。 所以,2009年甲型H1N1流感爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个 更有效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数据信息。惊人的是,谷 歌公司的方法甚至不需要分发口腔试纸和联系医生——它是建立在大数据的基础之上的。这是 当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得 有巨大价值的产品和服务,或深刻的洞见。基于这样的技术理念和数据储备,下一次流感来 袭的时候,世界将会拥有一种更好的预测工具,以预防流感的传播
大数据,变革商业 大数据不仅改变了公共卫生领域,整个商业领域都因为大数据而重新洗牌。购买飞机票就 是一个很好的例子。 2003年,奥伦埃齐奥尼( Oren etzioni)准备乘坐从西雅图到洛杉矶的飞机去参加弟弟的婚 礼。他知道飞机票越早预订越便宜,于是他在这个大喜日子来临之前的几个月,就在网上预订 张去洛杉矶的机票。在飞机上,埃齐奥尼好奇地问邻座的乘客花了多少钱购买机票。当得 知虽然那个人的机票比他买得更晚,但是票价却比他便宜得多时,他感到非常气愤。于是,他 又询问了另外几个乘客,结果发现大家买的票居然都比他的便宜。 对大多数人来说,这种被敲竹杠的感觉也许会随着他们走下飞机而消失。然而,埃齐奥尼 是美国最有名的计算机专家之一,从他担任华盛顿大学人工智能项目的负责人开始,他创立了 许多在今天看来非常典型的大数据公司,而那时候还没有人提出“大数据”这个概念。 1994年,埃齐奥尼帮助创建了最早的互联网搜索引擎 MetaCrawler,该引擎后来被 Info Space 公司收购。他联合创立了第一个大型比价网站 Netbot,后来把它卖给了 Excite公司。他创立的从 文本中挖掘信息的公司 Clear fores则被路透社收购了。在他眼中,世界就是一系列的大数据问 题,而且他认为自己有能力解决这些问题。作为哈佛大学首届计算机科学专业的本科毕业生, 自1986年毕业以来,他也一直致力于解决这些问题。 飞机着陆之后,埃齐奥尼下定决心要帮助人们开发一个系统,用来推测当前网页上的机票 价格是否合理。作为一种商品,同一架飞机上每个座位的价格本来不应该有差别。但实际上, 埃齐奥尼表示,他不需要去解开机票价格差异的奥秘。他要做的仅仅是预测当前的机票价 格在未来一段时间内会上涨还是下降。这个想法是可行的,但操作起来并不是那么简单。这个 系统需要分析所有特定航线机票的销售价格并确定票价与提前购买天数的关系。 如果一张机票的平均价格呈下降趋势,系统就会帮助用户做岀稍后再购票的明智选择。反 过来,如果一张机票的平均价格呈上涨趋势,系统就会提醒用户立刻购买该机票。换言之,这 是埃齐奥尼针对9000米高空开发的一个加强版的信息预测系统。这确实是一个浩大的计算机科 学项目。不过,这个项目是可行的。于是,埃齐奥尼开始着手启动这个项目 埃齐奥尼创立了一个预测系统,它帮助虚拟的乘客节省了很多钱。这个预测系统建立在41 天之内的12000个价格样本基础之上,而这些数据都是从一个旅游网站上爬取过来的。这个预测 系统并不能说明原因,只能推测会发生什么。也就是说,它不知道是哪些因素导致了机票价格 的波动。机票降价是因为有很多没卖掉的座位、季节性原因,还是所谓的“周六晚上不出门 它都不知道。这个系统只知道利用其他航班的数据来预测未来机票价格的走势。“买还是不买, 这是一个问题。”埃齐奥尼沉思着。他给这个研究项目取了一个非常贴切的名字,叫“哈姆雷 特 这个小项目逐渐发展成为一家得到了风险投资基金支持的科技创业公司,名为 Farecast。通 过预测机票价格的走势以及增降幅度, Farecast票价预测工具能帮助消费者抓住最佳购买时机, 而在此之前还没有其他网站能让消费者获得这些信息。 这个系统为了保障自身的透明度,会把对机票价格走势预测的可信度标示出来,供消费者 参考。系统的运转需要海量数据的支持。为了提高预测的准确性,埃齐奥尼找到了一个行业机
大数据,变革商业 大数据不仅改变了公共卫生领域,整个商业领域都因为大数据而重新洗牌。购买飞机票就 是一个很好的例子。 2003年,奥伦·埃齐奥尼(Oren Etzioni)准备乘坐从西雅图到洛杉矶的飞机去参加弟弟的婚 礼。他知道飞机票越早预订越便宜,于是他在这个大喜日子来临之前的几个月,就在网上预订 了一张去洛杉矶的机票。在飞机上,埃齐奥尼好奇地问邻座的乘客花了多少钱购买机票。当得 知虽然那个人的机票比他买得更晚,但是票价却比他便宜得多时,他感到非常气愤。于是,他 又询问了另外几个乘客,结果发现大家买的票居然都比他的便宜。 对大多数人来说,这种被敲竹杠的感觉也许会随着他们走下飞机而消失。然而,埃齐奥尼 是美国最有名的计算机专家之一,从他担任华盛顿大学人工智能项目的负责人开始,他创立了 许多在今天看来非常典型的大数据公司,而那时候还没有人提出“大数据”这个概念。 1994年,埃齐奥尼帮助创建了最早的互联网搜索引擎MetaCrawler,该引擎后来被InfoSpace 公司收购。他联合创立了第一个大型比价网站Netbot,后来把它卖给了Excite公司。他创立的从 文本中挖掘信息的公司ClearForest则被路透社收购了。在他眼中,世界就是一系列的大数据问 题,而且他认为自己有能力解决这些问题。作为哈佛大学首届计算机科学专业的本科毕业生, 自1986年毕业以来,他也一直致力于解决这些问题。 飞机着陆之后,埃齐奥尼下定决心要帮助人们开发一个系统,用来推测当前网页上的机票 价格是否合理。作为一种商品,同一架飞机上每个座位的价格本来不应该有差别。但实际上, 价格却千差万别,其中缘由只有航空公司自己清楚。 埃齐奥尼表示,他不需要去解开机票价格差异的奥秘。他要做的仅仅是预测当前的机票价 格在未来一段时间内会上涨还是下降。这个想法是可行的,但操作起来并不是那么简单。这个 系统需要分析所有特定航线机票的销售价格并确定票价与提前购买天数的关系。 如果一张机票的平均价格呈下降趋势,系统就会帮助用户做出稍后再购票的明智选择。反 过来,如果一张机票的平均价格呈上涨趋势,系统就会提醒用户立刻购买该机票。换言之,这 是埃齐奥尼针对9000米高空开发的一个加强版的信息预测系统。这确实是一个浩大的计算机科 学项目。不过,这个项目是可行的。于是,埃齐奥尼开始着手启动这个项目。 埃齐奥尼创立了一个预测系统,它帮助虚拟的乘客节省了很多钱。这个预测系统建立在41 天之内的12000个价格样本基础之上,而这些数据都是从一个旅游网站上爬取过来的。这个预测 系统并不能说明原因,只能推测会发生什么。也就是说,它不知道是哪些因素导致了机票价格 的波动。机票降价是因为有很多没卖掉的座位、季节性原因,还是所谓的“周六晚上不出门”, 它都不知道。这个系统只知道利用其他航班的数据来预测未来机票价格的走势。“买还是不买, 这是一个问题。”埃齐奥尼沉思着。他给这个研究项目取了一个非常贴切的名字,叫“哈姆雷 特”。 这个小项目逐渐发展成为一家得到了风险投资基金支持的科技创业公司,名为Farecast。通 过预测机票价格的走势以及增降幅度,Farecast票价预测工具能帮助消费者抓住最佳购买时机, 而在此之前还没有其他网站能让消费者获得这些信息。 这个系统为了保障自身的透明度,会把对机票价格走势预测的可信度标示出来,供消费者 参考。系统的运转需要海量数据的支持。为了提高预测的准确性,埃齐奥尼找到了一个行业机
票预订数据库。而系统的预测结果是根据美国商业航空产业中,每一条航线上每一架飞机内的 每一个座位一年内的综合票价记录而得出的。如今, Fareast已经拥有惊人的约2000亿条飞行数 据记录。利用这种方法, Farecast为消费者节省了一大笔钱。叫 棕色的头发,露齿的笑容,无邪的面孔,这就是奥伦埃齐奥尼。他看上去完全不像是一个 会让航空业损失数百万潜在收入的人。但事实上,他的目光放得更长远。2008年,埃齐奥尼计 划将这项技术应用到其他领域,比如宾馆预订、二手车购买等。只要这些领域内的产品差异不 大,同时存在大幅度的价格差和大量可运用的数据,就都可以应用这项技术。但是在他实现计 划之前,微软公司找上了他并以1.1亿美元的价格收购了 Farecast公司。而后,这个系统被并入必 应搜索引擎。 大数据的力量 到2012年为止, Farecast系统用了将近十万亿条价格记录来帮助预测美国国内航班的票价。 Farecas標票价预测的准确度已经高达75%,使用 Farecas標票价预测工具购买机票的旅客,平均每张 机票可节省50美元。 Farecast是大数据公司的一个缩影,也代表了当今世界发展的趋势。五年或者十年之前,奥 伦埃齐奥尼是无法成立这样的公司的。他说:“这是不可能的。”那时候他所需要的计算机处理 能力和存储能力太昂贵了!虽说技术上的突破是这一切得以发生的主要原因,但也有一些细微 而重要的改变正在发生,特别是人们关于如何使用数据的理念。 [1有趣的是,这些飞行记录和谷歌的搜索记录一样,也可以用来预测和评估疾病的流行 有兴趣的读者可以参考2010年第12期《科学通报》上名为“HN1甲型流感全球航空传播与早期 预警研究”的研究论文以及2011年 Bajardi等人在PLoS ONE上发表的名为 Human mobility Networks, Travel Restrictions, and the Global Spread of200 HINI Pandemic”的研究论文。 译者注
票预订数据库。而系统的预测结果是根据美国商业航空产业中,每一条航线上每一架飞机内的 每一个座位一年内的综合票价记录而得出的。如今,Farecast已经拥有惊人的约2000亿条飞行数 据记录。利用这种方法,Farecast为消费者节省了一大笔钱。[1] 棕色的头发,露齿的笑容,无邪的面孔,这就是奥伦·埃齐奥尼。他看上去完全不像是一个 会让航空业损失数百万潜在收入的人。但事实上,他的目光放得更长远。2008年,埃齐奥尼计 划将这项技术应用到其他领域,比如宾馆预订、二手车购买等。只要这些领域内的产品差异不 大,同时存在大幅度的价格差和大量可运用的数据,就都可以应用这项技术。但是在他实现计 划之前,微软公司找上了他并以1.1亿美元的价格收购了Farecast公司。而后,这个系统被并入必 应搜索引擎。 大数据的力量 到2012年为止,Farecast系统用了将近十万亿条价格记录来帮助预测美国国内航班的票价。 Farecast票价预测的准确度已经高达75%,使用Farecast票价预测工具购买机票的旅客,平均每张 机票可节省50美元。 Farecast是大数据公司的一个缩影,也代表了当今世界发展的趋势。五年或者十年之前,奥 伦·埃齐奥尼是无法成立这样的公司的。他说:“这是不可能的。”那时候他所需要的计算机处理 能力和存储能力太昂贵了!虽说技术上的突破是这一切得以发生的主要原因,但也有一些细微 而重要的改变正在发生,特别是人们关于如何使用数据的理念。 [1] 有趣的是,这些飞行记录和谷歌的搜索记录一样,也可以用来预测和评估疾病的流行。 有兴趣的读者可以参考2010年第12期《科学通报》上名为“H1N1甲型流感全球航空传播与早期 预警研究”的研究论文以及2011年Bajardi等人在PLoS ONE上发表的名为“Human Mobility Networks,Travel Restrictions,and the Global Spread of 2009 H1N1 Pandemic”的研究论文。—— 译者注
大数据,变革思维 人们不再认为数据是静止和陈旧的。但在以前,一旦完成了收集数据的目的之后,数据就 会被认为已经没有用处了。比方说,在飞机降落之后,票价数据就没有用了(对谷歌而言,则 是一个检索命令完成之后) 大数据洞察 如今,数据已经成为了一种商业资本,一项重要的经济投入,可以创造新的经济利益。事 实上,一旦思维转变过来,数据就能被巧妙地用来激发新产品和新型服务。数据的奥妙只为谦 逊、愿意聆听且掌握了聆听手段的人所知。 信息社会所带来的好处是显而易见的:每个人口袋里都揣有一部手机,每台办公桌上都放 有一台电脑,每间办公室内都拥有一个大型局域网。但是,信息本身的用处却并没有如此引人 注目。半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引 发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息总量 的变化还导致了信息形态的变化量变引发了质变。最先经历信息爆炸的学科,如天文学和 基因学,创造出了“大数据这个概念。如今,这个概念几乎应用到了所有人类致力于发展的领 域中。 大数据并非一个确切的概念。最初,这个概念是指需要处理的信息量过大,已经超出了 般电脑在处理数据时所能使用的内存量,因此工程师们必须改进处理数据的工具。这导致了新 的处理技术的诞生,例如谷歌的 Mapreduce和开源 Hadoop平台(最初源于雅虎)。这些技术使 得人们可以处理的数据量大大增加。更重要的是,这些数据不再需要用传统的数据库表格来整 齐地排列一些可以消除僵化的层次结构和一致性的技术也出现了。同时,因为互联网公司 可以收集大量有价值的数据,而且有利用这些数据的强烈的利益驱动力,所以互联网公司顺理 成章地成为了最新处理技术的领头实践者。它们甚至超过了很多有几十年经验的线下公司,成 为新技术的领衔使用者。 今天,一种可能的方式是,亦是本书采取的方式,认为大数据是人们在大规模数据的基础 上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。大数据是人们获得新的 认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方 法。 大数据洞察 这仅仅只是一个开始,大数据时代对我们的生活,以及与世界交流的方式都提出了挑战 最惊人的是,社会需要放弃它对因果关系的渴求,而仅需关注相关关系。也就是说只需要知道 是什么,而不需要知道为什么。这就推翻了自古以来的惯例,而我们做决定和理解现实的最基 本方式也将受到挑战。 交设计人员如果没有大数据的理念,就会丢失掉很多有价值的数据。譬如中国某城市的公 因为价格不依赖于起点和终点,所以能够反映重要通勤信息的数据被工作人员“自作主 张”地丢弃了。—译者注 [21有兴趣的读者可以参考2008年9月4日《自然》推出的名为“大数据”的专刊。—译者注
大数据,变革思维 人们不再认为数据是静止和陈旧的。但在以前,一旦完成了收集数据的目的之后,数据就 会被认为已经没有用处了。比方说,在飞机降落之后,票价数据就没有用了(对谷歌而言,则 是一个检索命令完成之后)。[1] 大数据洞察 如今,数据已经成为了一种商业资本,一项重要的经济投入,可以创造新的经济利益。事 实上,一旦思维转变过来,数据就能被巧妙地用来激发新产品和新型服务。数据的奥妙只为谦 逊、愿意聆听且掌握了聆听手段的人所知。 信息社会所带来的好处是显而易见的:每个人口袋里都揣有一部手机,每台办公桌上都放 有一台电脑,每间办公室内都拥有一个大型局域网。但是,信息本身的用处却并没有如此引人 注目。半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引 发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息总量 的变化还导致了信息形态的变化——量变引发了质变。最先经历信息爆炸的学科,如天文学和 基因学,创造出了“大数据”这个概念[2]。如今,这个概念几乎应用到了所有人类致力于发展的领 域中。 大数据并非一个确切的概念。最初,这个概念是指需要处理的信息量过大,已经超出了一 般电脑在处理数据时所能使用的内存量,因此工程师们必须改进处理数据的工具。这导致了新 的处理技术的诞生,例如谷歌的MapReduce和开源Hadoop平台(最初源于雅虎)。这些技术使 得人们可以处理的数据量大大增加。更重要的是,这些数据不再需要用传统的数据库表格来整 齐地排列——一些可以消除僵化的层次结构和一致性[3]的技术也出现了。同时,因为互联网公司 可以收集大量有价值的数据,而且有利用这些数据的强烈的利益驱动力,所以互联网公司顺理 成章地成为了最新处理技术的领头实践者。它们甚至超过了很多有几十年经验的线下公司,成 为新技术的领衔使用者。 今天,一种可能的方式是,亦是本书采取的方式,认为大数据是人们在大规模数据的基础 上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。大数据是人们获得新的 认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方 法。 大数据洞察 这仅仅只是一个开始,大数据时代对我们的生活,以及与世界交流的方式都提出了挑战。 最惊人的是,社会需要放弃它对因果关系的渴求,而仅需关注相关关系。也就是说只需要知道 是什么,而不需要知道为什么。这就推翻了自古以来的惯例,而我们做决定和理解现实的最基 本方式也将受到挑战。 [1] 设计人员如果没有大数据的理念,就会丢失掉很多有价值的数据。譬如中国某城市的公 交车因为价格不依赖于起点和终点,所以能够反映重要通勤信息的数据被工作人员“自作主 张”地丢弃了。——译者注 [2] 有兴趣的读者可以参考2008年9月4日《自然》推出的名为“大数据”的专刊。——译者注