预测,大数据的核心 大数据的核心就是预测。它通常被视为人工智能的一部分,或者更确切地说,被视为一种 机器学习。但是这种定义是有误导性的。大数据不是要教机器像人一样思考。相反,它是把数 学算法运用到海量的数据上来预测事情发生的可能性。一封邮件被作为垃圾邮件过滤掉的可能 性,输入的“teh”应该是“the”的可能性,从一个人乱穿马路时行进的轨迹和速度来看他能及时穿 过马路的可能性,都是大数据可以预测的范围。当然,如果一个人能及时穿过马路,那么他乱 穿马路时,车子就只需要稍稍减速就好。这些预测系统之所以能够成功,关键在于它们是建立 在海量数据的基础之上的。此外,随着系统接收到的数据越来越多,它们可以聪明到自动搜索 最好的信号和模式,并自己改善自己 在不久的将来,世界许多现在单纯依靠人类判断力的领域都会被计算机系统所改变甚至取 代。计算机系统可以发挥作用的领域远远不止驾驶和交友,还有更多更复杂的任务。别忘了, 亚马逊可以帮我们推荐想要的书,谷歌可以为关联网站排序, Facebook知道我们的喜好,而 LinkedIn可以猜出我们认识谁。四当然,同样的技术也可以运用到疾病诊断、推荐治疗措施,甚 至是识别潜在犯罪分子上。 就像互联网通过给计算机添加通信功能而改变了世界,大数据也将改变我们生活中最重要 的方面,因为它为我们的生活创造了前所未有的可量化的维度。大数据已经成为了新发明和新 服务的源泉,而更多的改变正蓄势待发。 系统可以通过一种“反馈学习”的机制,利用自己产生的数据判断自身算法和参数选择的 有效性,并实时进行调整,持续改进自身的表现。译者注 [2]这些任务都和个性化技术相关,包括个性化排序和个性化推荐。个性化技术是大数据时 代最重要的技术,这里向专业读者推荐吕琳媛等人2012年在《 Physics Reports.》上发表的名 为“ Recommender Systems”的综述。—译者注
预测,大数据的核心 大数据的核心就是预测。它通常被视为人工智能的一部分,或者更确切地说,被视为一种 机器学习。但是这种定义是有误导性的。大数据不是要教机器像人一样思考。相反,它是把数 学算法运用到海量的数据上来预测事情发生的可能性。一封邮件被作为垃圾邮件过滤掉的可能 性,输入的“teh”应该是“the”的可能性,从一个人乱穿马路时行进的轨迹和速度来看他能及时穿 过马路的可能性,都是大数据可以预测的范围。当然,如果一个人能及时穿过马路,那么他乱 穿马路时,车子就只需要稍稍减速就好。这些预测系统之所以能够成功,关键在于它们是建立 在海量数据的基础之上的。此外,随着系统接收到的数据越来越多,它们可以聪明到自动搜索 最好的信号和模式,并自己改善自己。[1] 在不久的将来,世界许多现在单纯依靠人类判断力的领域都会被计算机系统所改变甚至取 代。计算机系统可以发挥作用的领域远远不止驾驶和交友,还有更多更复杂的任务。别忘了, 亚马逊可以帮我们推荐想要的书,谷歌可以为关联网站排序,Facebook知道我们的喜好,而 LinkedIn可以猜出我们认识谁。[2]当然,同样的技术也可以运用到疾病诊断、推荐治疗措施,甚 至是识别潜在犯罪分子上。 就像互联网通过给计算机添加通信功能而改变了世界,大数据也将改变我们生活中最重要 的方面,因为它为我们的生活创造了前所未有的可量化的维度。大数据已经成为了新发明和新 服务的源泉,而更多的改变正蓄势待发。 [1] 系统可以通过一种“反馈学习”的机制,利用自己产生的数据判断自身算法和参数选择的 有效性,并实时进行调整,持续改进自身的表现。——译者注 [2] 这些任务都和个性化技术相关,包括个性化排序和个性化推荐。个性化技术是大数据时 代最重要的技术,这里向专业读者推荐吕琳媛等人2012年在《Physics Reports》上发表的名 为“Recommender Systems”的综述。——译者注
大数据,大挑战 大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方 法 第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和 某个特别现象相关的所有数据,而不再依赖于随机采样。这部分内容将在第1章阐述。19世纪 以来,当面临大量数据时,社会都依赖于采样分析。但是采样分析是信息缺乏时代和信息流通 受限制的模拟数据时代的产物。以前我们通常把这看成是理所当然的限制,但高性能数字技术 的流行让我们意识到,这其实是一种人为的限制。与局限在小数据范围相比,使用一切数据为 我们带来了更高的精确性,也让我们看到了一些以前无法发现的细节—大数据让我们更清楚 地看到了样本无法揭示的细节信息。 第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。这部分内容 将在第2章阐述。当我们测量事物的能力受限时,关注最重要的事情和获取最精确的结果是可取 的。如果购买者不知道牛群里有80头牛还是100头牛,那么交易就无法进行。直到今天,我们的 数字技术依然建立在精准的基础上。我们假设只要电子数据表格把数据排序,数据库引擎就可 以找出和我们检索的内容完全一致的检索记录。 这种思维方式适用于掌握“小数据量”的情况,因为需要分析的数据很少,所以我们必须尽 可能精准地量化我们的记录。在某些方面,我们已经意识到了差别。例如,一个小商店在晚上 打烊的时候要把收银台里的每分钱都数清楚,但是我们不会、也不可能用“分”这个单位去精确 度量国民生产总值。随着规模的扩大,对精确度的痴迷将减弱。 达到精确需要有专业的数据库。针对小数据量和特定事情,追求精确性依然是可行的,比 如一个人的银行账户上是否有足够的钱开具支票。但是,在这个大数据时代,很多时候,追求 精确度已经变得不可行,甚至不受欢迎了。当我们拥有海量即时数据时,绝对的精准不再是我 们追求的主要目标。 大数据纷繁多样,优劣掺杂,分布在全球多个服务器上。拥有了大数据,我们不再需要对 个现象刨根究底,只要掌握大体的发展方向即可。当然,我们也不是完全放弃了精确度,只 是不再沉迷于此。适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。 第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系。这部分内容将在第 3章阐述。寻找因果关系是人类长久以来的习惯。即使确定因果关系很困难而且用途不大,人类 还是习惯性地寻找缘由。相反,在大数据时代,我们无须再紧盯事物之间的因果关系,而应该 寻找事物之间的相关关系,这会给我们提供非常新颖且有价值的观点。相关关系也许不能准确 地告知我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。在许多情况下,这种 提醒的帮助已经足够大了。 如果数百万条电子医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症,那么找出具体 的药理机制就没有这种治疗方法本身来得重要。同样,只要我们知道什么时候是买机票的最佳 时机,就算不知道机票价格疯狂变动的原因也无所谓了。大数据告诉我们“是什么”而不是“为什 么”。在大数据时代,我们不必知道现象背后的原因,我们只要让数据自己发声。 我们不再需要在还没有收集数据之前,就把我们的分析建立在早已设立的少量假设的基础 之上。让数据发声,我们会注意到很多以前从来没有意识到的联系的存在
大数据,大挑战 大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方 法。 第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和 某个特别现象相关的所有数据,而不再依赖于随机采样。这部分内容将在第1章阐述。19世纪 以来,当面临大量数据时,社会都依赖于采样分析。但是采样分析是信息缺乏时代和信息流通 受限制的模拟数据时代的产物。以前我们通常把这看成是理所当然的限制,但高性能数字技术 的流行让我们意识到,这其实是一种人为的限制。与局限在小数据范围相比,使用一切数据为 我们带来了更高的精确性,也让我们看到了一些以前无法发现的细节——大数据让我们更清楚 地看到了样本无法揭示的细节信息。 第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。这部分内容 将在第2章阐述。当我们测量事物的能力受限时,关注最重要的事情和获取最精确的结果是可取 的。如果购买者不知道牛群里有80头牛还是100头牛,那么交易就无法进行。直到今天,我们的 数字技术依然建立在精准的基础上。我们假设只要电子数据表格把数据排序,数据库引擎就可 以找出和我们检索的内容完全一致的检索记录。 这种思维方式适用于掌握“小数据量”的情况,因为需要分析的数据很少,所以我们必须尽 可能精准地量化我们的记录。在某些方面,我们已经意识到了差别。例如,一个小商店在晚上 打烊的时候要把收银台里的每分钱都数清楚,但是我们不会、也不可能用“分”这个单位去精确 度量国民生产总值。随着规模的扩大,对精确度的痴迷将减弱。 达到精确需要有专业的数据库。针对小数据量和特定事情,追求精确性依然是可行的,比 如一个人的银行账户上是否有足够的钱开具支票。但是,在这个大数据时代,很多时候,追求 精确度已经变得不可行,甚至不受欢迎了。当我们拥有海量即时数据时,绝对的精准不再是我 们追求的主要目标。 大数据纷繁多样,优劣掺杂,分布在全球多个服务器上。拥有了大数据,我们不再需要对 一个现象刨根究底,只要掌握大体的发展方向即可。当然,我们也不是完全放弃了精确度,只 是不再沉迷于此。适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。 第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系。这部分内容将在第 3章阐述。寻找因果关系是人类长久以来的习惯。即使确定因果关系很困难而且用途不大,人类 还是习惯性地寻找缘由。相反,在大数据时代,我们无须再紧盯事物之间的因果关系,而应该 寻找事物之间的相关关系,这会给我们提供非常新颖且有价值的观点。相关关系也许不能准确 地告知我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。在许多情况下,这种 提醒的帮助已经足够大了。 如果数百万条电子医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症,那么找出具体 的药理机制就没有这种治疗方法本身来得重要。同样,只要我们知道什么时候是买机票的最佳 时机,就算不知道机票价格疯狂变动的原因也无所谓了。大数据告诉我们“是什么”而不是“为什 么”。在大数据时代,我们不必知道现象背后的原因,我们只要让数据自己发声。 我们不再需要在还没有收集数据之前,就把我们的分析建立在早已设立的少量假设的基础 之上。让数据发声,我们会注意到很多以前从来没有意识到的联系的存在
例如,对冲基金通过剖析社交网络 Twitter上的数据信息来预测股市的表现;亚马逊和奈飞 ( Netflix)根据用户在其网站上的类似查询来进行产品推荐; Twitter, Facebook和 LinkedIn通过 用户的社交网络图来得知用户的喜好。 当然,人类从数千年前就开始分析数据。古代美索不达米亚平原的记账人员为了有效地跟 踪记录信息发明了书写。自从圣经时代开始,政府就通过进行人口普査来建立大型的国民数据 库。两百多年来,精算师们也一直通过搜集大量的数据来进行风险规避。 模拟时代的数据收集和分析极其耗时耗力,新问题的出现通常要求我们重新收集和分析数 据。数字化的到来使得数据管理效率又向前迈出了重要的一步。数字化将模拟数据转换成计算 机可以读取的数字数据,使得存储和处理这些数据变得既便宜又容易,从而大大提高了数据管 理效率。过去需要几年时间才能完成的数据搜集,现在只要几天就能完成。但是,光有改变还 远远不够。数据分析者太沉浸于模拟数据时代的设想,即数据库只有单一的用途和价值,而正 是我们使用的技术和方法加深了这种偏见。虽然数字化是促成向大数据转变的重要原因,但仅 有计算机的存在却不足以实现大数据。 我们没有办法准确描述现在正在发生的一切,但是在第4章将提到的“数据化”概念可以帮助 我们大致了解这次变革。数据化意味着我们要从一切太阳底下的事物中汲取信息,甚至包括 很多我们以前认为和“信息”根本搭不上边的事情。比方说,一个人所在的位置、引擎的振 动、桥梁的承重等。我们要通过量化的方法把这些内容转化为数据。这就使得我们可以尝试许 多以前无法做到的事情,如根据引擎的散热和振动来预测引擎是否会出现故障。这样,我们就 激发出了这些数据此前未被挖掘的潜在价值。 大数据时代开启了一场寻宝游戏,而人们对于数据的看法以及对于由因果关系向相关 关系转化时释放出的潜在价值的态度,正是主宰这场游戏的关键。新兴技术工具的使用使这 切成为可能。宝贝不止一件,每个数据集内部都隐藏着某些未被发掘的价值。这场发掘和利 用数据价值的竞赛正开始在全球上演。 第5章和第6章将讲述大数据如何改变了商业、市场和社会的本质。20世纪,价值已经从实 体基建转变为无形财产,从土地和工厂转变为品牌和产权。如今,一个新的转变正在进行,那 就是电脑存储和分析数据的方法取代电脑硬件成为了价值的源泉。数据成为了有价值的公司资 、重要的经济投入和新型商业模式的基石。虽然数据还没有被列入企业的资产负债表,但这 只是一个时间问题 虽然有些数据处理技术已经出现了一段时间,但是它们只为调查局、研究所和世界上的 些巨头公司所掌握。沃尔玛和美国第一资本银行( CapitalOne)率先将大数据运用在了零售业和 银行业,因此改变了整个行业。如今这些技术大多都实现了大众化 大数据对个人的影响是最惊人的。在一个可能性和相关性占主导地位的世界里,专业性变 得不那么重要了。行业专家不会消失,但是他们必须与数据表达的信息进行博弈。如同在电影 《点球成金》( Moneyball)里,棒球星探们在统计学家面前相形见绌—直觉的判断被迫让位 于精准的数据分析。这将迫使人们调整在管理、决策、人力资源和教育方面的传统理念。 我们大部分的习俗和惯例都建立在一个预设好的立场上,那就是我们用来进行决策的信息 必须是少量、精确并且至关重要的。但是,当数据量变大、数据处理速度加快,而且数据变得 不那么精确时,之前的那些预设立场就不复存在了。此外,因为数据量极为庞大,最后做出决 策的将是机器而不是人类自己。第7章将会讨论大数据的负面影响
例如,对冲基金通过剖析社交网络Twitter上的数据信息来预测股市的表现;亚马逊和奈飞 (Netflix)[1]根据用户在其网站上的类似查询来进行产品推荐;Twitter,Facebook和LinkedIn通过 用户的社交网络图来得知用户的喜好。 当然,人类从数千年前就开始分析数据。古代美索不达米亚平原的记账人员为了有效地跟 踪记录信息发明了书写。自从圣经时代开始,政府就通过进行人口普查来建立大型的国民数据 库。两百多年来,精算师们也一直通过搜集大量的数据来进行风险规避。 模拟时代的数据收集和分析极其耗时耗力,新问题的出现通常要求我们重新收集和分析数 据。数字化的到来使得数据管理效率又向前迈出了重要的一步。数字化将模拟数据转换成计算 机可以读取的数字数据,使得存储和处理这些数据变得既便宜又容易,从而大大提高了数据管 理效率。过去需要几年时间才能完成的数据搜集,现在只要几天就能完成。但是,光有改变还 远远不够。数据分析者太沉浸于模拟数据时代的设想,即数据库只有单一的用途和价值,而正 是我们使用的技术和方法加深了这种偏见。虽然数字化是促成向大数据转变的重要原因,但仅 有计算机的存在却不足以实现大数据。 我们没有办法准确描述现在正在发生的一切,但是在第4章将提到的“数据化”概念可以帮助 我们大致了解这次变革。数据化意味着我们要从一切太阳底下的事物中汲取信息,甚至包括 很多我们以前认为和“信息”根本搭不上边的事情。比方说,一个人所在的位置、引擎的振 动、桥梁的承重等。我们要通过量化的方法把这些内容转化为数据。这就使得我们可以尝试许 多以前无法做到的事情,如根据引擎的散热和振动来预测引擎是否会出现故障。这样,我们就 激发出了这些数据此前未被挖掘的潜在价值。 大数据时代开启了一场寻宝游戏,而人们对于数据的看法以及对于由因果关系向相关 关系转化时释放出的潜在价值的态度,正是主宰这场游戏的关键。新兴技术工具的使用使这 一切成为可能。宝贝不止一件,每个数据集内部都隐藏着某些未被发掘的价值。这场发掘和利 用数据价值的竞赛正开始在全球上演。 第5章和第6章将讲述大数据如何改变了商业、市场和社会的本质。20世纪,价值已经从实 体基建转变为无形财产,从土地和工厂转变为品牌和产权。如今,一个新的转变正在进行,那 就是电脑存储和分析数据的方法取代电脑硬件成为了价值的源泉。数据成为了有价值的公司资 产、重要的经济投入和新型商业模式的基石。虽然数据还没有被列入企业的资产负债表,但这 只是一个时间问题。 虽然有些数据处理技术已经出现了一段时间,但是它们只为调查局、研究所和世界上的一 些巨头公司所掌握。沃尔玛和美国第一资本银行(CapitalOne)率先将大数据运用在了零售业和 银行业,因此改变了整个行业。如今这些技术大多都实现了大众化。 大数据对个人的影响是最惊人的。在一个可能性和相关性占主导地位的世界里,专业性变 得不那么重要了。行业专家不会消失,但是他们必须与数据表达的信息进行博弈。如同在电影 《点球成金》(Moneyball)里,棒球星探们在统计学家面前相形见绌——直觉的判断被迫让位 于精准的数据分析。这将迫使人们调整在管理、决策、人力资源和教育方面的传统理念。 我们大部分的习俗和惯例都建立在一个预设好的立场上,那就是我们用来进行决策的信息 必须是少量、精确并且至关重要的。但是,当数据量变大、数据处理速度加快,而且数据变得 不那么精确时,之前的那些预设立场就不复存在了。此外,因为数据量极为庞大,最后做出决 策的将是机器而不是人类自己。第7章将会讨论大数据的负面影响
在了解和监视人类的行为方面,社会已经有了数千年的经验。但是,如何来监管一个算法 系统呢?在信息化时代的早期,有一些政策专家就看到了信息化给人们的隐私权带来的威胁, 社会也已经建立起了庞大的规则体系来保障个人的信息安全。但是在大数据时代,这些规则都 成了无用的马其诺防线。人们自愿在网络上分享信息,而这种分享的能力成为了网络服务的一 个中心特征,而不再是一个需要规避的薄弱点了。 对我们而言,危险不再是隐私的泄露,而是被预知的可能性—这些能预测我们可能生 病、拖欠还款和犯罪的算法会让我们无法购买保险、无法贷款、甚至在实施犯罪前就被预先逮 捕。显然,统计把大数据放在了首位,但即便如此,个人意志是否应该凌驾于大数据之上呢? 就像出版印刷行业的发展推动国家立法保护言论自由(在此之前没有出台类似法律的必要,因 为没有太多的言论需要保护),大数据时代也需要新的规章制度来保卫权势面前的个人权利。 政府机构和社会在控制和处理数据的方法上必须有全方位的改变。不可否认,我们进入了 一个用数据进行预测的时代,虽然我们可能无法解释其背后的原因。如果一个医生只要求病人 遵从医嘱,却没法说明医学干预的合理性的话,情况会怎么样呢?实际上,这是依靠大数据取 得病理分析的医生们一定会做的事情。还有司法系统的“合理证据是不是应该改为“可能证 据”呢?如果真是这样,会对人类自由和尊严产生什么影响呢? 我们在大数据时代倡导的一系列规范将在第8章进行介绍。这些规范建立在我们很熟悉 的“小数据”时代发展并保留下来的规范的基础之上。新环境要求旧规范与时俱进。 大数据洞察 大数据给社会带来的益处将是多方面的。因为大数据已经成为解决紧迫世界性问题,如抑 制全球变暖、消除疾病、提高执政能力和发展经济的一个有力武器。但是大数据时代也向我们 提出了挑战,我们需要做好充足的准备迎接大数据技术给我们的机构和自身带来的改变 大数据标志着人类在寻求量化和认识世界的道路上前进了一大步。过去不可计量、存储 分析和共享的很多东西都被数据化了。拥有大量的数据和更多不那么精确的数据为我们理解世 界打开了一扇新的大门。社会因此放弃了寻找因果关系的传统偏好,开始挖掘相关关系的好 处 寻找原因是一种现代社会的一神论,大数据推翻了这个论断。但我们又陷入了一个历史的 困境,那就是我们活在一个“上帝已死”的时代。也就是说,我们曾经坚守的信念动摇了。讽刺 的是,这些信念正在被“更好”的证据所取代。那么,从经验中得来的与证据相矛盾的直觉、信 念和迷惘应该充当什么角色呢?当世界由探求因果关系变成挖掘相关关系,我们怎样才能既不 损坏建立在因果推理基础之上的社会繁荣和人类前行的基石,又取得实际的进步呢?本书意在 解释我们身在何处,我们从何而来,并且提供当下亟需的指导,以应对眼前的利益和危险。 1] Netflix,也常译作网狸公司。—译者注 [2]马奇诺防线是法国在第一次世界大战后,为防德军入侵而在其东北边境地区构筑的筑垒 配系,以其陆军部长姓氏命名。1940年5月至6月,德国主力通过阿登山脉,从马奇诺防线左翼 迂回,进抵马奇诺防线的后方,使防线丧失了作用。“马奇诺防线”现在用来意指看似表面坚 固,实际毫无价值的东西。—译者注
在了解和监视人类的行为方面,社会已经有了数千年的经验。但是,如何来监管一个算法 系统呢?在信息化时代的早期,有一些政策专家就看到了信息化给人们的隐私权带来的威胁, 社会也已经建立起了庞大的规则体系来保障个人的信息安全。但是在大数据时代,这些规则都 成了无用的马其诺防线[2]。人们自愿在网络上分享信息,而这种分享的能力成为了网络服务的一 个中心特征,而不再是一个需要规避的薄弱点了。 对我们而言,危险不再是隐私的泄露,而是被预知的可能性——这些能预测我们可能生 病、拖欠还款和犯罪的算法会让我们无法购买保险、无法贷款、甚至在实施犯罪前就被预先逮 捕。显然,统计把大数据放在了首位,但即便如此,个人意志是否应该凌驾于大数据之上呢? 就像出版印刷行业的发展推动国家立法保护言论自由(在此之前没有出台类似法律的必要,因 为没有太多的言论需要保护),大数据时代也需要新的规章制度来保卫权势面前的个人权利。 政府机构和社会在控制和处理数据的方法上必须有全方位的改变。不可否认,我们进入了 一个用数据进行预测的时代,虽然我们可能无法解释其背后的原因。如果一个医生只要求病人 遵从医嘱,却没法说明医学干预的合理性的话,情况会怎么样呢?实际上,这是依靠大数据取 得病理分析的医生们一定会做的事情。还有司法系统的“合理证据”是不是应该改为“可能证 据”呢?如果真是这样,会对人类自由和尊严产生什么影响呢? 我们在大数据时代倡导的一系列规范将在第8章进行介绍。这些规范建立在我们很熟悉 的“小数据”时代发展并保留下来的规范的基础之上。新环境要求旧规范与时俱进。 大数据洞察 大数据给社会带来的益处将是多方面的。因为大数据已经成为解决紧迫世界性问题,如抑 制全球变暖、消除疾病、提高执政能力和发展经济的一个有力武器。但是大数据时代也向我们 提出了挑战,我们需要做好充足的准备迎接大数据技术给我们的机构和自身带来的改变。 大数据标志着人类在寻求量化和认识世界的道路上前进了一大步。过去不可计量、存储、 分析和共享的很多东西都被数据化了。拥有大量的数据和更多不那么精确的数据为我们理解世 界打开了一扇新的大门。社会因此放弃了寻找因果关系的传统偏好,开始挖掘相关关系的好 处。 寻找原因是一种现代社会的一神论,大数据推翻了这个论断。但我们又陷入了一个历史的 困境,那就是我们活在一个“上帝已死”的时代。也就是说,我们曾经坚守的信念动摇了。讽刺 的是,这些信念正在被“更好”的证据所取代。那么,从经验中得来的与证据相矛盾的直觉、信 念和迷惘应该充当什么角色呢?当世界由探求因果关系变成挖掘相关关系,我们怎样才能既不 损坏建立在因果推理基础之上的社会繁荣和人类前行的基石,又取得实际的进步呢?本书意在 解释我们身在何处,我们从何而来,并且提供当下亟需的指导,以应对眼前的利益和危险。 [1] Netflix,也常译作网狸公司。——译者注 [2] 马奇诺防线是法国在第一次世界大战后,为防德军入侵而在其东北边境地区构筑的筑垒 配系,以其陆军部长姓氏命名。1940年5月至6月,德国主力通过阿登山脉,从马奇诺防线左翼 迂回,进抵马奇诺防线的后方,使防线丧失了作用。“马奇诺防线”现在用来意指看似表面坚 固,实际毫无价值的东西。——译者注
第一部分大数据时代的思维变革 01更多:不是随机样本,而是全体数据 当数据处理技术已经发生了翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时 代骑马一样。一切都改变了,我们需要的是所有的数据,“样本=总体”。 【大数据先锋】 穿孔卡片与美国人口普查 大数据与乔布斯的癌症治疗 Xoom与跨境汇款异常交易报警 巴拉巴西与第一次全社会层面的网络分析 让数据“发声” “大数据”全在于发现和理解信息内容及信息与信息之间的关系,然而直到最近,我们对此 似乎还是难以把握。IBM的资深“大数据”专家杰夫·乔纳斯( Jeff Jonas)提出要让数据“说话”。从 某种层面上来说,这听起来很平常。人们使用数据已经有相当长一段时间了,无论是日常进行 的大量非正式观察,还是过去几个世纪里在专业层面上用高级算法进行的量化研究,都与数据 有关。 在数字化时代,数据处理变得更加容易、更加快速,人们能够在瞬间处理成千上万的数 据。但当我们谈论能“说话”的数据时,我们指的远远不止这些。 实际上,大数据与三个重大的思维转变有关,这三个转变是相互联系和相互作用的。 首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。 ●其次,我们乐于接受数据的纷繁复杂,而不再追求精确性。 ●最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关 系 本章就将介绍第一个转变:利用所有的数据,而不再仅仅依靠一小部分数据。 很长一段时间以来,准确分析大量数据对我们而言都是一种挑战。过去,因为记录、储存 和分析数据的工具不够好,我们只能收集少量数据进行分析,这让我们一度很苦恼。为了让分 析变得简单,我们会把数据量缩减到最少。这是一种无意识的自省:我们把与数据交流的困难 看成是自然的,而没有意识到这只是当时技术条件下的一种人为的限制。如今,技术条件已经 有了非常大的提高,虽然人类可以处理的数据依然是有限的,也永远是有限的,但是我们可以 处理的数据量已经大大地增加,而且未来会越来越多。 在某些方面,我们依然没有完全意识到自己拥有了能够收集和处理更大规模数据的能力 我们还是在信息匮乏的假设下做很多事情,建立很多机构组织。我们假定自己只能收集到少量
第一部分 大数据时代的思维变革 01 更多:不是随机样本,而是全体数据 当数据处理技术已经发生了翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时 代骑马一样。一切都改变了,我们需要的是所有的数据,“样本=总体”。 【大数据先锋】 穿孔卡片与美国人口普查 大数据与乔布斯的癌症治疗 Xoom与跨境汇款异常交易报警 巴拉巴西与第一次全社会层面的网络分析 让数据“发声” “大数据”全在于发现和理解信息内容及信息与信息之间的关系,然而直到最近,我们对此 似乎还是难以把握。IBM的资深“大数据”专家杰夫·乔纳斯(Jeff Jonas)提出要让数据“说话”。从 某种层面上来说,这听起来很平常。人们使用数据已经有相当长一段时间了,无论是日常进行 的大量非正式观察,还是过去几个世纪里在专业层面上用高级算法进行的量化研究,都与数据 有关。 在数字化时代,数据处理变得更加容易、更加快速,人们能够在瞬间处理成千上万的数 据。但当我们谈论能“说话”的数据时,我们指的远远不止这些。 实际上,大数据与三个重大的思维转变有关,这三个转变是相互联系和相互作用的。 ●首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。 ●其次,我们乐于接受数据的纷繁复杂,而不再追求精确性。 ●最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关 系。 本章就将介绍第一个转变:利用所有的数据,而不再仅仅依靠一小部分数据。 很长一段时间以来,准确分析大量数据对我们而言都是一种挑战。过去,因为记录、储存 和分析数据的工具不够好,我们只能收集少量数据进行分析,这让我们一度很苦恼。为了让分 析变得简单,我们会把数据量缩减到最少。这是一种无意识的自省:我们把与数据交流的困难 看成是自然的,而没有意识到这只是当时技术条件下的一种人为的限制。如今,技术条件已经 有了非常大的提高,虽然人类可以处理的数据依然是有限的,也永远是有限的,但是我们可以 处理的数据量已经大大地增加,而且未来会越来越多。 在某些方面,我们依然没有完全意识到自己拥有了能够收集和处理更大规模数据的能力。 我们还是在信息匮乏的假设下做很多事情,建立很多机构组织。我们假定自己只能收集到少量