这些现象,20世纪最后四分之一以来,已经呈现加速度发展的新事物 在21世纪进展速度之快,更是铺天盖地、无所不在。涂先生在这本书里强调 不仅数据经过管理而大量地存在,而且,在现代的国家,尤其是民主社会,开 放的社会与政府之间,经由数据,彼此一目了然、无所隐瞒。一个自由的社会 掌握公权力的政府,跟任何其他政府一样,有压倒社会的庞大力量,因为他们 手上掌握了人生需要的许多数据。不过,这些数据,在自由的社会,公民也可 以一样取得,使政府所作所为,可以摊开在天地之间,让我们检验。过去封建 专制和集权各种政体,其执政者能压迫老百姓,而老百姓没有办法回制公权力 的压迫。涂先生特别标榜,美国奥巴马接任以后,尽力将数据开放于大众,固 然奥巴马是一个有开放心胸的政治人物,如此将政府掌握的数据,大量地开放 于群众,也是拜时代之赐,有如此的机缘,才能将数据公开。 涂先生引用胡适之先生与黄仁宇先生的话。胡先生说中国人习惯于“差不 多先生”,凡事马马虎虎、不求精确。黄仁宇先生认为,中国不懂得用数字来 管理国家。涂先生引用这两位先生的名言,当然是要彰显传统中国和今天美国 之间的巨大差异。不过我必须有所说明:胡先生和黄先生的话语,都是“爱之 深而责之切”的心态,他们身经当时中国的混乱,激愤而出此感言。 从历史上看看,不论中国和西方,任何国家发展到可以有一个复杂文官系 统管理以后,没有不依照数据来治国的。人口、资源、土地、财产种种的统计 数字,在中国历史上,自从战国时代形成列国的国家体制以后,没有一个朝代 不具有一定的数据库;只是以今天的标准来讲,粗糙和细密之间,古今有很多 的差别而已。以汉代为例,汉简所显示的家户统计,每一户中的人口,男女老 小,以及拥有的资产数目字,都详细统计,而且不论是居延边塞,或是荆州内 郡,格式一致。汉简各种家户统计,与唐代西域州府的记录对比,其内容格式 也是相当一致。这种基本的数据,在列朝的会典中,都见到其大概。当然,各 个朝代的数据,有做得好的,也有做得差的。大致讲起来,外族侵犯中国建立 的朝代,以武装力量强制建立政权,也往往依靠暴力的掠夺,取得他们所需要 的资源。一个上轨道的朝代,其数据还是相当完整。 大数据
再看西方历史。希腊时代,我们了解的资料不够。罗马帝国时代,全帝国 包含各种不同的政治单位,并没有一个大一统的文官政府;因此,全国性的资 料库似乎不存在。等到中古黑暗时期,国不成国,地方不过是大小封建领主占 有领土而已,他们并没有建立详细的资料库。近代以来,列国各自组成完整的 主权国家,这些数据也纷纷出现了。 这是以历史上政权掌握数字而言。一家大型的企业,例如,中国清代的票 如果他们手上没有复杂的数据库,就不能进行汇兑、放款、存款等等活动。 的东印度公司,手上握有丰富的资源,他们也不能不具有一个相当完整的 数据库,否则无以经营这么复杂的开拓业务 今天的数据时代,我已经在前面提过,不仅公司单位都有搜集数据的能力 而且更重要的,有搜寻引擎可以将资料迅速检索,从其中归纳出条理,有助于 了解情况。举一个例说,最近我们才看到,数据资料显示,美国百分之一的人 口,拥有全国财富百分之四十以上,百分之九十九的人口,拥有全国财富才过 半而已。对于许多长期习惯于美国是开放社会的一般人民,这一组数据显示的 现象,几乎可说是理想的破灭,使大家必须检讨:美国真是如此开放吗?还是 相对地在逐渐关闭?是不是财富与权力,已经逐渐集中到社会顶端一小撮的人 手中?他们以财富作为魔法师的指挥棒,安排了我们的生活、决定了我们的未 来。这种现象能够暴露于众,当然就因为在美国究竟资讯是公开的。 相对而言,在极权的国家,他们手上拥有足够的资讯,足以利用这资讯 掌握每一个人的日常生活;“老大哥”的影子,可以无所不在。资讯时代,对 于极权的掌权者,他们拥有无可比拟的强大工具,甚至于比坦克车和催泪弹更 为有效。资讯管理、资讯控制,是无影无踪,又是无所不在。说到这里,我们 不能不更多警惕。 作为一个史学工作者,看惯了世间的灾难和创伤,不能不提出警告:这个 中性工具,也只有在了解到资讯工具阴暗面—双刃剑的特性,在权势独占这 工具时,可能出现的危险。有此认识,我们才能善于利用这了不起的工具, 开创更好的未来,也防治不虞的灾害
涂先生这部书,清楚地叙述了资讯时代对我们生活的影响与社会的控御力 他讨论的范围方方面面、极为广泛。我盼望有了这本书作为起头,还有很多对 资讯工具有研究、也有心得的人,参加讨论,让我们更清楚地了解,这个21 世纪正在坐长的新的知识工具。为此,我们要对涂先生致敬与致谢,因为他为 华文世界提出一个重要的话题。 2012年4月8日于匹兹堡 大数据
序言二中国的雄心应该拓展到大数据领域 托马斯·H·达文波特 无论是对中国政府,还是就中国的商业组织而言,《大数据》都是一本重 要的书。大数据及其分析,将会在未来10年改变几乎每一个行业的业务功能。 任何一个组织,如果早一点着手大数据的工作,都可以获得明显的竞争优势 正如早期在“小数据”时代脱颖而出的竞争者一样,如第一资本金融公司、前 进保险公司、万豪酒店等等。时光荏苒,现在到了抓住大数据机遇的时候了 大数据之所以产生,是因为今天无处不在的传感器和微处理器。我们正在 迈进普适计算的时代。其实,所有的机械或电子设备都可以留下数据痕迹,这 些痕迹表明了它的性能、位置或状态。这些设备和使用它的人,通过互联网互 相交流,又形成了另外一个庞大的数据源。当这些数据和来自其他媒体、无线 或有线电话、有线电视、卫星等等来源的数据相结合的时候,更加显得庞大无比 这些数据可以被使用,这意味着我们可以把所有的商业或组织活动都视为大 1托马斯·H·达文波特( Thomas H. Davenport),哈佛大学商学院访问教授、巴布森学院( Babson College) 信息技术与管理学总统杰出奖教授,2003年,他被《咨询》杂志评为全球“最优秀的25位咨询大师”之 2005年被《优化》杂志评为世界商业与技术分析顶级三强
数据的问题。如今的制造业,大多数机器上都已经安装有一个或多个微处理器, 已经进入了大数据的状态。消费营销行业,无数顾客的交易触点和网上点击的流 量,也成了大数据的问题。谷歌甚至认为其无人驾驶汽车也是一个大数据的问题。 世界各国的政府也开始认识到,他们坐拥海量数据,这些数据都有待分析。 在亚洲国家的政府,也出现了大数据战略以及基于数据分析的方案和倡议。去 年,新加坡成立了德勤数据分析研究所(DAI),这个新的机构是由新加坡政 府经济发展委员会资助成立的。德勤数据分析研究所的目标,就是引领政府和 企业对于数据的研究和应用。新加坡政府还资助了几所大学开展大数据和数据 分析的研究活动。 任何一个组织,要抓住大数据的机遇,就必须做好几个方面的工作。从技 术角度来看,首先要收集并且开发特定的工具,来管理大规模并行服务器产生 的结构化和非结构化数据,这些数据,可能是自已专有的,也可能来源于“云 其次,每一个组织都需要选定分析软件,用它来挖掘数据的意义。但可能最重 要的是,任何组织都需要人才来管理和分析大数据。这些人被称为“数据科学 家”,他们集黑客和定量分析员的优势和特长于一身,非常短缺。聪明的领导人, 将想方设法留住这类人才。 不少公司都意识到了这种难得的机遇,现在已经采取了行动。例如,通 用电气将投资15亿美元在旧金山湾区建立一个全球软件和分析中心,作为其 全球研发机构的一部分。这个中心拟雇用至少400名数据科学家,现在已经有 180名各就其位了。通用电气在全球拥有超过1万名工程师从事软件开发和数 据分析工作,通过共同的分析平台、训练、领导力培训以及创新,他们的努力 得以协调合作。通用电气对于大数据的研究活动,相当一部分集中在工业产品 上,例如机车、涡轮机、喷气发动机以及大型能源发电设施 对任何一个试图通过大数据获得成功的组织来说,通用电气的投资规模和 雄心都是一个榜样。在很多领域,中国政府和中国的企业都有雄心勃勃的计划 这引起了全世界的关注,这些雄心和计划,现在应该拓展到大数据的领域。涂 子沛先生的这本书,将在这个重要的领域,为中国政府和企业的努力提供引导 和帮助。 大数据