大数据思维 舍恩伯格 随机样本vs全体数据全部数据而非抽样 精确性vs混杂 追求效率而非绝对精确 因果关系vs相关关系 重视相关而非因果 自然思维vs智慧思维 重视机器智能 tuMover OhtI Nittentime REVOLUT 大数据时代
大数据思维 随机样本vs全体数据 精确性vs混杂 因果关系vs相关关系 全部数据而非抽样 追求效率而非绝对精确 重视相关而非因果 自然思维vs智慧思维 重视机器智能 舍恩伯格
基于大数据的相关性分析 Tweets about the price of rice Food Price Inflation
基于大数据的相关性分析
空气污染与离婚率上升 中国历年离婚率 2 0 2007-2013年中国空气质量指数(AQ1)走势图 350 150 100 2007年2008年2009年2010年2011年2012年2013年
空气污染与离婚率上升
从春运人口迁徙看哪些地方楼市危险了 从2015年春节迁徙图上看,人 口迁入城市最多的前五名分别 是重庆、赣州、北京、玉林、 阜阳;而人口迁出城市最多的 前五名则是北京、上海、深圳 、东莞、广州。这个数据说明 什么问题? 收意到盘 重庆、江西赣州、安徽阜阳 广西玉林、河南周口、江西上 饶、湖南衡阳、河南信阳这些 城市的楼市存在危险。高铁贯 通全国以后,反而更加剧了人 口向资源集中地区(北上广深上 1 1② 和省会)流动的趋势 http://trends.baiducom
从春运人口迁徙看哪些地方楼市危险了 • 从2015年春节迁徙图上看,人 口迁入城市最多的前五名分别 是重庆、赣州、北京、玉林、 阜阳;而人口迁出城市最多的 前五名则是北京、上海、深圳 、东莞、广州。这个数据说明 什么问题? • 重庆、江西赣州、安徽阜阳、 广西玉林、河南周口、江西上 饶、湖南衡阳、河南信阳这些 城市的楼市存在危险。高铁贯 通全国以后,反而更加剧了人 口向资源集中地区(北上广深 和省会)流动的趋势。 • http://trends.baidu.com/
大数据相关动向 商业解决方案 开源解决方案 HP2011年推出 vertica数据库 开源组织 Apache在2008年将Hado。p列为顶级 Oracle201l年推出 noSQL数据库 EMC2010年收购 Greenplum ● Teradata2011年收购 Asterdata,并推出 2010年 HBase自 Hadoop上诞生 开源组织GNU2010年发布 Mongodb SQL-Mapreduce ∨ mware2010年提供开源产品 Redis BM2010年收购 Netezza ● Twitter2011年提供开源产品 Storm SAP2011年收购 Sybase 商业企业和开源组织都纷纷推出各种大数据解决方案,这些方案既存在相同点,也各有侧 重,目前尚无统一的行业技术标准或技术领域细分规则 互联网企业 传统企业 互联网企业实力强且海量数据处理需求最为迫切 传统企业能力有限,数据处理工作主要依赖于系 是大数据发起者、倡导者、开发者和最终使用者,大 统集成商,重点在应用实现,「技术路线上以跟随 数据应用场景十分清晰 成熟技术(含开源技术)为主 ● Google研发 Bigtable并自行使用 目前还是以数据库、数据仓库技术为主,对大数 Yahoo发起 E Hadoop/ Hbase开源并自用 据技术仍处于认知或小范围摸索实验阶段,应用 FACEBOOK、百度、淘宝等均使用 场景仍在分析梳理中 ● Twitter开发Sorm自用并提供开源
大数据相关动向 商业解决方案 ⚫ HP 2011年推出vertica数据库 ⚫ Oracle 2011年推出noSQL数据库 ⚫ EMC 2010年收购Greenplum ⚫ Teradata 2011年收购Asterdata,并推出 SQL-Mapreduce ⚫ IBM 2010年收购Netezza ⚫ SAP 2011年收购Sybase 开源解决方案 ⚫ 开源组织Apache在2008年将Hadoop列为顶级 项目 ⚫ 2010年 HBase自Hadoop上诞生 ⚫ 开源组织GNU 2010年发布Mongodb ⚫ Vmware 2010年提供开源产品Redis ⚫ Twitter 2011年提供开源产品Storm 商业企业和开源组织都纷纷推出各种大数据解决方案,这些方案既存在相同点,也各有侧 重,目前尚无统一的行业技术标准或技术领域细分规则 互联网企业IT实力强且海量数据处理需求最为迫切, 是大数据发起者、倡导者、开发者和最终使用者,大 数据应用场景十分清晰 ⚫ Google 研发Bigtable并自行使用 ⚫ Yahoo发起Hadoop/Hbase开源并自用, FACEBOOK、百度、淘宝等均使用 ⚫ Twitter开发Storm自用并提供开源 传统企业IT能力有限,数据处理工作主要依赖于系 统集成商,重点在应用实现,IT技术路线上以跟随 成熟技术(含开源技术)为主 目前还是以数据库、数据仓库技术为主,对大数 据技术仍处于认知或小范围摸索实验阶段,应用 场景仍在分析梳理中 互联网企业 传统企业