大数据的增长 Data AVAILAblE to an organization Percent of data an organization can PROcEss 如今可供组织使用的数据量不断增长,而它们可分析的数据比例不断下降
大数据的增长
大数据的产生 facebook cutter 淘宝网300 Taobao com B2C Retail 中社交网络 amazoncom interest ebY Google soso搜搜 搜索引擎 YAHOO!搜狐Bm必应 PayPal 5春HU.Com 门户网站 金融、电信行业 TEASE NASA sina. com cn AMERICAN 中国工银行 军事、科学研究 DOPRESS
大数据的产生
大数据的处理模式 大数据的处理模式可分为流处理和批处理两种:批处理是先 存储后处理,而流处理则是直接处理。 流处理把数据视为源源不断的数据流,当新的数据到来时立 即处理并返回结果。能够较好地应对实时数据处理的需求, 主要应甩天网页点責数的实时统计、传感器网络、金融中的 批处理利用Map/ Reduce法把间题分而治之,有效地避免数 据传输过程中产生的大量通信开销,可以解决许多现实间题, 在生物信息学、文本挖掘等领域得到了厂泛应用
大数据的处理模式 • 大数据的处理模式可分为流处理和批处理两种:批处理是先 存储后处理,而流处理则是直接处理。 • 流处理把数据视为源源不断的数据流,当新的数据到来时立 即处理并返回结果。能够较好地应对实时数据处理的需求, 主要应用于网页点击数的实时统计、传感器网络、金融中的 高频交易等实时性较高的场景。 • 批处理利用Map/Reduce方法把问题分而治之,有效地避免数 据传输过程中产生的大量通信开销,可以解决许多现实问题, 在生物信息学、文本挖掘等领域得到了广泛应用
Google的低成本之道 ·不使用超级计算机,不使用存储(淘宝的去IOE之路) ·大量使用普通的Pc服务器(去掉机箱、外设、硬盘),提 供有冗余的集群服务 全世界多个数据中心,有些附带发电厂 运营商向 google倒付费
Google的低成本之道 • 不使用超级计算机,不使用存储(淘宝的去IOE之路) • 大量使用普通的PC服务器(去掉机箱、外设、硬盘),提 供有冗余的集群服务 • 全世界多个数据中心,有些附带发电厂 • 运营商向Google倒付费
Google面对的数据和计算难题 大量的网页怎么存储? 搜索算法 Page-Rank算法 YAHOo YAHOO!
Google面对的数据和计算难题 • 大量的网页怎么存储? • 搜索算法 • Page-Rank算法