第3章 Hadoop 《大数据技术基础》
《大数据技术基础》 第3 章 Hadoop
提纲 Hadoop述 Hadoop发展简史 Hadoop的功能与作用 为什么不用关系型数据库管理系统 · Hadoop优点 Hadoop的应用现状和发展趋势 Hadoop项目及其结构 Hadoop 的体系结构 Hadoop与分布式开发 Hadoop应用案例 Hadoop平台上的海量数据排序 《大数据技术基础》
《大数据技术基础》 提纲 • • • • • • • • • • • Hadoop概述 Hadoop发展简史 Hadoop的功能与作用 为什么不用关系型数据库管理系统 Hadoop优点 Hadoop的应用现状和发展趋势 Hadoop项目及其结构 Hadoop的体系结构 Hadoop与分布式开发 Hadoop应用案例 Hadoop平台上的海量数据排序
Hadoop概述 Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架,它 实现了 Map/Reduce计算模型。借助于Hado,程序员可以轻松地编写分布 式并行程序,将其运行于计算机集群上,完成海量数据的计算。 Compute Cluster DI S Back I Map dats data datad OFS Blok 1 data data data data data data data data datadata Results data data data data data DFS Bkk 2 data data data data data data datadata data data DFS Bo Map Reduce data data data data data ata data data datadata DES Back2 data data data data data 山btad data data data data dara data datadata data data DFS Black 《大数据技术基础》
《大数据技术基础》 Hadoop概述 Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架,它 实现了 Map/Reduce 计算模型。借助于 Hadoop, 程序员可以轻松地编写分布 式并行程序,将其运行于计算机集群上,完成海量数据的计算
Hadoop发展简史 Hadoop起源于 Apache Nutch,后者是一个开源的网络搜索引擎,本身也是由 Lucene项目的 部分 Nutch项目开始于2002年,一个可工作的抓取工具和搜索系统很快浮出水面。 2004年, Google发表了论文,向全世界介绍了 MapReduce 2005年初, Nutch的开发者在 Nutch上有了一个可工作的 MapReduce应用,到当年年中,所 有主要的 Nutch算法被移植到使用 Mapreduce和NDFS来运行。 Nutch中的NDFS和 MapReduce实现的应用远不只是搜索领域。 在2006年2月,他们从 Nutch转移出来成为一个独立的 Lucene子项目,成为 Hadoop 在2008年2月,雅虎宣布其搜索引擎产品部署在一个拥有1万个内核的 Hadoop集群上 2008年4月, Hadoop打破世界纪录,成为最快排序1TB数据的系统。运行在一个910节点的 群集, Hadoop在209秒内排序了1TB的数据(还不到三分半钟),击败了前一年的297秒冠 军。同年11月,谷歌在报告中声称,它的 MapReduce实现执行TB数据的排序只用了68秒。 在2009年5月,有报道宣称 Yahoo的团队使用 Hadoop对1TB的数据进行排序只花了62秒时间 《大数据技术基础》
《大数据技术基础》 Hadoop发展简史 • • • • • • • • Hadoop起源于Apache Nutch,后者是一个开源的网络搜索引擎,本身也是由Lucene项目的 一部分。 Nutch项目开始于2002年,一个可工作的抓取工具和搜索系统很快浮出水面。 2004年,Google发表了论文,向全世界介绍了MapReduce。 2005年初,Nutch的开发者在Nutch上有了一个可工作的MapReduce应用,到当年年中,所 有主要的Nutch算法被移植到使用MapReduce和NDFS来运行。 Nutch中的NDFS和MapReduce实现的应用远不只是搜索领域。 在2006年2月,他们从Nutch转移出来成为一个独立的Lucene子项目,成为Hadoop。 在2008年2月,雅虎宣布其搜索引擎产品部署在一个拥有1万个内核的Hadoop集群上。 2008年4月,Hadoop打破世界纪录,成为最快排序1TB数据的系统。运行在一个910节点的 群集,Hadoop在209秒内排序了1TB的数据(还不到三分半钟),击败了前一年的297秒冠 军。同年11月,谷歌在报告中声称,它的MapReduce实现执行1TB数据的排序只用了68秒。 在2009年5月,有报道宣称Yahoo的团队使用Hadoop对1TB的数据进行排序只花了62秒时间
Hadoop大事记 2004年——最初的版本(现在称为HDFS和 MapReduce)由 Doug Cutting和 Mike cafarella开始 实施 2005年12月— -Nutch移植到新的框架, Hadoop在20个节点上稳定运行 2006年月— Doug Cutting加入雅虎。 2006年2月— Apache Hadoop项目正式启动以支持 MapReduce和HDFS的独立发展 2006年2月—雅虎的网络计算团队采用 Hadoop 2006年4月——标准排序(10GB每个节点)在188个节点上运行479个小时。 2006年5月—雅虎建立了一个300个节点的 Hadoop研究集群。 206年5月——标准排序在500个节点上运行42个小时(硬件配置比4月的更好) 2006年11月—研究集群增加到600个节点 《大数据技术基础》
《大数据技术基础》 Hadoop大事记 2004年——最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始 实施。 2005年12月——Nutch移植到新的框架,Hadoop在20个节点上稳定运行。 2006年1月——Doug Cutting加入雅虎。 2006年2月——Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。 2006年2月——雅虎的网络计算团队采用Hadoop。 2006年4月——标准排序(10GB每个节点)在188个节点上运行47.9个小时。 2006年5月——雅虎建立了一个300个节点的Hadoop研究集群。 2006年5月——标准排序在500个节点上运行42个小时(硬件配置比4月的更好)。 2006年11月——研究集群增加到600个节点