第4章 Mapreduce 《大数据技术基础》
《大数据技术基础》 第4章 MapReduce
课程提要 口分布式并行编程:编程方式的变革 口 Mapreduce模型概述 口Map和 Reduce函数 口 Mapreduce工作流程 口并行计算的实现 口实例分析: Word count 口新 Mapreduce框架Yarn 《大数据技术基础》
《大数据技术基础》 课程提要 分布式并行编程:编程方式的变革 MapReduce模型概述 Map和Reduce函数 MapReduce工作流程 并行计算的实现 实例分析:WordCount 新MapReduce框架Yarn
课程提要 口分布式并行编程:编程方式的变革 口 Mapreduce模型概述 口Map和 Reduce函数 口 Mapreduce工作流程 口并行计算的实现 口实例分析: Word Count 《大数据技术基础》
《大数据技术基础》 课程提要 分布式并行编程:编程方式的变革 MapReduce模型概述 Map和Reduce函数 MapReduce工作流程 并行计算的实现 实例分析:WordCount
分布式并行编程:编程方式的变革 根据摩尔定律,约每隔18个月,CPU性能会提高一倍。在摩尔定律的 作用下,软件不用做任何改变,就可以享受性能的提升。 然而,由于晶体管电路已经逐渐接近其物理上的性能极限,摩尔定律 在2005年左右开始失效了,人类再也不能期待单个CPU的速度每 隔18个月就翻一倍,为我们提供越来越快的计算性能 · Intel、AMD、IBM等芯片厂商开始从多核这个角度来挖掘CPU的性能潜 力,多核时代以及互联网时代的到来,将使软件编程方式发生重大变 革,基于多核的多线程并发编程以及基于大规模计算机集群的分布式 并行编程是将来软件性能提升的主要途径 《大数据技术基础》
《大数据技术基础》 分布式并行编程:编程方式的变革 • 根据摩尔定律,约每隔18个月,CPU性能会提高一倍。在摩尔定律的 作用下,软件不用做任何改变,就可以享受性能的提升。 • 然而,由于晶体管电路已经逐渐接近其物理上的性能极限,摩尔定律 在 2005 年左右开始失效了,人类再也不能期待单个 CPU 的速度每 隔 18 个月就翻一倍,为我们提供越来越快的计算性能。 • Intel、AMD、IBM等芯片厂商开始从多核这个角度来挖掘CPU的性能潜 力,多核时代以及互联网时代的到来,将使软件编程方式发生重大变 革,基于多核的多线程并发编程以及基于大规模计算机集群的分布式 并行编程是将来软件性能提升的主要途径
分布式并行编程:编程方式的变革 基于集群的分布式并行编程,能够让软件与数据同时运行在连成一个 网络的许多台计算机上,可以很容易地通过增加计算机来扩充新的计 算结点,并由此获得不可思议的海量计算能力,但分布式并行开发与 传统的顺序执行开发逻辑大不相同。 ·开源的 Hadoop的出现,则极大地降低了分布式并行开发的门槛。基 于 Hadoop编程非常简单,无需仼何并行开发经验,也可以轻松地开 发出分布式的并行程序,并让其令人难以置信地同时运行在数百台机 器上,然后在短时间内完成海量数据的计算 随着“云计算的普及,仼何人都可以轻松获得这样的海量计算能力 。例如,现在 Amazon公司的云计算平台 Amazon eo2已经提供了这 种按需计算的租用服务。 《大数据技术基础》
《大数据技术基础》 分布式并行编程:编程方式的变革 • 基于集群的分布式并行编程,能够让软件与数据同时运行在连成一个 网络的许多台计算机上,可以很容易地通过增加计算机来扩充新的计 算结点,并由此获得不可思议的海量计算能力,但分布式并行开发与 传统的顺序执行开发逻辑大不相同。 • 开源的 Hadoop的出现,则极大地降低了分布式并行开发的门槛。基 于 Hadoop编程非常简单,无需任何并行开发经验,也可以轻松地开 发出分布式的并行程序,并让其令人难以置信地同时运行在数百台机 器上,然后在短时间内完成海量数据的计算。 • 随着“云计算”的普及,任何人都可以轻松获得这样的海量计算能力 。例如,现在 Amazon 公司的云计算平台 Amazon EC2 已经提供了这 种按需计算的租用服务