本章配套教学视频 《大数据技术原理与应用(第3版)》 在线视频观看地址 http://ww.icourse163.org/course/xmu-1002335004 大数据技术原理与应用 BIGDATA TECHNOLOGY AND APPLICATION 打开大数据之门,遨游大数据世界 大数据技术原理与应用(第3版 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 本章配套教学视频 http://www.icourse163.org/course/XMU-1002335004 《大数据技术原理与应用(第3版)》 在线视频观看地址
提纲 7.1概述 7.2 MapReduce体系结构 7.3 MapReduce工作流程 74实例分析: WordCount 7.5 MapReduce的具体应用 7.6 MapReduce编程实践 本PPT是如下教材的配套讲义: 《大数据技术原理与应用 -概念、存储、处理、分析与应用》 (2021年1月第3版) SBN:978-7-11554405-6 厦门大学林子雨编著,人民邮电出版社 欢迎访问《大数据技术原理与应用》教材官方网站: http://dblab.xmu.edu.cn/post/bigdata3 大数据技术原理与应用(第3版 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 提纲 • 7.1 概述 • 7.2 MapReduce体系结构 • 7.3 MapReduce工作流程 • 7.4 实例分析:WordCount • 7.5 MapReduce的具体应用 • 7.6 MapReduce编程实践 欢迎访问《大数据技术原理与应用》教材官方网站: http://dblab.xmu.edu.cn/post/bigdata3 本PPT是如下教材的配套讲义: 《大数据技术原理与应用 ——概念、存储、处理、分析与应用》 (2021年1月第3版) ISBN:978-7-115-54405-6 厦门大学 林子雨 编著,人民邮电出版社
7.1概述 分布式并行编程 7.1.2 MapReduce模型简介 7.1.3 Map和 Reduce函数 大数据技术原理与应用(第3 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.1 概述 • 7.1.1 分布式并行编程 • 7.1.2 MapReduce模型简介 • 7.1.3 Map和Reduce函数
》7.11分布式并行编程 “摩尔定律”,CPU性能大约每隔18个月翻一番 从2005年开始摩尔定律逐渐失效,需要处理的数据量快速增加,人 们开始借助于分布式并行编程来提高程序性能 分布式程序运行在大规模计算机集群上,可以并行执行大规模数据处 理任务,从而获得海量的计算能力 谷歌公司最先提出了分布式并行编程模型 MapReduce, Hadoop MapReduce是它的开源实现,后者比前者使用门槛低很多 大数据技术原理与应用(第3 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.1.1分布式并行编程 •“摩尔定律”, CPU性能大约每隔18个月翻一番 •从2005年开始摩尔定律逐渐失效,需要处理的数据量快速增加,人 们开始借助于分布式并行编程来提高程序性能 •分布式程序运行在大规模计算机集群上,可以并行执行大规模数据处 理任务,从而获得海量的计算能力 •谷歌公司最先提出了分布式并行编程模型MapReduce,Hadoop MapReduce是它的开源实现,后者比前者使用门槛低很多
》7.11分布式并行编程 问题:在 MapReduce出现之前,已经有像MP这样非常成熟的并行计算框架 了,那么为什么 Google还需要 MapReduce? Map Reduce相较于传统的并行 计算框架有什么优势? 传统并行计算框架 Map Reduce 集群架构/容错性共享式(共享内存/共享存储),容非共享式,容错性好 错性差 硬件/价格/扩展性刀片服务器、高速网、SAN,普通PC机,便宜,扩展 价格贵,扩展性差 性好 编程/学习难度What-hoW,难 What,简单 适用场景 实时、细粒度计算、计算密集型批处理、非实时、数据密 集型 大数据技术原理与应用(第3 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.1.1分布式并行编程 问题:在MapReduce出现之前,已经有像MPI这样非常成熟的并行计算框架 了,那么为什么Google还需要MapReduce?MapReduce相较于传统的并行 计算框架有什么优势? 传统并行计算框架 MapReduce 集群架构/容错性 共享式(共享内存/共享存储),容 错性差 非共享式,容错性好 硬件/价格/扩展性 刀片服务器、高速网、SAN, 价格贵,扩展性差 普通PC机,便宜,扩展 性好 编程/学习难度 what-how,难 what,简单 适用场景 实时、细粒度计算、计算密集型 批处理、非实时、数据密 集型