当前位置：和泉文库 > 计算机 > 浏览文档

厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）第七章 MapReduce

• 7.1 概述 • 7.2 MapReduce体系结构 • 7.3 MapReduce工作流程 • 7.4 实例分析：WordCount • 7.5 MapReduce的具体应用 • 7.6 MapReduce编程实践

文件格式：PPT，文件大小：3MB，售价：9.91元

文档详细内容（约41页）

提纲 7.1概述 7.2 MapReduce体系结构 7.3 MapReduce工作流程 74实例分析: WordCount 7.5 MapReduce的具体应用 7.6 MapReduce编程实践本PPT是如下教材的配套讲义: 21世纪高等教育计算机规划教材《大数据技术原理与应用 —概念、存储、处理、分析与应用》 (2015年8月第1版) 厦门大学林子雨编著,人民邮电出版社 SB№:9787-115392879 欢迎访问《大数据技术原理与应用》教材官方网站: http://dblab.xmu.edu.cn/post/bigdata 《大数据技术原理与应用》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《大数据技术原理与应用》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 提纲 • 7.1 概述 • 7.2 MapReduce体系结构 • 7.3 MapReduce工作流程 • 7.4 实例分析：WordCount • 7.5 MapReduce的具体应用 • 7.6 MapReduce编程实践欢迎访问《大数据技术原理与应用》教材官方网站： http://dblab.xmu.edu.cn/post/bigdata 本PPT是如下教材的配套讲义： 21世纪高等教育计算机规划教材《大数据技术原理与应用 ——概念、存储、处理、分析与应用》（2015年8月第1版）厦门大学林子雨编著，人民邮电出版社 ISBN:978-7-115-39287-9

7.1概述分布式并行编程 7.1.2 MapReduce模型简介 7.1.3 Map和 Reduce函数《大数据技术原理与应用》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《大数据技术原理与应用》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 7.1 概述 • 7.1.1 分布式并行编程 • 7.1.2 MapReduce模型简介 • 7.1.3 Map和Reduce函数

》7.11分布式并行编程 “摩尔定律”,CPU性能大约每隔18个月翻一番从2005年开始摩尔定律逐渐失效,需要处理的数据量快速增加,人们开始借助于分布式并行编程来提高程序性能分布式程序运行在大规模计算机集群上,可以并行执行大规模数据处理任务,从而获得海量的计算能力谷歌公司最先提出了分布式并行编程模型 MapReduce, Hadoop MapReduce是它的开源实现,后者比前者使用门槛低很多《大数据技术原理与应用》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《大数据技术原理与应用》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 7.1.1分布式并行编程 •“摩尔定律”， CPU性能大约每隔18个月翻一番 •从2005年开始摩尔定律逐渐失效，需要处理的数据量快速增加，人们开始借助于分布式并行编程来提高程序性能 •分布式程序运行在大规模计算机集群上，可以并行执行大规模数据处理任务，从而获得海量的计算能力 •谷歌公司最先提出了分布式并行编程模型MapReduce，Hadoop MapReduce是它的开源实现，后者比前者使用门槛低很多

》7.11分布式并行编程问题:在 MapReduce出现之前,已经有像MP这样非常成熟的并行计算框架了,那么为什么 Google还需要 MapReduce? Map Reduce相较于传统的并行计算框架有什么优势? 传统并行计算框架 Map Reduce 集群架构/容错性共享式(共享内存/共享存储),容非共享式,容错性好错性差硬件/价格/扩展性刀片服务器、高速网、SAN,普通PC机,便宜,扩展价格贵,扩展性差性好编程/学习难度What-hoW,难 What,简单适用场景实时、细粒度计算、计算密集型批处理、非实时、数据密集型《大数据技术原理与应用》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《大数据技术原理与应用》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 7.1.1分布式并行编程问题：在MapReduce出现之前，已经有像MPI这样非常成熟的并行计算框架了，那么为什么Google还需要MapReduce？MapReduce相较于传统的并行计算框架有什么优势？传统并行计算框架 MapReduce 集群架构/容错性共享式(共享内存/共享存储)，容错性差非共享式，容错性好硬件/价格/扩展性刀片服务器、高速网、SAN，价格贵，扩展性差普通PC机，便宜，扩展性好编程/学习难度 what-how，难 what，简单适用场景实时、细粒度计算、计算密集型批处理、非实时、数据密集型

7.12 MapReduce模型简介 .MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数:Map和 Reduce 编程容易,不需要掌握分布式并行编程细节,也可以很容易把自己的程序运行在分布式系统上,完成海量数据的计算 MapReduce采用“分而治之”策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片(spit),这些分片可以被多个Map任务并行处理 . MapReduce设计的一个理念航是“计算向数据靠拢”,而不是“数据向计算靠拢”,因为,移动数据需要大量的网络传输开销 Map Reduce框架采用了 Master/Slave架构,包括一个 Master和若干个 Slave Mastel上运行 Job tracker,Save上运行 Task Tracker Hadoop框架是用Java实现的,但是, MapReduce应用程序则不一定要用Java来写《大数据技术原理与应用》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《大数据技术原理与应用》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 7.1.2MapReduce模型简介 •MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数：Map和Reduce •编程容易，不需要掌握分布式并行编程细节，也可以很容易把自己的程序运行在分布式系统上，完成海量数据的计算 •MapReduce采用“分而治之”策略，一个存储在分布式文件系统中的大规模数据集，会被切分成许多独立的分片（split），这些分片可以被多个Map任务并行处理 •MapReduce设计的一个理念就是“计算向数据靠拢”，而不是“数据向计算靠拢”，因为，移动数据需要大量的网络传输开销 •MapReduce框架采用了Master/Slave架构，包括一个Master和若干个Slave。 Master上运行JobTracker，Slave上运行TaskTracker •Hadoop框架是用Java实现的，但是，MapReduce应用程序则不一定要用Java来写

点击进入文档下载页（PPT格式）

共41页，可试读14页，点击继续阅读 ↓↓

您可能感兴趣的文档

厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）第八章流计算（主讲：林子雨）
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 8 Future Trends, Privacy and Managerial Considerations in Analytics
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 7 Big Data Concepts and Tools
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 6 Prescriptive Analytics：Optimization and Simulation
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 5 Predictive Analytics II：Text, Web, and Social Media Analytics
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 4 Predictive Analytics I：Data Mining Process, Methods, and Algorithms
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 3 Descriptive Analytics II：Business Intelligence and Data Warehousing
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 2 Descriptive Analytics I：Nature of Data, Statistical Modeling, and Visualization
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 1 An Overview of Business Intelligence, Analytics, and Data Science
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 8 Future Trends, Privacy and Managerial Considerations in Analytics
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 7 Big Data Concepts and Tools
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 6 Prescriptive Analytics：Optimization and Simulation
厦门大学：《Spark编程基础》课程教学PPT讲义课件（Scala版）第1章大数据技术概述
厦门大学：《Spark编程基础》课程教学PPT讲义课件（Python版）第4章 RDD编程
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）第六章云数据库
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）第一章大数据概述
厦门大学：《计算机应用基础》PPT讲义课件_第一章信息与计算机基础
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）课程介绍（主讲：林子雨）
厦门大学数据库实验室论文阅读报告二
厦门大学：《数据库系统原理》课程教学资源（PPT课件讲稿，2016版）第一章绪论（林子雨）
厦门大学：《数据库系统原理》课程教学资源（PPT课件讲稿，2016版）第四章数据库安全性
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第3版）第8章 Hadoop架构再探讨
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第2版）第3章分布式文件系统HDFS
厦门大学：《Spark编程基础》课程教学PPT讲义课件（Scala版）第5章 RDD编程

点击购买下载（PPT）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录