当前位置：和泉文库 > 计算机 > 浏览文档

重庆大学：《大数据技术基础》课程教学资源（课件讲稿）04 MapReduce

 分布式并行编程：编程方式的变革  MapReduce模型概述  Map和Reduce函数  MapReduce工作流程  并行计算的实现  实例分析：WordCount  新MapReduce框架Yarn

文件格式：PDF，文件大小：1.45MB，售价：22.3元

共85页，可试读20页，点击往前阅读 ↑↑

文档详细内容（约85页）

课程提要口分布式并行编程 □ Mapreduce模型概述口Map和 Reduce函数口 Mapreduce工作流程口并行计算的实现口实例分析: Word Count 《大数据技术基础》

《大数据技术基础》课程提要  分布式并行编程  MapReduce模型概述  Map和Reduce函数  MapReduce工作流程  并行计算的实现  实例分析：WordCount

MapReduce工作流程概述下图说明了用 MapReduce来处理大数据集的过程,就是将大数据集分解为成百上千的小数据集,每个(或若干个)数据集分别由集群中的个结点(一般就是一台普通的计算机)进行处理并生成中间结果,然后这些中间结果又由大量的结点进行合并,形成最终结果。输入 Map任务 Reduce任务输出分片0 mapo 分片1 map 00 reduce ) 输出0 分片2 m reduce o 输出1 分片3 mapo reduce 输出2 分片4 mapo 《大数据技术基础》

《大数据技术基础》 MapReduce工作流程概述 • 下图说明了用MapReduce来处理大数据集的过程，就是将大数据集分解为成百上千的小数据集，每个(或若干个)数据集分别由集群中的一个结点(一般就是一台普通的计算机)进行处理并生成中间结果，然后这些中间结果又由大量的结点进行合并，形成最终结果

MapReduce工作流程概述 Mapreduce的输入一般来自HDFS中的文件,这些文件分布存储在集群内的节点上。运行一个 MapReduce程序会在集群的许多节点甚至所有节点上运行 mapping任务,任意的 mapper都可以处理任意的输入文件。 ·当 mapping阶段完成后,这阶段所生成的中间键值对数据必须在节点间进行交换,把具有相同键的数值发送到同一个 reducer。 Reduce任务在集群内的分布节点同 mappers的一样。这是 Mapreduce中唯一的任务节点间的通信过程所有数据传送都是由 Hadoop Mapreduce平台自身去做的,是通过关联到数值上的不同键来隐式引导的。这是 Hadoop Mapreduce的可靠性的基础元素。如果集群中的节点失效了,任务必须可以被重新启动《大数据技术基础》

《大数据技术基础》 MapReduce工作流程概述 • MapReduce的输入一般来自HDFS中的文件，这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务，任意的mapper都可以处理任意的输入文件。 • 当mapping阶段完成后，这阶段所生成的中间键值对数据必须在节点间进行交换，把具有相同键的数值发送到同一个reducer。Reduce任务在集群内的分布节点同mappers的一样。这是MapReduce中唯一的任务节点间的通信过程。 • 所有数据传送都是由Hadoop MapReduce平台自身去做的，是通过关联到数值上的不同键来隐式引导的。这是Hadoop MapReduce的可靠性的基础元素。如果集群中的节点失效了，任务必须可以被重新启动

Mapreduce各个执行阶段般而言, Hadoop的一个简单的 MapReduce任务执行流程如下 l) Job tracker负责分布式环境中实现客户端创建任务并提交。 2) InputFormat模块负责做Map前的预处理。 3)将 RecordReader处理后的结果作为Map的输入,然后Map执行定义的Map逻辑,输出处理后的( key, value)对到临时中间文件 4) Shuffled& Partitioner:在 Mapreduce流程中,为了让 reduce可以并行处理map结果,必须对map的输出进行一定的排序和分割,然后再交给对应的 reduce。这个将map输出进行进一步整理并交给 reduce 的过程,就称为 shuffle. partitioner是选择配置,主要作用是在多个 Reduce的情况下,指定Map的结果由某一个 Reduce处理,每一个 Reduce都会有单独的输出文件, 5) Reduce执行具体的业务逻辑,即处理数据以得到结果的业务,并且将处理结果输出给 OutputFormat 6) OutputFormat的作用是,验证输出目录是否已经存在和输出结果类型是否符合 Config中配置类型,若成立则输出 Reduce汇总后的结果《大数据技术基础》

《大数据技术基础》 MapReduce各个执行阶段 • 1) 2) 3) 一般而言，Hadoop的一个简单的MapReduce任务执行流程如下： JobTracker负责分布式环境中实现客户端创建任务并提交。 InputFormat模块负责做Map前的预处理。将RecordReader处理后的结果作为Map的输入，然后Map执行定义的Map逻辑，输出处理后的(key,value)对到临时中间文件。 4) Shuffle&Partitioner：在MapReduce流程中，为了让reduce可以并行处理map结果，必须对map的输出进行一定的排序和分割，然后再交给对应的reduce。这个将map输出进行进一步整理并交给reduce 的过程，就称为shuffle。Partitioner是选择配置，主要作用是在多个 Reduce的情况下，指定Map的结果由某一个Reduce处理，每一个 Reduce都会有单独的输出文件。 5) Reduce执行具体的业务逻辑，即处理数据以得到结果的业务，并且将处理结果输出给OutputFormat。 6) OutputFormat的作用是，验证输出目录是否已经存在和输出结果类型是否符合Config中配置类型，若成立则输出Reduce汇总后的结果

mapReduce执行阶段节点节点2 从分布式文件系统中加载文件从分布式文件系统中加载文件 InputFormat 文件文件输入CRF RR RR RR RR」输入 MapMapMap 中间结果中间结果 ckey value> Shuffle <key, value-list> Reduce 最终结果最终结果 <key, value> 1写入到分布 Output Format OutputFormat式文件系统 (如 JHDES) -<如HDFS----

《大数据技术基础》 MapReduce执行阶段

点击进入文档下载页（PDF格式）

共85页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

重庆大学：《大数据技术基础》课程教学资源（课件讲稿）03 Hadoop
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）02 大数据关键技术与挑战
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）01 大数据概述
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）13 大数据技术应用（大数据商业应用）
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）12 大数据技术应用（应用举例）
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）11 NoSQL数据库
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）10 数据可视化 Visualization
重庆大学：《计算机图形学》课程教学课件（讲义）07 数字分析技术——空间句法
重庆大学：《计算机图形学》课程教学课件（讲义）06 BIM技术——基于自主规则设定的全方位碰撞检查技术 Building Informationg Modeling —The Omni-bearing Collision Check Technology Based on Rule Definition
重庆大学：《计算机图形学》课程教学课件（讲义）05 BIM模型建模技术——ArchiCAD 虚拟建筑——BIM为建筑设计领域带来了第二次革命
重庆大学：《计算机图形学》课程教学课件（讲义）04 数字化建筑设计理论与方法——建筑信息模型（建筑BIM技术）
重庆大学：《计算机图形学》课程教学课件（讲义）03 CAD技术的五次重大革命
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）05 HDFS
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）06 HBase
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）07 图计算 Graph Computing
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）08 流计算 Stream Computing
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）09 Spark内存计算
重庆师范大学：《人工智能》精品课程PPT教学课件_VR虚拟现实和AR增强现实技术
重庆师范大学：《人工智能 AI》精品课程PPT教学课件_绪论、第1章人工智能概述
重庆师范大学：《人工智能 AI》精品课程PPT教学课件_第2章知识表示
重庆师范大学：《人工智能 AI》精品课程PPT教学课件_第3章推理技术
重庆师范大学：《人工智能 AI》精品课程PPT教学课件_第4章智能计算（计算智能）
重庆师范大学：《人工智能 AI》精品课程PPT教学课件_第5章搜索策略
重庆师范大学：《人工智能 AI》精品课程PPT教学课件_第6章机器学习

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录