当前位置：和泉文库 > 计算机 > 浏览文档

重庆大学：《大数据技术基础》课程教学资源（课件讲稿）02 大数据关键技术与挑战

 大数据处理的基本流程  大数据处理模型  大数据关键技术  大数据处理工具  大数据时代面临的新挑战 WordCount 关联规则基本模型聚类本章内容首先介绍了大数据处理的基本流程和大数据处理模型，接着介绍了大数据的关键技术，其中，云计算是大数据的基础平台和支撑技术，本章以Google 的相关技术为主线，详细介绍Google 以及其他众多学者和研究机构在大数据技术方面已有的一些工作，包括文件系统、数据库系统、索引和查询技术、数据分析技术等；接下来，介绍了大数据处理平台和工具，就目前技术发展现状而言，Hadoop 已经成为了大数据处理工具事实上的标准。最后，介绍大数据时代面临的新挑战，包括大数据集成、大数据分析、大数据隐私问题、大数据能耗问题、大数据处理与硬件的协同、大数据管理易用性问题以及性能测试基准。大数据采集架构预测模型

文件格式：PDF，文件大小：3.89MB，售价：36.3元

共162页，可试读30页，点击往前阅读 ↑↑

文档详细内容（约162页）

Shuffle过程详解在map端的 Shuffle过程是对map的结果进行划分( partition)、排序 (sort)和spll(溢写),然后将属于同一个划分的输出合并在一起并写到磁盘上,同时按照不同的划分将结果发送给对应的 reduce( map输出的划分与 reduce的对应关系由 Job tracker确定)。 Reduce 端又会将各个map送来的属于同一个划分的输出进行合并( merge) 然后对 merge的结果进行排序,最后交给 reduce处理。 Map任务溢写(分区、排序、合并)在务数数据被Red Reduce任务缓存输入磁盘文件归并输出 Map 多个分区其他Map任务其他 Reduce任务

《大数据技术基础》 Shuffle过程详解 • 在map端的shuffle过程是对map的结果进行划分（partition）、排序（sort）和spill（溢写），然后将属于同一个划分的输出合并在一起，并写到磁盘上，同时按照不同的划分将结果发送给对应的reduce（ map输出的划分与reduce的对应关系由JobTracker确定）。Reduce 端又会将各个map送来的属于同一个划分的输出进行合并（merge），然后对merge的结果进行排序，最后交给reduce处理

Shuffle过程详解-Map端下图是某个假想的 map task的运行情况,可以清楚地说明划分 partition,排序(sort)与合并( combiner)作用在 MapReduce工作流程的哪个阶段输入数据和执行Map任务 Map任 ②写入缓存 ③溢写(分区、排序、合并) 件归并《大数据技术基础》

《大数据技术基础》 Shuffle过程详解 – Map端 • 下图是某个假想的map task的运行情况，可以清楚地说明划分（ partition），排序（sort）与合并（combiner）作用在MapReduce工作流程的哪个阶段

Shuffle过程详解-Map端简单地说,每个 map task都有一个内存缓冲区,存储着map的输出结果,当缓冲区快满的时候,需要将缓冲区的数据以一个临时文件的方式存放到磁盘,当整个 map task结束后,再对磁盘中这个map task产生的所有临时文件做合并,生成最终的正式输出文件,然后等待 reduce task来拉数据。《大数据技术基础》

《大数据技术基础》 Shuffle过程详解 – Map端 • 简单地说，每个map task都有一个内存缓冲区，存储着map的输出结果，当缓冲区快满的时候，需要将缓冲区的数据以一个临时文件的方式存放到磁盘，当整个map task结束后，再对磁盘中这个map task产生的所有临时文件做合并，生成最终的正式输出文件，然后等待reduce task来拉数据

Shuffle过程详解-Map端 Map端的 Shuffle流程可分为四个步骤: 1. Map task执行:它的输入数据来源于HDFS的 block 2. Mapper运行: mapper的输出是一个 key/value对 3.Spl内存缓冲区是有大小限制的(默认是100MB)。当 map task 的输出结果很多时,就可能会撑爆内存,所以需要在一定条件下将缓冲区中的数据临时写入磁盘,然后重新利用这块缓冲区。这个从内存往磁盘写数据的过程被称为Spl Merge:每次溢写会在磁盘上生成一个溢写文件,如果map的输出结果真的很大,有多次这样的溢写发生,磁盘上相应的就会有多个溢写文件存在。当 map task真正完成时,内存缓冲区中的数据也全部溢写到磁盘中形成一个溢写文件。最终,磁盘中会至少有一个这样的溢写文件存在。因为最终的文件只有一个,所以需要将这些溢写文件归并到一起,这个过程就叫做 Merge 《大数据技术基础》

《大数据技术基础》 Shuffle过程详解 – Map端 • 1. 2. 3. Map端的shuffle流程可分为四个步骤： Map task执行：它的输入数据来源于HDFS的block Mapper运行：mapper的输出是一个key/value对。 Spill：内存缓冲区是有大小限制的（默认是100MB）。当map task 的输出结果很多时，就可能会撑爆内存，所以需要在一定条件下将缓冲区中的数据临时写入磁盘，然后重新利用这块缓冲区。这个从内存往磁盘写数据的过程被称为Spill。 4. Merge：每次溢写会在磁盘上生成一个溢写文件，如果map的输出结果真的很大，有多次这样的溢写发生，磁盘上相应的就会有多个溢写文件存在。当map task真正完成时，内存缓冲区中的数据也全部溢写到磁盘中形成一个溢写文件。最终，磁盘中会至少有一个这样的溢写文件存在。因为最终的文件只有一个，所以需要将这些溢写文件归并到一起，这个过程就叫做Merge

Shuffle过程详解- Reduce端当 map task执行完成, Shuffle的后半段过程开始启动。简单地说, reduce task在执行之前的工作就是不断地拉取当前job里每个 map task的最终结果,然后对从不同地方拉取过来的数据不断地做 merge,也最终形成一个文件作为 reduce task的输入文件其他 Reduce任务 Map任务 ①领取”数据 Reduce任务缓存 i磁盘 ②归并数据把数据输入给任务其他Map任务文件归并 →其他 Reduce任务《大数据技术基础》

《大数据技术基础》 Shuffle过程详解 – Reduce端 • 当map task执行完成，Shuffle的后半段过程开始启动。 • 简单地说，reduce task在执行之前的工作就是不断地拉取当前job里每个map task的最终结果，然后对从不同地方拉取过来的数据不断地做merge，也最终形成一个文件作为reduce task的输入文件

点击进入文档下载页（PDF格式）

共162页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

重庆大学：《大数据技术基础》课程教学资源（课件讲稿）01 大数据概述
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）13 大数据技术应用（大数据商业应用）
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）12 大数据技术应用（应用举例）
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）11 NoSQL数据库
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）10 数据可视化 Visualization
重庆大学：《计算机图形学》课程教学课件（讲义）07 数字分析技术——空间句法
重庆大学：《计算机图形学》课程教学课件（讲义）06 BIM技术——基于自主规则设定的全方位碰撞检查技术 Building Informationg Modeling —The Omni-bearing Collision Check Technology Based on Rule Definition
重庆大学：《计算机图形学》课程教学课件（讲义）05 BIM模型建模技术——ArchiCAD 虚拟建筑——BIM为建筑设计领域带来了第二次革命
重庆大学：《计算机图形学》课程教学课件（讲义）04 数字化建筑设计理论与方法——建筑信息模型（建筑BIM技术）
重庆大学：《计算机图形学》课程教学课件（讲义）03 CAD技术的五次重大革命
重庆大学：《计算机图形学》课程教学课件（讲义）02 数字建筑——-非线性建筑案例分析非线性建筑 & 参数化主义 Non - linear Architecture & PARAMETRICISM
重庆大学：《计算机图形学》课程教学课件（讲义）01 数字化建筑设计理论与方法——建筑数字技术概论（主讲：曾旭东）
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）03 Hadoop
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）04 MapReduce
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）05 HDFS
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）06 HBase
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）07 图计算 Graph Computing
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）08 流计算 Stream Computing
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）09 Spark内存计算
重庆师范大学：《人工智能》精品课程PPT教学课件_VR虚拟现实和AR增强现实技术
重庆师范大学：《人工智能 AI》精品课程PPT教学课件_绪论、第1章人工智能概述
重庆师范大学：《人工智能 AI》精品课程PPT教学课件_第2章知识表示
重庆师范大学：《人工智能 AI》精品课程PPT教学课件_第3章推理技术
重庆师范大学：《人工智能 AI》精品课程PPT教学课件_第4章智能计算（计算智能）

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录