当前位置：和泉文库 > 计算机 > 浏览文档

重庆大学：《大数据技术基础》课程教学资源（课件讲稿）02 大数据关键技术与挑战

 大数据处理的基本流程  大数据处理模型  大数据关键技术  大数据处理工具  大数据时代面临的新挑战 WordCount 关联规则基本模型聚类本章内容首先介绍了大数据处理的基本流程和大数据处理模型，接着介绍了大数据的关键技术，其中，云计算是大数据的基础平台和支撑技术，本章以Google 的相关技术为主线，详细介绍Google 以及其他众多学者和研究机构在大数据技术方面已有的一些工作，包括文件系统、数据库系统、索引和查询技术、数据分析技术等；接下来，介绍了大数据处理平台和工具，就目前技术发展现状而言，Hadoop 已经成为了大数据处理工具事实上的标准。最后，介绍大数据时代面临的新挑战，包括大数据集成、大数据分析、大数据隐私问题、大数据能耗问题、大数据处理与硬件的协同、大数据管理易用性问题以及性能测试基准。大数据采集架构预测模型

文件格式：PDF，文件大小：3.89MB，售价：36.3元

共162页，可试读30页，点击往前阅读 ↑↑

文档详细内容（约162页）

Mapreduce模型概述 Mapreduce是 Google公司的核心计算模型,它将复杂的运行于大规模集群上的并行计算过程高度地抽象到两个函数:Map和 Reduce 适合用 Mapreduce来处理的数据集(或任务),需要满足一个基本要求待处理的数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理 ·概念“Map(映射)”和“ Reduce(化简)”,以及它们的主要思想 ,都是从函数式编程语言里借来的,同时包含了从矢量编程语言里借来的特性。 Mapreduce极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。《大数据技术基础》

《大数据技术基础》 MapReduce模型概述 • MapReduce是Google公司的核心计算模型，它将复杂的运行于大规模集群上的并行计算过程高度地抽象到两个函数：Map和Reduce。 • 适合用MapReduce来处理的数据集(或任务)，需要满足一个基本要求: 待处理的数据集可以分解成许多小的数据集，而且每一个小数据集都可以完全并行地进行处理。 • 概念“Map（映射）”和“Reduce（化简）”，以及它们的主要思想，都是从函数式编程语言里借来的，同时包含了从矢量编程语言里借来的特性。MapReduce极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上

Mapreduce模型概述个Map- Reduce作业(job)通常会把输入的数据集切分为若干独立的数据块,由map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行排序,然后把结果输入给 reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。 Map-Reduce框架和分布式文件系统是运行在一组相同的节点上的,即计算节点和存储节点通常在一起。这种配置允许框架在那些已经存好数据的节点上高效地调度任务,这可以使整个集群的网络带宽被非常高效地利用 Map -Reduce框架由单独一个 master Job Tracker,和每个集群节点一个 slave TaskTracker共同组成。这个 master负责调度构成一个作业的所有任务,这些任务分布在不同的 slave上, master监控它们的执行 ,重新执行已经失败的任务。而 slave仅负责执行由 master指派的任务《大数据技术基础》

《大数据技术基础》 MapReduce模型概述 • 一个Map-Reduce作业（job）通常会把输入的数据集切分为若干独立的数据块，由map任务（task）以完全并行的方式处理它们。框架会对map的输出先进行排序，然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控，以及重新执行已经失败的任务。 • Map-Reduce框架和分布式文件系统是运行在一组相同的节点上的，即计算节点和存储节点通常在一起。这种配置允许框架在那些已经存好数据的节点上高效地调度任务，这可以使整个集群的网络带宽被非常高效地利用。 • Map-Reduce框架由单独一个master JobTracker和每个集群节点一个 slave TaskTracker共同组成。这个master负责调度构成一个作业的所有任务，这些任务分布在不同的slave上，master监控它们的执行，重新执行已经失败的任务。而slave仅负责执行由master指派的任务

mapreduce模型概述应用程序至少应该指明输入输出的位置(路径),并通过实现合适的接口或抽象类提供map和 Reduce函数。再加上其他作业的参数,就构成了作业配置( job configuration)。然后,由 Hadoop的job- client提交作业(jar包/可执行程序等)和配置信息给 JobTracker,后者负责分发这些软件和配置信息给 slave、调度任务且监控它们的执行,同时提供状态和诊断信息给 job-client 虽然 Hadoop框架是用Java实现的,但 Map-Reduce应用程序则不一定要用Java来写。《大数据技术基础》

《大数据技术基础》 MapReduce模型概述 • 应用程序至少应该指明输入/输出的位置（路径），并通过实现合适的接口或抽象类提供map和reduce函数。再加上其他作业的参数，就构成了作业配置（job configuration）。然后，由Hadoop的job-client提交作业（jar包/可执行程序等）和配置信息给JobTracker，后者负责分发这些软件和配置信息给slave、调度任务且监控它们的执行，同时提供状态和诊断信息给job-client。 • 虽然Hadoop框架是用Java实现的，但Map-Reduce应用程序则不一定要用Java来写

Map和 Reduce函数 MapReduce计算模型的核心是map和 reduce两个函数,这两个函数由用户负责实现,功能是按一定的映射规则将输入的<key, value>对转换成另一个或一批<key, value>对输出函数输入输出说明 <k1. v1> Lis(<k2,V2>)1.将小数据集进一步解析成一批<key, value>对, 输入Map函数中进行处理 2.每一个输入的<k1,v1>会输出一批<k2,v2>。 <k2,Ⅴ2>是计算的中间结果 Reduce <k2,List(v2)><k3,v3> 输入的中间结果<k2,Ls(v2)中的LisV2)表示是批属于同一个k2的vaue 以计算文本文件中每个单词出现次数的程序为例,则<k1,v1>可以是 <行在文件中的偏移位置,文件中的一行>,经Map函数映射之后, 形成一批中间结果<单词,出现次数>,而 Reduce函数则可以对中间结果进行处理,将相同单词的出现次数进行累加,得到每个单词的总的出现次数。《大数据技术基础》

《大数据技术基础》 Map和Reduce函数 • MapReduce计算模型的核心是map和reduce两个函数，这两个函数由用户负责实现，功能是按一定的映射规则将输入的<key，value>对转换成另一个或一批<key，value>对输出。函数 Map 输入 <k1, v1> 输出 List(<k2, v2>) 说明 1. 将小数据集进一步解析成一批<key, value>对，输入Map函数中进行处理。 2. 每一个输入的<k1, v1>会输出一批<k2, v2>。 <k2, v2>是计算的中间结果 Reduce <k2, List(v2)> <k3, v3> 输入的中间结果<k2, List(v2)>中的List(v2)表示是一批属于同一个k2的value • 以计算文本文件中每个单词出现次数的程序为例，则<k1，v1>可以是 <行在文件中的偏移位置，文件中的一行>，经 Map 函数映射之后，形成一批中间结果 <单词，出现次数>，而 Reduce 函数则可以对中间结果进行处理，将相同单词的出现次数进行累加，得到每个单词的总的出现次数

Map和 Reduce函数基于 Mapreduce计算模型编写分布式并行程序非常简单,程序员的主要编码工作就是实现Map和 Reduce函数,其它的并行编程中的种种复杂问题,如分布式存储、工作调度、负载平衡、容错处理、网络通信等,均由 Mapreduce框架(比如 Hadoop)负责处理,程序员完全不用操心。《大数据技术基础》

《大数据技术基础》 Map和Reduce函数 • 基于MapReduce计算模型编写分布式并行程序非常简单，程序员的主要编码工作就是实现Map和Reduce函数，其它的并行编程中的种种复杂问题，如分布式存储、工作调度、负载平衡、容错处理、网络通信等，均由MapReduce框架(比如 Hadoop )负责处理，程序员完全不用操心

点击进入文档下载页（PDF格式）

共162页，可试读30页，点击继续阅读 ↓↓

您可能感兴趣的文档

重庆大学：《大数据技术基础》课程教学资源（课件讲稿）01 大数据概述
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）13 大数据技术应用（大数据商业应用）
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）12 大数据技术应用（应用举例）
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）11 NoSQL数据库
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）10 数据可视化 Visualization
重庆大学：《计算机图形学》课程教学课件（讲义）07 数字分析技术——空间句法
重庆大学：《计算机图形学》课程教学课件（讲义）06 BIM技术——基于自主规则设定的全方位碰撞检查技术 Building Informationg Modeling —The Omni-bearing Collision Check Technology Based on Rule Definition
重庆大学：《计算机图形学》课程教学课件（讲义）05 BIM模型建模技术——ArchiCAD 虚拟建筑——BIM为建筑设计领域带来了第二次革命
重庆大学：《计算机图形学》课程教学课件（讲义）04 数字化建筑设计理论与方法——建筑信息模型（建筑BIM技术）
重庆大学：《计算机图形学》课程教学课件（讲义）03 CAD技术的五次重大革命
重庆大学：《计算机图形学》课程教学课件（讲义）02 数字建筑——-非线性建筑案例分析非线性建筑 & 参数化主义 Non - linear Architecture & PARAMETRICISM
重庆大学：《计算机图形学》课程教学课件（讲义）01 数字化建筑设计理论与方法——建筑数字技术概论（主讲：曾旭东）
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）03 Hadoop
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）04 MapReduce
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）05 HDFS
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）06 HBase
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）07 图计算 Graph Computing
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）08 流计算 Stream Computing
重庆大学：《大数据技术基础》课程教学资源（课件讲稿）09 Spark内存计算
重庆师范大学：《人工智能》精品课程PPT教学课件_VR虚拟现实和AR增强现实技术
重庆师范大学：《人工智能 AI》精品课程PPT教学课件_绪论、第1章人工智能概述
重庆师范大学：《人工智能 AI》精品课程PPT教学课件_第2章知识表示
重庆师范大学：《人工智能 AI》精品课程PPT教学课件_第3章推理技术
重庆师范大学：《人工智能 AI》精品课程PPT教学课件_第4章智能计算（计算智能）

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录