课程提要 口分布式并行编程 口 Mapreduce模型概述 口Map和 Reduce函数 口 Mapreduce工作流程 口并行计算的实现 口实例分析: Word Count 《大数据技术基础》
《大数据技术基础》 课程提要 分布式并行编程 MapReduce模型概述 Map和Reduce函数 MapReduce工作流程 并行计算的实现 实例分析:WordCount
课程提要 口分布式并行编程 口 Mapreduce模型概述 口Map和 Reduce函数 口 Mapreduce工作流程 口并行计算的实现 口实例分析: Word Count 口新 Mapreduce框架Yarn 《大数据技术基础》
《大数据技术基础》 课程提要 分布式并行编程 MapReduce模型概述 Map和Reduce函数 MapReduce工作流程 并行计算的实现 实例分析:WordCount 新MapReduce框架Yarn
Map和 Reduce函数 MapReduce计算模型的核心是map和 reduce两个函数,这两个函数 由用户负责实现,功能是按一定的映射规则将输入的<key, value>对 转换成另一个或一批<key, value>对输出 函数 输入 输出 说明 <k1. v1> Lis(<k2,V2>)1.将小数据集进一步解析成一批<key, value>对, 输入Map函数中进行处理 2.每一个输入的<k1,v1>会输出一批<k2,v2>。 <k2,Ⅴ2>是计算的中间结果 Reduce <k2,List(v2)><k3,v3> 输入的中间结果<k2,Ls(v2)中的LisV2)表示是 批属于同一个k2的vaue 以计算文本文件中每个单词出现次数的程序为例,则<k1,v1>可以是 <行在文件中的偏移位置,文件中的一行>,经Map函数映射之后, 形成一批中间结果<单词,出现次数>,而 Reduce函数则可以对中 间结果进行处理,将相同单词的出现次数进行累加,得到每个单词的 总的出现次数。 《大数据技术基础》
《大数据技术基础》 Map和Reduce函数 • MapReduce计算模型的核心是map和reduce两个函数,这两个函数 由用户负责实现,功能是按一定的映射规则将输入的<key,value>对 转换成另一个或一批<key,value>对输出。 函数 Map 输入 <k1, v1> 输出 List(<k2, v2>) 说明 1. 将小数据集进一步解析成一批<key, value>对, 输入Map函数中进行处理。 2. 每一个输入的<k1, v1>会输出一批<k2, v2>。 <k2, v2>是计算的中间结果 Reduce <k2, List(v2)> <k3, v3> 输入的中间结果<k2, List(v2)>中的List(v2)表示是 一批属于同一个k2的value • 以计算文本文件中每个单词出现次数的程序为例,则<k1,v1>可以是 <行在文件中的偏移位置,文件中的一行>,经 Map 函数映射之后, 形成一批中间结果 <单词,出现次数>, 而 Reduce 函数则可以对中 间结果进行处理,将相同单词的出现次数进行累加,得到每个单词的 总的出现次数
Map和 Reduce函数 基于 Mapreduce计算模型编写分布式并行程序非常简单,程序员的 主要编码工作就是实现Map和 Reduce函数,其它的并行编程中的种 种复杂问题,如分布式存储、工作调度、负载平衡、容错处理、网络 通信等,均由 Mapreduce框架(比如 Hadoop)负责处理,程序员完全 不用操心。 《大数据技术基础》
《大数据技术基础》 Map和Reduce函数 • 基于MapReduce计算模型编写分布式并行程序非常简单,程序员的 主要编码工作就是实现Map和Reduce函数,其它的并行编程中的种 种复杂问题,如分布式存储、工作调度、负载平衡、容错处理、网络 通信等,均由MapReduce框架(比如 Hadoop )负责处理,程序员完全 不用操心
课程提要 口分布式并行编程 □ Mapreduce模型概述 口Map和 Reduce函数 口 Mapreduce工作流程 口并行计算的实现 口实例分析: Word Count 口新 Mapreduce框架Yarn 《大数据技术基础》
《大数据技术基础》 课程提要 分布式并行编程 MapReduce模型概述 Map和Reduce函数 MapReduce工作流程 并行计算的实现 实例分析:WordCount 新MapReduce框架Yarn