当前位置：和泉文库 > 计算机 > 厦门大学：《Spark编程基础》课程教学PPT讲义课件（Scala版）第5章 RDD编程

厦门大学：《Spark编程基础》课程教学PPT讲义课件（Scala版）第5章 RDD编程

5.1 RDD编程基础 5.1.1 RDD创建 5.1.2 RDD操作 5.1.3 持久化 5.1.4 分区 5.1.5 一个综合实例 5.2 键值对RDD 5.2.1 键值对RDD的创建 5.2.2 常用的键值对RDD转换操作 5.2.3 一个综合实例 5.3 数据读写 5.3.1 文件数据读写 5.3.2 读写HBase数据 5.4 综合案例 5.4.1 案例1：求TOP值 5.4.2 案例2：求最大最小值 5.4.3 案例3：文件排序 5.4.4 案例4：二次排序 5.4.5 案例5：连接操作

文件格式：PPT，文件大小：4.57MB，售价：31.88元

共134页，可试读30页，点击往前阅读 ↑↑

文档详细内容（约134页）

5.12RDD操作 1.转换操作 .groupByKeyo group ByKey0应用于(K,V)键值对的数据集时,返回一个新的(K, tenable)形式的数据集 RDD(words) ("Hadoop", 1) ("is",1) ("good",1) ("Spark",1) ("is",1) ("fast",1) ("Spark", 1) ("is",1) ("better", 1) words. group ByKeyo RDD(groupwords) ("Hadoop, 1) ("is":(l,1,1) (" Spark"(1,1)) (good 1) (fast", 1) ("better", 1) 图 groupBykeyo操作实例执行过程示意图 Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 5.1.2 RDD操作 •groupByKey() ("Hadoop",1) ("is",1) ("good",1) RDD(words) ("Spark",1) ("is",1) ("fast",1) ("Spark",1) ("is",1) ("better",1) ("Hadoop",1) ("is",(1,1,1)) RDD(groupwords) ("Spark",(1,1)) ("good",1) ("fast",1) ("better",1) words.groupByKey() groupByKey()应用于(K,V)键值对的数据集时，返回一个新的(K, Iterable)形式的数据集图 groupByKey()操作实例执行过程示意图 1. 转换操作

5.12RDD操作 1.转换操作 .reduce ByKey(func) reduce Byk<ey(func)应用于(K,∽)键值对的数据集时,返回一个新的(K,v)形式的数据集,其中的每个值是将每个key传递到函数func中进行聚合后得到的结果 RDD(words) ("Hadoop",1) ("is",1) ("good",1) ("Spark",1) ("is",1) ("fast", 1) ("Spark", 1) ("is",1) ("better", 1) words. reduceByKey((a, b=>a+b) RDD(reducewords) ("Hadoop", 1) ("is"3) ("Spark", 2) ("good",1) ("fast",1) better", 1) 图 reduce ByKey0操作实例执行过程示意图 Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 5.1.2 RDD操作 •reduceByKey(func) reduceByKey(func)应用于(K,V)键值对的数据集时，返回一个新的(K, V)形式的数据集，其中的每个值是将每个key传递到函数func中进行聚合后得到的结果 ("Hadoop",1) ("is",1) ("good",1) RDD(words) ("Spark",1) ("is",1) ("fast",1) ("Spark",1) ("is",1) ("better",1) ("Hadoop",1) ("is",3) RDD(reducewords) ("Spark",2) ("good",1) ("fast",1) ("better",1) words.reduceByKey((a,b)=>a+b) 图 reduceByKey()操作实例执行过程示意图 1. 转换操作

5.12RDD操作 1.转换操作 .reduce ByKey(func) rdd reduce ByKey((a, b)=>a+b) 原容器 reduceLeft f( 返回结果 ≤" spark",<1,1,1>> Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 5.1.2 RDD操作 •reduceByKey(func) 1. 转换操作 rdd.reduceByKey((a,b)=>a+b) <“spark”,<1,1,1>>

5.12RDD操作 2.行动操作行动操作是真正触发计算的地方。Spak程序执行到行动操作时,才会执行真正的计算,从文件中加载数据,完成一次又次转换操作,最终,完成行动操作得到结果表常用的RDD行动操作AP 操作含义 count返回数据集中的元素个数 collect0以数组的形式返回数据集中的所有元素 first)返回数据集中的第一个元素 take(n)以数组的形式返回数据集中的前n个元素 reduce(func)通过函数fune(输入两个参数并返回一个值)聚合数据集中的元素 foreach(func)将数据集中的每个元素传递到函数tunc中运行 Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 5.1.2 RDD操作行动操作是真正触发计算的地方。Spark程序执行到行动操作时，才会执行真正的计算，从文件中加载数据，完成一次又一次转换操作，最终，完成行动操作得到结果。操作含义 count() 返回数据集中的元素个数 collect() 以数组的形式返回数据集中的所有元素 first() 返回数据集中的第一个元素 take(n) 以数组的形式返回数据集中的前n个元素 reduce(func) 通过函数func（输入两个参数并返回一个值）聚合数据集中的元素 foreach(func) 将数据集中的每个元素传递到函数func中运行表常用的RDD行动操作API 2. 行动操作

5.12RDD操作 scala> val rdd=sc parallelize(Array (1, 2, 3, 4, 5) rdd: org. apache. spark rdd RDD[Int]=ParallelCollectionRDD[1]at parallelize at <console>: 24 scala> rdd counto esO: Long=5 scala> rdd. first res1 Int scala> rdd take(3) res2: Array[Int]= Array(1, 2, 3) scala> rdd reduce((a, b)=>a+b) res 3: Int =15 scala> rdd collecto res4: Array[Int]= Array (1, 2, 3, 4, 5) scala> rdd foreach(elem=>println(elem)) 2345 Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 5.1.2 RDD操作 scala> val rdd=sc.parallelize(Array(1,2,3,4,5)) rdd: org.apache.spark.rdd.RDD[Int]=ParallelCollectionRDD[1] at parallelize at <console>:24 scala> rdd.count() res0: Long = 5 scala> rdd.first() res1: Int = 1 scala> rdd.take(3) res2: Array[Int] = Array(1,2,3) scala> rdd.reduce((a,b)=>a+b) res3: Int = 15 scala> rdd.collect() res4: Array[Int] = Array(1,2,3,4,5) scala> rdd.foreach(elem=>println(elem)) 1 2 3 4 5

点击进入文档下载页（PPT格式）

共134页，可试读30页，点击继续阅读 ↓↓

您可能感兴趣的文档

厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第2版）第3章分布式文件系统HDFS
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第3版）第8章 Hadoop架构再探讨
厦门大学：《数据库系统原理》课程教学资源（PPT课件讲稿，2016版）第四章数据库安全性
厦门大学：《数据库系统原理》课程教学资源（PPT课件讲稿，2016版）第一章绪论（林子雨）
厦门大学数据库实验室论文阅读报告二
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）课程介绍（主讲：林子雨）
厦门大学：《计算机应用基础》PPT讲义课件_第一章信息与计算机基础
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）第一章大数据概述
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）第六章云数据库
厦门大学：《Spark编程基础》课程教学PPT讲义课件（Python版）第4章 RDD编程
厦门大学：《Spark编程基础》课程教学PPT讲义课件（Scala版）第1章大数据技术概述
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）第七章 MapReduce
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第3版）第7章 MapReduce
厦门大学：《大数据处理技术 Spark》课程讲义（PPT教学课件）第1章大数据技术概述
厦门大学：《大数据处理技术 Spark》课程讲义（PPT教学课件）第2章 Scala语言基础
厦门大学：《大数据导论》课程讲义（PPT教学课件）第7章数据处理与分析
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第2版）课程介绍（主讲：林子雨）
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第3版）第3章分布式文件系统HDFS
厦门大学：《计算机应用基础》PPT讲义课件_第二章操作系统Windows XP
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第3版）第6章云数据库
复旦大学：《高级Web技术》课程教学大纲（戴开宇）
《高级Web技术》参考资料：MyEclipse创建基于X-File的Web service及调用实例详解
《高级Web技术》参考资料：Architectural Styles and the design of Network-based Software Achitectures
《高级Web技术》参考资料：MyEclipse 6 Java 开发中文教程_第十一章开发Spring+Struts+Hibernate应用

点击购买下载（PPT）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录