当前位置：和泉文库 > 计算机 > 浏览文档

厦门大学：《Spark编程基础》课程教学PPT讲义课件（Python版）第4章 RDD编程

4.1 RDD编程基础 4.1.1 RDD创建 4.1.2 RDD操作 4.1.3 持久化 4.1.4 分区 4.1.5 一个综合实例 4.2 键值对RDD 4.2.1 键值对RDD的创建 4.2.2 常用的键值对RDD转换操作 4.2.3 一个综合实例 4.3 数据读写 4.3.1 文件数据读写 4.3.2 读写HBase数据 4.4 综合案例 4.4.1 案例1：求TOP值 4.4.2 案例2：文件排序 4.4.3 案例3：二次排序

文件格式：PPT，文件大小：4.46MB，售价：26.9元

共107页，可试读30页，点击往前阅读 ↑↑

文档详细内容（约107页）

412RDD操作 1.转换操作表常用的RDD转换操作AP 操作含义 filter(func)筛选出满足函数func的元素,并返回一个新的数据集 map(func)将每个元素传递到函数func中,并将结果返回为个新的数据集 flatMap(inc)与mapO相似,但每个输入元素都可以映射到0或多个输出结果 group Bykeyo应用于(K)键值对的数据集时,返回一个新的(K tenable)形式的数据集 reduce ByKey(fnc)应用于(KV键值对的数据集时,返回一个新的(K V)形式的数据集,其中每个值是将每个key传递到函数func中进行聚合后的结果 Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 4.1.2 RDD操作操作含义 filter(func) 筛选出满足函数func的元素，并返回一个新的数据集 map(func) 将每个元素传递到函数func中，并将结果返回为一个新的数据集 flatMap(func) 与map()相似，但每个输入元素都可以映射到0或多个输出结果 groupByKey() 应用于(K,V)键值对的数据集时，返回一个新的(K, Iterable)形式的数据集 reduceByKey(func) 应用于(K,V)键值对的数据集时，返回一个新的(K, V)形式的数据集，其中每个值是将每个key传递到函数func中进行聚合后的结果表常用的RDD转换操作API 1. 转换操作

412RDD操作 1.转换操作咐 filter(func):筛选出满足函数func的元素,并返回一个新的数据集 >> lines= sc textFile(file: ///usr/local/spark/mycode/rdd/word. txt") >>>lines With Spark= lines. filter(lambda line: " Spark"in line > lines With Spark foreach(print Spark is better Spark is fast word txt RDD(lines) RDD(lines withSpark) Hadoop is good Hadoop is good Spark is fast" Spark is fast sc. textFileo''Spark is fast lines. filter Spark is better" Spark is better Spark is better" 图fter(操作实例执行过程示意图 Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 4.1.2 RDD操作 •filter(func)：筛选出满足函数func的元素，并返回一个新的数据集 >>> lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") >>> linesWithSpark = lines.filter(lambda line: "Spark" in line) >>> linesWithSpark.foreach(print) Spark is better Spark is fast word.txt RDD(lines) sc.textFile() Hadoop is good Spark is fast Spark is better RDD(linesWithSpark) lines.filter() "Hadoop is good" "Spark is fast" "Spark is better" "Spark is fast" "Spark is better" 图 filter()操作实例执行过程示意图 1. 转换操作

412RDD操作 1.转换操作 .map(func) map(unc)操作将每个元素传递到函数unc中,并将结果返回为一个新的数据集 >>>data=[1,2,34,5] >>rdd 1= scparallelize(data) rdd2=rdd1. map(lambda x. X+ 10) >> rdd2. foreach(print) 11 RDD(rddl) RDD(rdd2) 13 12 rdd I 15 [12,34, scparallelize(data) map(lambda x x+10) 13 4 14 图mapO操作实例执行过程示意图 Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 4.1.2 RDD操作 •map(func) map(func)操作将每个元素传递到函数func中，并将结果返回为一个新的数据集 >>> data = [1,2,3,4,5] >>> rdd1 = sc.parallelize(data) >>> rdd2 = rdd1.map(lambda x:x+10) >>> rdd2.foreach(print) 11 13 12 14 15 图 map()操作实例执行过程示意图 1. 转换操作 data RDD(rdd1) [1,2,3,4,5] 1 2 3 sc.parallelize(data) 4 5 RDD(rdd2) 11 12 13 14 15 rdd1. map(lambda x:x+10)

412RDD操作 1.转换操作 .map(func) 另外一个实例 >lines =Sc textFile(file: /usr/local/spark/mycode/rdd/word. txt >words= lines. map (lambda line line split(D) >> words foreach(print) THadoop, is, ' good] SPark, is, fast] TSpark, is, better word. txt RDD(lines) RDD(words) Hadoop is good "Hadoop is good" [Hadoop", " is", "good" Spark is fast SctextFile("Spark is fast lines. mapo I"Spark", "is"," fast"] Spark is better "Spark is better I"Spark","is", "better"] 图mapO操作实例执行过程示意图 Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 4.1.2 RDD操作 •map(func) >>> lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") >>> words = lines.map(lambda line:line.split(" ")) >>> words.foreach(print) ['Hadoop', 'is', 'good'] ['Spark', 'is', 'fast'] ['Spark', 'is', 'better'] 另外一个实例图 map()操作实例执行过程示意图 1. 转换操作 word.txt RDD(lines) sc.textFile() Hadoop is good Spark is fast Spark is better lines.map() "Hadoop is good" "Spark is fast" "Spark is better" RDD(words) ["Hadoop","is","good"] ["Spark","is","fast"] ["Spark","is","better"]

412RDD操作 1.转换操作咐 flat Map(func) >> ines= SC textFile(file: //usr/local/spark/mycode/rdd/word. txt") words= lines. flat Map(lambda line line split(")) word. txt RDD(lines) RDD( wordArray) Hadoop is good 第1步mapO [Hadoop", "is","good"I Spark is fast sc: textFile.)(Spark is fast" Lines. map (lambda lineline. splite"> ["Spark", "is", "fast"I Spark is better "Spark is better "Spark","is", "better"] lines. flat Map(lambda line linesplit("")) RDD(words) Hadoop Spark fast" 第2步:拍扁(fat) 把map(操作得到的 wordArray中 better" 的每个元素“拍扁”(fat),就得到了 flatMan操作的结果 words 图 flatMapo操作实例执行过程示意图 Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 4.1.2 RDD操作 •flatMap(func) >>> lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") >>> words = lines.flatMap(lambda line:line.split(" ")) 图 flatMap()操作实例执行过程示意图 1. 转换操作 word.txt RDD(lines) sc.textFile(...) Hadoop is good Spark is fast Spark is better lines.map(lambda line:line.split(" ")) "Hadoop is good" "Spark is fast" "Spark is better" ["Hadoop","is","good"] ["Spark","is","fast"] ["Spark","is","better"] "Hadoop" "is" "good" "Spark" "is" "fast" "Spark" "is" "better" RDD(wordArray) lines.flatMap(lambda line:line.split(" ")) 把map()操作得到的wordArray中的每个元素“拍扁”(flat)，就得到了flatMap()操作的结果words RDD(words) 第1步:map() 第2步:拍扁(flat)

点击进入文档下载页（PPT格式）

共107页，可试读30页，点击继续阅读 ↓↓

您可能感兴趣的文档

厦门大学：《Spark编程基础》课程教学PPT讲义课件（Scala版）第1章大数据技术概述
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）第七章 MapReduce
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）第八章流计算（主讲：林子雨）
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 8 Future Trends, Privacy and Managerial Considerations in Analytics
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 7 Big Data Concepts and Tools
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 6 Prescriptive Analytics：Optimization and Simulation
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 5 Predictive Analytics II：Text, Web, and Social Media Analytics
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 4 Predictive Analytics I：Data Mining Process, Methods, and Algorithms
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 3 Descriptive Analytics II：Business Intelligence and Data Warehousing
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 2 Descriptive Analytics I：Nature of Data, Statistical Modeling, and Visualization
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 1 An Overview of Business Intelligence, Analytics, and Data Science
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 8 Future Trends, Privacy and Managerial Considerations in Analytics
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）第六章云数据库
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）第一章大数据概述
厦门大学：《计算机应用基础》PPT讲义课件_第一章信息与计算机基础
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）课程介绍（主讲：林子雨）
厦门大学数据库实验室论文阅读报告二
厦门大学：《数据库系统原理》课程教学资源（PPT课件讲稿，2016版）第一章绪论（林子雨）
厦门大学：《数据库系统原理》课程教学资源（PPT课件讲稿，2016版）第四章数据库安全性
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第3版）第8章 Hadoop架构再探讨
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第2版）第3章分布式文件系统HDFS
厦门大学：《Spark编程基础》课程教学PPT讲义课件（Scala版）第5章 RDD编程
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第3版）第7章 MapReduce
厦门大学：《大数据处理技术 Spark》课程讲义（PPT教学课件）第1章大数据技术概述

点击购买下载（PPT）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录