当前位置：和泉文库 > 计算机 > 浏览文档

厦门大学：《Spark编程基础》课程教学PPT讲义课件（Python版）第4章 RDD编程

4.1 RDD编程基础 4.1.1 RDD创建 4.1.2 RDD操作 4.1.3 持久化 4.1.4 分区 4.1.5 一个综合实例 4.2 键值对RDD 4.2.1 键值对RDD的创建 4.2.2 常用的键值对RDD转换操作 4.2.3 一个综合实例 4.3 数据读写 4.3.1 文件数据读写 4.3.2 读写HBase数据 4.4 综合案例 4.4.1 案例1：求TOP值 4.4.2 案例2：文件排序 4.4.3 案例3：二次排序

文件格式：PPT，文件大小：4.46MB，售价：26.9元

共107页，可试读30页，点击往前阅读 ↑↑

文档详细内容（约107页）

412RDD操作 2.行动操作行动操作是真正触发计算的地方。Spak程序执行到行动操作时,才会执行真正的计算,从文件中加载数据,完成一次又次转换操作,最终,完成行动操作得到结果表常用的RDD行动操作AP 操作含义 count返回数据集中的元素个数 collect0以数组的形式返回数据集中的所有元素 first)返回数据集中的第一个元素 take(n)以数组的形式返回数据集中的前n个元素 reduce(func)通过函数fune(输入两个参数并返回一个值)聚合数据集中的元素 foreach(func)将数据集中的每个元素传递到函数tunc中运行 Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 4.1.2 RDD操作行动操作是真正触发计算的地方。Spark程序执行到行动操作时，才会执行真正的计算，从文件中加载数据，完成一次又一次转换操作，最终，完成行动操作得到结果。操作含义 count() 返回数据集中的元素个数 collect() 以数组的形式返回数据集中的所有元素 first() 返回数据集中的第一个元素 take(n) 以数组的形式返回数据集中的前n个元素 reduce(func) 通过函数func（输入两个参数并返回一个值）聚合数据集中的元素 foreach(func) 将数据集中的每个元素传递到函数func中运行表常用的RDD行动操作API 2. 行动操作

412RDD操作 >>>rdd=sc parallelize([1, 2, 3, 4, 5]) >> rdd counto 5 rdd. first >> rdd take(3) [1,2,3 >> rdd reduce(lambda a, b a+b) 15 >> rdd collecto [1,2,3,4,5] >>>rdd foreach (lambda elem: print(elem)) 5 Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 4.1.2 RDD操作 >>> rdd = sc.parallelize([1,2,3,4,5]) >>> rdd.count() 5 >>> rdd.first() 1 >>> rdd.take(3) [1, 2, 3] >>> rdd.reduce(lambda a,b:a+b) 15 >>> rdd.collect() [1, 2, 3, 4, 5] >>> rdd.foreach(lambda elem:print(elem)) 1 2 3 4 5

412RDD操作惰性机制所谓的“惰性机制”是指,整个转换过程只是记录了转换的轨迹,并不会发生真正的计算,只有遇到行动操作时,才会触发“从头到尾”的真正的计算这里给出一段简单的语句来解释 Spark的惰性机制 lines= sc textFile( file: //usr/local/spark/mycode/rdd/word. txt >>>lineLengths= lines. map(lambda s: len(s)) totalLength=lineLengths reduce(lambda a, b a+b) >> print(totalLength Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 4.1.2 RDD操作 >>> lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") >>> lineLengths = lines.map(lambda s:len(s)) >>> totalLength = lineLengths.reduce(lambda a,b:a+b) >>> print(totalLength) 惰性机制所谓的“惰性机制”是指，整个转换过程只是记录了转换的轨迹，并不会发生真正的计算，只有遇到行动操作时，才会触发“从头到尾”的真正的计算这里给出一段简单的语句来解释Spark的惰性机制

4.13持久化在 Spark中,RDD釆用惰性求值的机制,每次遇到行动操作,都会从头开始执行计算。每次调用行动操作,都会触发一次从头开始的计算。这对于迭代计算而言,代价是很大的,迭代计算经常需要多次重复使用同一组数据下面就是多次计算同一个RDD的例子: e>>list=[Hadoop","Spark", Hive" >>>rdd=Sc parallelize list) >> print( (rdd counto)∥行动操作,触发一次真正从头到尾的计算 >>> print(;join(rd, collecto)∥行动操作,触发一次真正从头到尾的计算 Hadoop, Spark, Hive Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 4.1.3 持久化在Spark中，RDD采用惰性求值的机制，每次遇到行动操作，都会从头开始执行计算。每次调用行动操作，都会触发一次从头开始的计算。这对于迭代计算而言，代价是很大的，迭代计算经常需要多次重复使用同一组数据下面就是多次计算同一个RDD的例子： >>> list = ["Hadoop","Spark","Hive"] >>> rdd = sc.parallelize(list) >>> print(rdd.count()) //行动操作，触发一次真正从头到尾的计算 3 >>> print(','.join(rdd.collect())) //行动操作，触发一次真正从头到尾的计算 Hadoop,Spark,Hive

4.13持久化 ·可以通过持久化(缓存)机制避免这种重复计算的开销可以使用 persist方法对一个RDD标记为持久化之所以说“标记为持久化”,是因为出现 persist语句的地方,并不会马上计算生成RDD并把它持久化,而是要等到遇到第一个行动操作触发真正计算以后,才会把计算结果进行持久化持久化后的RDD将会被保留在计算节点的内存中被后面的行动操作重复使用 Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 4.1.3 持久化 •可以通过持久化（缓存）机制避免这种重复计算的开销 •可以使用persist()方法对一个RDD标记为持久化 •之所以说“标记为持久化”，是因为出现persist()语句的地方，并不会马上计算生成RDD并把它持久化，而是要等到遇到第一个行动操作触发真正计算以后，才会把计算结果进行持久化 •持久化后的RDD将会被保留在计算节点的内存中被后面的行动操作重复使用

点击进入文档下载页（PPT格式）

共107页，可试读30页，点击继续阅读 ↓↓

您可能感兴趣的文档

厦门大学：《Spark编程基础》课程教学PPT讲义课件（Scala版）第1章大数据技术概述
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）第七章 MapReduce
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）第八章流计算（主讲：林子雨）
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 8 Future Trends, Privacy and Managerial Considerations in Analytics
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 7 Big Data Concepts and Tools
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 6 Prescriptive Analytics：Optimization and Simulation
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 5 Predictive Analytics II：Text, Web, and Social Media Analytics
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 4 Predictive Analytics I：Data Mining Process, Methods, and Algorithms
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 3 Descriptive Analytics II：Business Intelligence and Data Warehousing
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 2 Descriptive Analytics I：Nature of Data, Statistical Modeling, and Visualization
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 1 An Overview of Business Intelligence, Analytics, and Data Science
《商务智能：数据分析的管理视角 Business Intelligence, Analytics, and Data Science：A Managerial Perspective》教学资源（习题，原书第4版）chapter 8 Future Trends, Privacy and Managerial Considerations in Analytics
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）第六章云数据库
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）第一章大数据概述
厦门大学：《计算机应用基础》PPT讲义课件_第一章信息与计算机基础
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）课程介绍（主讲：林子雨）
厦门大学数据库实验室论文阅读报告二
厦门大学：《数据库系统原理》课程教学资源（PPT课件讲稿，2016版）第一章绪论（林子雨）
厦门大学：《数据库系统原理》课程教学资源（PPT课件讲稿，2016版）第四章数据库安全性
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第3版）第8章 Hadoop架构再探讨
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第2版）第3章分布式文件系统HDFS
厦门大学：《Spark编程基础》课程教学PPT讲义课件（Scala版）第5章 RDD编程
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第3版）第7章 MapReduce
厦门大学：《大数据处理技术 Spark》课程讲义（PPT教学课件）第1章大数据技术概述

点击购买下载（PPT）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录