当前位置：和泉文库 > 计算机 > 浏览文档

厦门大学：《Spark编程基础》课程教学PPT讲义课件（Scala版）第5章 RDD编程

5.1 RDD编程基础 5.1.1 RDD创建 5.1.2 RDD操作 5.1.3 持久化 5.1.4 分区 5.1.5 一个综合实例 5.2 键值对RDD 5.2.1 键值对RDD的创建 5.2.2 常用的键值对RDD转换操作 5.2.3 一个综合实例 5.3 数据读写 5.3.1 文件数据读写 5.3.2 读写HBase数据 5.4 综合案例 5.4.1 案例1：求TOP值 5.4.2 案例2：求最大最小值 5.4.3 案例3：文件排序 5.4.4 案例4：二次排序 5.4.5 案例5：连接操作

文件格式：PPT，文件大小：4.57MB，售价：31.88元

共134页，可试读30页，点击往前阅读 ↑↑

文档详细内容（约134页）

5.1.3惰性机制所谓的“惰性机制”是指,整个转换过程只是记录了转换的轨迹,并不会发生真正的计算,只有遇到行动操作时,才会触发“从头到尾”的真正的计算这里给出一段简单的语句来解释 Spark的惰性机制 scala> val lines sc textFile(data. txt) scala> val lineLengths lines map(s=>slength) scala> val totalLength= lineLengths reduce((a, b)=>a+b) Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 5.1.3 惰性机制 scala> val lines = sc.textFile("data.txt") scala> val lineLengths = lines.map(s => s.length) scala> val totalLength = lineLengths.reduce((a, b) => a + b) 所谓的“惰性机制”是指，整个转换过程只是记录了转换的轨迹，并不会发生真正的计算，只有遇到行动操作时，才会触发“从头到尾”的真正的计算这里给出一段简单的语句来解释Spark的惰性机制

5.14持久化在 Spark中,RDD釆用惰性求值的机制,每次遇到行动操作,都会从头开始执行计算。每次调用行动操作,都会触发一次从头开始的计算。这对于迭代计算而言,代价是很大的,迭代计算经常需要多次重复使用同一组数据下面就是多次计算同一个RDD的例子: scala> val list List("Hadoop","Spark","Hive") list: List[ String]= List(Hadoop, Spark, Hive) scala> val rdd= sc parallelize (list) rdd: org. apache. spark rdd RDD[String]= ParallelCollectionRDD[22] at parallelize at <console>: 29 scala> printIn(rdd. counto)∥行动操作,触发一次真正从头到尾的计算 scaa> printin( rdd collect0. mkString(",")∥行动操作,触发一次真正从头到尾的计算 Hadoop, Spark, Hive Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 5.1.4 持久化在Spark中，RDD采用惰性求值的机制，每次遇到行动操作，都会从头开始执行计算。每次调用行动操作，都会触发一次从头开始的计算。这对于迭代计算而言，代价是很大的，迭代计算经常需要多次重复使用同一组数据下面就是多次计算同一个RDD的例子： scala> val list = List("Hadoop","Spark","Hive") list: List[String] = List(Hadoop, Spark, Hive) scala> val rdd = sc.parallelize(list) rdd: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[22] at parallelize at <console>:29 scala> println(rdd.count()) //行动操作，触发一次真正从头到尾的计算 3 scala> println(rdd.collect().mkString(",")) //行动操作，触发一次真正从头到尾的计算 Hadoop,Spark,Hive

5.1.3持久化 ·可以通过持久化(缓存)机制避免这种重复计算的开销可以使用 persist方法对一个RDD标记为持久化之所以说“标记为持久化”,是因为出现 persist语句的地方,并不会马上计算生成RDD并把它持久化,而是要等到遇到第一个行动操作触发真正计算以后,才会把计算结果进行持久化持久化后的RDD将会被保留在计算节点的内存中被后面的行动操作重复使用 Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 5.1.3 持久化 •可以通过持久化（缓存）机制避免这种重复计算的开销 •可以使用persist()方法对一个RDD标记为持久化 •之所以说“标记为持久化”，是因为出现persist()语句的地方，并不会马上计算生成RDD并把它持久化，而是要等到遇到第一个行动操作触发真正计算以后，才会把计算结果进行持久化 •持久化后的RDD将会被保留在计算节点的内存中被后面的行动操作重复使用

5.1.3持久化 persist的圆括号中包含的是持久化级别参数: persist( MEMORY ONLY):表示将RDD作为反序列化的对象存储于JⅥM中,如果内存不足,就要按照LRU原则替换缓存中的内容 persist( MEMORY AND_DSK表示将RDD作为反序列化的对象存储在JVM中,如果内存不足,超出的分区将会被存放在硬盘上般而言,使用 cache方法时,会调用 persist(MEMORY ONLY) 可以使用 unpersist()方法手动地把持久化的RDD从缓存中移除 Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 5.1.3 持久化 persist()的圆括号中包含的是持久化级别参数： •可以使用unpersist()方法手动地把持久化的RDD从缓存中移除 •persist(MEMORY_ONLY)：表示将RDD作为反序列化的对象存储于JVM中，如果内存不足，就要按照LRU原则替换缓存中的内容 •persist(MEMORY_AND_DISK)表示将RDD作为反序列化的对象存储在JVM中，如果内存不足，超出的分区将会被存放在硬盘上 •一般而言，使用cache()方法时，会调用 persist(MEMORY_ONLY)

5.1.3持久化针对上面的实例,增加持久化语句以后的执行过程如下: scala> val list= List(Hadoop","Spark","Hive") list: List[ String]=List(Hadoop, Spark, Hive) scala> val rdd=Sc parallelize list) rdd: org. apache. spark rdd RDD[String ] Parallel Collection RDD[22] at parallelize at <console>: 29 scala> rdd cache∥会调用 persist( MEMORY ONLY),但是,语句执行到这里,并不会缓存rdd,因为这时rdd还没有被计算生成 scala> println( rdd. count(0)∥第一次行动操作,触发一次真正从头到尾的计算, 这时上面的 Idd cacheO才会被执行,把这个rdd放到缓存中 scala> println(rdd. collecto. mk String(")∥第二次行动操作,不需要触发从头到尾的计算,只需要重复使用上面缓存中的rdd Hadoop, Spark, Hive Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 5.1.3 持久化 scala> val list = List("Hadoop","Spark","Hive") list: List[String] = List(Hadoop, Spark, Hive) scala> val rdd = sc.parallelize(list) rdd: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[22] at parallelize at <console>:29 scala> rdd.cache() //会调用persist(MEMORY_ONLY)，但是，语句执行到这里，并不会缓存rdd，因为这时rdd还没有被计算生成 scala> println(rdd.count()) //第一次行动操作，触发一次真正从头到尾的计算，这时上面的rdd.cache()才会被执行，把这个rdd放到缓存中 3 scala> println(rdd.collect().mkString(",")) //第二次行动操作，不需要触发从头到尾的计算，只需要重复使用上面缓存中的rdd Hadoop,Spark,Hive 针对上面的实例，增加持久化语句以后的执行过程如下：

点击进入文档下载页（PPT格式）

共134页，可试读30页，点击继续阅读 ↓↓

您可能感兴趣的文档

厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第2版）第3章分布式文件系统HDFS
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第3版）第8章 Hadoop架构再探讨
厦门大学：《数据库系统原理》课程教学资源（PPT课件讲稿，2016版）第四章数据库安全性
厦门大学：《数据库系统原理》课程教学资源（PPT课件讲稿，2016版）第一章绪论（林子雨）
厦门大学数据库实验室论文阅读报告二
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）课程介绍（主讲：林子雨）
厦门大学：《计算机应用基础》PPT讲义课件_第一章信息与计算机基础
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）第一章大数据概述
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）第六章云数据库
厦门大学：《Spark编程基础》课程教学PPT讲义课件（Python版）第4章 RDD编程
厦门大学：《Spark编程基础》课程教学PPT讲义课件（Scala版）第1章大数据技术概述
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）第七章 MapReduce
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第3版）第7章 MapReduce
厦门大学：《大数据处理技术 Spark》课程讲义（PPT教学课件）第1章大数据技术概述
厦门大学：《大数据处理技术 Spark》课程讲义（PPT教学课件）第2章 Scala语言基础
厦门大学：《大数据导论》课程讲义（PPT教学课件）第7章数据处理与分析
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第2版）课程介绍（主讲：林子雨）
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第3版）第3章分布式文件系统HDFS
厦门大学：《计算机应用基础》PPT讲义课件_第二章操作系统Windows XP
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第3版）第6章云数据库
复旦大学：《高级Web技术》课程教学大纲（戴开宇）
《高级Web技术》参考资料：MyEclipse创建基于X-File的Web service及调用实例详解
《高级Web技术》参考资料：Architectural Styles and the design of Network-based Software Achitectures
《高级Web技术》参考资料：MyEclipse 6 Java 开发中文教程_第十一章开发Spring+Struts+Hibernate应用

点击购买下载（PPT）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录