当前位置：和泉文库 > 计算机 > 浏览文档

厦门大学：《Spark编程基础》课程教学PPT讲义课件（Scala版）第5章 RDD编程

5.1 RDD编程基础 5.1.1 RDD创建 5.1.2 RDD操作 5.1.3 持久化 5.1.4 分区 5.1.5 一个综合实例 5.2 键值对RDD 5.2.1 键值对RDD的创建 5.2.2 常用的键值对RDD转换操作 5.2.3 一个综合实例 5.3 数据读写 5.3.1 文件数据读写 5.3.2 读写HBase数据 5.4 综合案例 5.4.1 案例1：求TOP值 5.4.2 案例2：求最大最小值 5.4.3 案例3：文件排序 5.4.4 案例4：二次排序 5.4.5 案例5：连接操作

文件格式：PPT，文件大小：4.57MB，售价：31.88元

共134页，可试读30页，点击往前阅读 ↑↑

文档详细内容（约134页）

5.1.4分区 RDD是弹性分布式数据集,通常RDD很大,会被分成很多个分区,分别保存在不同的节点上 1.分区的作用 (1)增加并行度 Worker Nodel WorkerNode2 WorkerNode3 Worker Node4 图RDD分区被保存到不同节点上 Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 5.1.4 分区 RDD是弹性分布式数据集，通常RDD很大，会被分成很多个分区，分别保存在不同的节点上 WorkerNode1 WorkerNode2 WorkerNode3 WorkerNode4 p1 p6 p2 p3 p4 p7 p8 p5 rdd2 rdd1 图 RDD分区被保存到不同节点上 1.分区的作用（1）增加并行度

5.1.4分区 1分区的作用 User Data( Userld, UserInfo Events UserID, LinkInfo (2)减少通信开销 UserData和 Events表进行连接操作,获得 (UserID, UserInfo, LinkInfo userData Joined events 山1 u3 Jk um 网络通信图未分区时对 UserData和 Events两个表进行连接操作 Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 5.1.4 分区 1.分区的作用（2）减少通信开销 e1 e2 en userData joined events 网络通信 j1 j2 jk u1 u2 u3 um …… …… …… 图未分区时对UserData和Events两个表进行连接操作 UserData（UserId，UserInfo） Events（UserID，LinkInfo） UserData 和Events 表进行连接操作，获得（UserID，UserInfo，LinkInfo）

5.1.4分区 1分区的作用 UserData (Userid, UserInfo Events (UserID, LinkInfo (2)减少通信开销 UserData和 Events表进行连接操作,获得 (UserID, UserInfo, LinkInfo user Data joined events 网络通信本地引用图采用分区以后对 UserData和 Events两个表进行连接操作 Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 5.1.4 分区 u1 u2 u3 um u2 u3 um e1 e2 en userData joined events 网络通信本地引用 u1 图采用分区以后对UserData和Events两个表进行连接操作 1.分区的作用（2）减少通信开销 UserData（UserId，UserInfo） Events（UserID，LinkInfo） UserData 和Events 表进行连接操作，获得（UserID，UserInfo，LinkInfo）

5.1.4分区 2RDD分区原则 RDD分区的一个原则是使得分区的个数尽量等于集群中的CPU核心 (core)数目对于不同的spaκk部署模式而言(本地模式、 Standalone模式、 YARN模式、 Mesos模式),都可以通过设置 spark. default parallelism这个参数的值,来配置默认的分区数目, 般而本地模式:默认为本地机器的CPU数目,若设置了 locaN],则默认为N * Apache Mesos:默认的分区数为8 Standalone或YARN:在“集群中所有CPU核心数目总和”和“2 者中取较大值作为默认值 Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 5.1.4 分区 2.RDD分区原则对于不同的Spark部署模式而言（本地模式、Standalone模式、 YARN模式、Mesos模式），都可以通过设置 spark.default.parallelism这个参数的值，来配置默认的分区数目，一般而言： *本地模式：默认为本地机器的CPU数目，若设置了local[N],则默认为N *Apache Mesos：默认的分区数为8 *Standalone或YARN：在“集群中所有CPU核心数目总和”和“2” 二者中取较大值作为默认值 RDD分区的一个原则是使得分区的个数尽量等于集群中的CPU核心（core）数目

5.1.4分区 3设置分区的个数 (1)创建RDD时手动指定分区个数在调用 d textFile(和 parallelized方法的时候手动指定分区个数即可,语法格式如下: Sc text File(path, partition Num 其中,path参数用于指定要加载的文件的地址, partitionNum参数用于指定分区个数。 scala> val array Array(1, 2, 3, 4, 5) scala> val rdd= sc parallelize(aray,2)∥设置两个分区 Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn

《Spark编程基础》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 5.1.4 分区 3.设置分区的个数（1）创建RDD时手动指定分区个数在调用textFile()和parallelize()方法的时候手动指定分区个数即可，语法格式如下： sc.textFile(path, partitionNum) 其中，path参数用于指定要加载的文件的地址，partitionNum参数用于指定分区个数。 scala> val array = Array(1,2,3,4,5) scala> val rdd = sc.parallelize(array,2) //设置两个分区

点击进入文档下载页（PPT格式）

共134页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第2版）第3章分布式文件系统HDFS
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第3版）第8章 Hadoop架构再探讨
厦门大学：《数据库系统原理》课程教学资源（PPT课件讲稿，2016版）第四章数据库安全性
厦门大学：《数据库系统原理》课程教学资源（PPT课件讲稿，2016版）第一章绪论（林子雨）
厦门大学数据库实验室论文阅读报告二
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）课程介绍（主讲：林子雨）
厦门大学：《计算机应用基础》PPT讲义课件_第一章信息与计算机基础
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）第一章大数据概述
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）第六章云数据库
厦门大学：《Spark编程基础》课程教学PPT讲义课件（Python版）第4章 RDD编程
厦门大学：《Spark编程基础》课程教学PPT讲义课件（Scala版）第1章大数据技术概述
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿）第七章 MapReduce
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第3版）第7章 MapReduce
厦门大学：《大数据处理技术 Spark》课程讲义（PPT教学课件）第1章大数据技术概述
厦门大学：《大数据处理技术 Spark》课程讲义（PPT教学课件）第2章 Scala语言基础
厦门大学：《大数据导论》课程讲义（PPT教学课件）第7章数据处理与分析
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第2版）课程介绍（主讲：林子雨）
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第3版）第3章分布式文件系统HDFS
厦门大学：《计算机应用基础》PPT讲义课件_第二章操作系统Windows XP
厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，第3版）第6章云数据库
复旦大学：《高级Web技术》课程教学大纲（戴开宇）
《高级Web技术》参考资料：MyEclipse创建基于X-File的Web service及调用实例详解
《高级Web技术》参考资料：Architectural Styles and the design of Network-based Software Achitectures
《高级Web技术》参考资料：MyEclipse 6 Java 开发中文教程_第十一章开发Spring+Struts+Hibernate应用

点击购买下载（PPT）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录