《 Sparks编程基础( Scala版)》 教材官网:hp/ /dblab xmu. edu. cn/post/spark 湿馨提示:编幻灯片母版,可以修改每页PPT的厦大校傲和底部文字 第5章RDD编程 可回 (PPT版本号:2018年7月版本 林子雨 厦门大学计算机科学系 E-mail:ziyulin@xmu.edu.cnA 扫一扫访问教材官网 主页http://www.cs.xmu.edu.cn/linziyu 厦门大学计算机科学系 2018版
《Spark编程基础厦门大学计算机科学系 》 厦门大学计算机科学系 林子雨 2018 ziyulin@xmu.edu.cn 版 林子雨 厦门大学计算机科学系 E-mail: ziyulin@xmu.edu.cn 主页:http://www.cs.xmu.edu.cn/linziyu 第5章 RDD编程 (PPT版本号: 2018年7月版本) 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 《Spark编程基础(Scala版)》 教材官网: http://dblab.xmu.edu.cn/post/spark/ 扫一扫访问教材官网
提纲 51RDD编程基础 52键值对RDD 53数据读写 54综合案例 编程基础 G DAS 高校大数据课程 公共服务平台 百度搜索厦门大学数据库实验室网站访问平台 Spark编程基础》 厦门大学计算机科学系 ziyulin@xmu.edu.cn
《Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 提纲 5.1 RDD编程基础 5.2 键值对RDD 5.3 数据读写 5.4 综合案例 百度搜索厦门大学数据库实验室网站访问平台
51RDD编程基础 5.1.1RDD创建 51.2RDD操作 5.1.3持久化 5.14分区 51.5一个综合实例 Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 5.1 RDD编程基础 5.1.1 RDD创建 5.1.2 RDD操作 5.1.3 持久化 5.1.4 分区 5.1.5 一个综合实例
5.1.1RDD创建 1.从文件系统中加载数据创建RDD 2.通过并行集合(数组)创建RDD Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 5.1.1 RDD创建 1. 从文件系统中加载数据创建RDD 2. 通过并行集合(数组)创建RDD
5.1.1RDD创建 1.从文件系统中加载数据创建RDD spark采用 d textFile()方法来从文件系统中加载数据创建RDD 该方法把文件的UR作为参数,这个URI可以是: 本地文件系统的地址 或者是分布式文件系统HDFS的地址 或者是 Amazon s3的地址等等 Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 5.1.1 RDD创建 •Spark采用textFile()方法来从文件系统中加载数据创建RDD •该方法把文件的URI作为参数,这个URI可以是: •本地文件系统的地址 •或者是分布式文件系统HDFS的地址 •或者是Amazon S3的地址等等 1. 从文件系统中加载数据创建RDD