《 Spark编程基础( Python版)》 教材官网:htt/ dblab xmu. edu.cn/ post/spark- python 湿馨提示:编幻灯片母版,可以修改每页PPT的厦大校傲和底部文字 第4章RDD编程 强度PT版:201) 林子雨 厦门大学计算机科学系 E-mail:ziyulin@xmu.edu.cnA 扫一扫访问教材官网主页:p: dblabxmu. edu. cn/post/linziyu 厦门大学计算机科学系 2020版
《Spark编程基础厦门大学计算机科学系 》 厦门大学计算机科学系 林子雨 2020 ziyulin@xmu.edu.cn 版 林子雨 厦门大学计算机科学系 E-mail: ziyulin@xmu.edu.cn 主页: http://dblab.xmu.edu.cn/post/linziyu 第4章 RDD编程 (PPT版本号: 2020年1月版) 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 《Spark编程基础(Python版)》 教材官网: http://dblab.xmu.edu.cn/post/spark-python/ 扫一扫访问教材官网
提纲 41RDD编程基础 42键值对RDD 4.3数据读写 44综合案例 G DAS 高校大数据课程 公共服务平台 百度搜索厦门大学数据库实验室网站访问平台 Spark编程基础》 厦门大学计算机科学系 ziyulin@xmu.edu.cn
《Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 提纲 4.1 RDD编程基础 4.2 键值对RDD 4.3 数据读写 4.4 综合案例 百度搜索厦门大学数据库实验室网站访问平台
4.1RDD编程基础 4.1.1RDD创建 4.1.2RDD操作 4.1.3持久化 4.14分区 4.1.5一个综合实例 Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 4.1 RDD编程基础 4.1.1 RDD创建 4.1.2 RDD操作 4.1.3 持久化 4.1.4 分区 4.1.5 一个综合实例
4.1.1RDD创建 1.从文件系统中加载数据创建RDD 2.通过并行集合(列表)创建RDD Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 4.1.1 RDD创建 1. 从文件系统中加载数据创建RDD 2. 通过并行集合(列表)创建RDD
4.1.1RDD创建 1.从文件系统中加载数据创建RDD spark采用 d textFile()方法来从文件系统中加载数据创建RDD 该方法把文件的UR作为参数,这个URI可以是: 本地文件系统的地址 或者是分布式文件系统HDFS的地址 或者是 Amazon s3的地址等等 Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 4.1.1 RDD创建 •Spark采用textFile()方法来从文件系统中加载数据创建RDD •该方法把文件的URI作为参数,这个URI可以是: •本地文件系统的地址 •或者是分布式文件系统HDFS的地址 •或者是Amazon S3的地址等等 1. 从文件系统中加载数据创建RDD