当前位置：和泉文库 > 计算机 > 浏览文档

厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，2017）第9章 Spark

• 9.1 Spark概述 • 9.2 Spark生态系统 • 9.3 Spark运行架构 • 9.4 Spark SQL • 9.5 Spark的部署和应用方式 • 9.6 Spark编程实践

文件格式：PPT，文件大小：4.08MB，售价：12.32元

文档详细内容（约52页）

9.13Spak与 Hadoop的对比 Hadoop存在如下一些缺点表达能力有限磁盘IO开销大 ·延迟高任务之间的衔接涉及IO开销在前一个任务执行完成之前,其他任务就无法开始,难以胜任复杂、多阶段的计算任务《大数据技术原理与应用(第2版厦门大学计算机科学系林子雨 ziyulin@xmu. edu

《大数据技术原理与应用（第2版）》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 9.1.3 Spark与Hadoop的对比 Hadoop存在如下一些缺点： •表达能力有限 •磁盘IO开销大 •延迟高 •任务之间的衔接涉及IO开销 •在前一个任务执行完成之前，其他任务就无法开始，难以胜任复杂、多阶段的计算任务

9.13Spak与 Hadoop的对比 Spak在借鉴 Hadoop MapReduce优点的同时,很好地解决了 MapReduce所面临的问题相比于 Hadoop map reduce,spak主要具有如下优点: Spark的计算模式也属于 MapReduce,但不局限于Map和 Reduce操作 ,还提供了多种数据集操作类型,编程模型比 Hadoop map reduce更灵活 spak提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高 Spark基于DAG的任务调度执行机制,要优于 Hadoop Map reduce的迭代执行机制《大数据技术原理与应用(第2版厦门大学计算机科学系林子雨 ziyulin@xmu. edu

《大数据技术原理与应用（第2版）》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 9.1.3 Spark与Hadoop的对比 Spark在借鉴Hadoop MapReduce优点的同时，很好地解决了 MapReduce所面临的问题相比于HadoopMapReduce，Spark主要具有如下优点： •Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比Hadoop MapReduce更灵活 •Spark提供了内存计算，可将中间结果放到内存中，对于迭代运算效率更高 Spark基于DAG的任务调度执行机制，要优于Hadoop MapReduce的迭代执行机制

9.13Spak与 Hadoop的对比 HDFS 迭代1 迭代2 查询1 结果1 查询2 结果2 (a) Hadoop MapReduce执行流程读取存储在读取内存中内存内存中迭代1 查询1 内存中查询2 结果2 图16-2 Hadoop与 Spark的执行流程对比 (b) Spark执行流程《大数据技术原理与应用(第2版厦门大学计算机科学系林子雨 ziyulin@xmu. edu

《大数据技术原理与应用（第2版）》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 9.1.3 Spark与Hadoop的对比迭代1 迭代2 HDFS 读取 HDFS 写入 HDFS 读取 HDFS 写入 ... 查询1 查询2 ... 结果1 结果2 (a) Hadoop MapReduce执行流程迭代1 迭代2 读取存储在内存中 ... 输入输入输入存储在内存中读取内存查询1 查询2 ... 结果1 结果2 输入存储在内存中 (b) Spark执行流程图16-2 Hadoop与Spark的执行流程对比

9.13Spak与 Hadoop的对比使用 Hadoop进行迭代计算非常耗资源 Spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据 110 0.9 Hadoop Spark 图16-3 Hadoop与 Spark执行逻辑回归的时间对比《大数据技术原理与应用(第2版厦门大学计算机科学系林子雨 ziyulin@xmu. edu

《大数据技术原理与应用（第2版）》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 9.1.3 Spark与Hadoop的对比 110 0.9 0 20 40 60 80 100 120 Hadoop Spark 执行时间(s) 图16-3 Hadoop与Spark执行逻辑回归的时间对比 •使用Hadoop进行迭代计算非常耗资源 •Spark将数据载入内存后，之后的迭代计算都可以直接使用内存中的中间结果作运算，避免了从磁盘中频繁读取数据

●9:2sa生态系统在实际应用中,大数据处理主要包括以下三个类型 ·复杂的批量数据处理:通常时间跨度在数十分钟到数小时之间基于历史数据的交互式查询:通常时间跨度在数十秒到数分钟之间基于实时数据流的数据处理:通常时间跨度在数百毫秒到数秒之间当同时存在以上三种场景时,就需要同时部署三种不同的软件比如: MapReduce/mpaa/ Storm 这样做难免会带来一些问题 ·不同场景之间输入输出数据无法做到无缝共享,通常需要进行数据格式的转换不同的软件需要不同的开发和维护团队,带来了较高的使用成本比较难以对同一个集群中的各个系统进行统一的资源协调和分配《大数据技术原理与应用(第2版厦门大学计算机科学系林子雨 ziyulin@xmu. edu

《大数据技术原理与应用（第2版）》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 9.2 Spark生态系统在实际应用中，大数据处理主要包括以下三个类型： •复杂的批量数据处理：通常时间跨度在数十分钟到数小时之间 •基于历史数据的交互式查询：通常时间跨度在数十秒到数分钟之间 •基于实时数据流的数据处理：通常时间跨度在数百毫秒到数秒之间当同时存在以上三种场景时，就需要同时部署三种不同的软件 •比如: MapReduce / Impala / Storm 这样做难免会带来一些问题： •不同场景之间输入输出数据无法做到无缝共享，通常需要进行数据格式的转换 •不同的软件需要不同的开发和维护团队，带来了较高的使用成本 •比较难以对同一个集群中的各个系统进行统一的资源协调和分配

点击进入文档下载页（PPT格式）

共52页，可试读18页，点击继续阅读 ↓↓

您可能感兴趣的文档

中国科学技术大学：《嵌入式系统设计》课程教学资源（PPT课件讲稿）第2章 ARM微处理器概述与编程模型（王行甫）
电子工业出版社：《计算机网络》课程教学资源（第五版，PPT课件讲稿）第二章物理层
南京大学：可信软件（PPT讲稿）认识、度量与评估
《C语言程序设计》课程电子教案（PPT课件讲稿）第六章函数
“互联网+”与“+互联网”（PPT讲稿）
《Computer Networking：A Top Down Approach》英文教材教学资源（PPT课件讲稿，6th edition）Chapter 6 无线和移动网络 Wireless and Mobile Networks
面向服务的业务流程管理（PPT讲稿）Introduction to Business Process Management（BPM）
《图像处理与计算机视觉 Image Processing and Computer Vision》课程教学资源（PPT课件讲稿）Chapter 04 Feature extraction and tracking
香港科技大学：Advanced Topics in Next Generation Wireless Networks
《Java语言程序设计》课程教学资源（PPT课件讲稿）第三章 Java面向对象程序设计
《数据结构》课程教学资源（PPT课件讲稿）第六章树与二叉树（6.1-6.3）
四川大学：《Linux操作系统》课程教学资源（PPT课件讲稿）第2章 Linux操作系统管理基础
南京大学：《数据结构 Data Structures》课程教学资源（PPT课件讲稿）第九章排序
PARALLELISM IN HASKELL（Kathleen Fisher）
电子工业出版社：《计算机网络》课程教学资源（第五版，PPT课件讲稿）第八章因特网上的音频/视频服务
《微机原理与接口技术》课程教学资源（PPT课件讲稿）第1章微型计算机基础概论
《现代操作系统 Modern Operating Systems》课程教学资源（PPT课件讲稿，Third Edition）Chapter 10 Case Study 1 LINUX
《大学计算机基础》课程教学资源（PPT课件讲稿）第三章字处理软件 Word2003
《软件测试》课程教学资源（PPT讲稿）集成测试
香港中文大学：Adaboost for building robust classifiers（PPT讲稿）
福建工程学院：《软件工程》课程教学资源（实验指导书）
《数据结构》课程教学资源（PPT课件讲稿）第九章排序
《图像处理与计算机视觉 Image Processing and Computer Vision》课程教学资源（PPT课件讲稿）Chapter 02 Image processing and computer vision（Camera models and parameters）
四川大学：软件设计工具（PPT课件讲稿）Software design tool

点击购买下载（PPT）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录