当前位置：和泉文库 > 计算机 > 浏览文档

《并行与分布式程序设计》课程教学参考书：分布式与云计算《Spark大数据处理技术、应用与性能优化》（PDF扫描版）

文件格式：PDF，文件大小：6.27MB，售价：12.18元

文档详细内容（约43页）

2●第1章Spark系统概述会被多个用户分享，那么动态地进行计算资源的分配，也会干扰程序的执行。因此，针对集群环境出现了大量的大数据编程框架。首先我们要提到的就是 Google的MapReduce,.它给我们展示了一个简单通用和自动容错的批处理计算模型。但是对于其他类型的计算，比如交互式和流式计算，MapReduce并不适合，这也导致了大量的不同于MapReduce的专有的数据处理模型的出现，比如Storm、Impala 和GraphLab。随着新模型的不断出现，似乎对于大数据处理而言，我们应对不同类型的作业需要一系列不同的处理框架才能很好地完成。但是这些专有系统也有一些不足。 ·重复工作：许多专有系统在解决同样的问题，比如分布式作业以及容错。举例来说.一个分布式的$QL引擎或者一个机器学习系统都需要实现并行聚合。这些问题在每个专有系统中会重复地被解决 ·组合问题：在不同的系统之间进行组合计算是一件费力又不讨好的事情。对于特定的大数据应用程序而言，中间数据集是非常大的，而且移动的成本也非常高昂。在目前的环境中，我们需要将数据复制到稳定的存储系统中（比如HDS),以便在不同的计算引擎中进行分享。然而，这样的复制可能比真正的计算所花费的代价要大，所以以流水线的形式将多个系统组合起来效率并不高。。适用范围的局限性：如果一个应用不适合一个专有的计算系统，那么使用者只能换一个系统，或者重写一个新的计算系统。资源分配：在不同的计算引擎之间进行资源的动态共享是比较困难的，因为大多数的计算引擎都会假设它们在程序运行结束之前拥有相同的机器节点的资源。 ·管理问题：对于多个专有系统，需要花费更多的精力和时间来管理和部署。尤其是对于终端使用者而言，他们需要学习多种API和系统模型。 Spark大数据处理技术

43 1.2 Spark大数据处理框架针对上一节中MapReduce及各种专有系统中出现的不足，伯克利大学推出了全新的统一大数据处理框架Spark.,创新性地提出了RDD概念（一种新的抽象的弹性数据集)，在某种程度上Spark是对MapReduce模型的一种扩展。要在MapReduce 上实现其不擅长的计算工作（比如迭代式、交互式和流式），看上去是一件非常困难的事情，其实主要的原因是MapReduce缺乏一种特性，即在并行计算的各个阶段进行有效的数据共享，这种共享就是RDD的本质。利用这种有效的数据共享和类似 MapReduce的操作接口，上述的各种专有类型计算都能够有效地表达，而且能够获得与专有系统同等的性能。特别值得一提的是，从前对于集群处理的容错方式，比如MapReduce和Dryad, 是将计算构建成为一个有向无环图的任务集。而这只能允许它们有效地重新计算部分DAG。在单独的计算之间（在迭代的计算步骤之间），除了复制文件，这些模型没有提供其他的存储抽象，这就显著地增加了在网络之间复制文件的代价。RDD能够适应当前大部分的数据并行算法和编程模型。 1.2.1RDD表达能力可以使用RDD实现很多现有的集群编程模型以及一些以前的模型不支持的新应用。在这些模型中，RDD能够取得和专有系统同样的性能，还能提供包括容错处理、滞后节点(straggler node)处理等这些专有系统缺乏的特性。这里会重点讨论如下四类模型。。迭代算法：这是日前专有系统实现的非常普遍的一种应用场景，比如迭代算法可以用于图处理和机器学习。RDD能够很好地实现这些模型，包括Pregel、 HaLoop和GraphLab等模型。关系型查询：对于MapReduce来说非常重要的需求就是运行SQL查询，包括长期运行、数小时的批处理作业和交互式的查询。然而对于MapReduce而 Spark大数据处理技术

点击进入文档下载页（PDF格式）

共43页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录