第9章 Spark
第9章 Spark
提纲 91 Sparki概述 92 Spark生态系统 93 Spark运行架构 9. 4 Spark SQL 95 Spark的部署和应用方式 96 Spark编程实践
提纲 • 9.1 Spark概述 • 9.2 Spark生态系统 • 9.3 Spark运行架构 • 9.4 Spark SQL • 9.5 Spark的部署和应用方式 • 9.6 Spark编程实践
9.1 Sparki概述 9.1.1Spak简介 91.2 Scala简介 9.13 Spark与 Hadoop的比较
9.1 Spark概述 9.1.1 Spark简介 9.1.2 Scala简介 9.1.3 Spark与Hadoop的比较
91.1 Spark简介 Spark最初由美国加州伯克利大学( UCBerkeley)的AMP 实验室于2009年开发,是基于内存计算的大数据并行计算 框架,可用于构建大型的、低延迟的数据分析应用程序 2013年 Spark加入 Apache孵化器项目后发展迅猛,如今已 成为 Apache软件基金会最重要的三大分布式计算系统开源 项目之一( Hadoop、 Spark、 Storm) Spark在2014年打破了 Hadoop保持的基准排序纪录 spark/206个节点/23分钟/100TB数据 Hadoop.2000个节点/72分钟/100TB数据 Spark用十分之一的计算资源,获得了比 Hadoop快3倍 的速度
9.1.1 Spark简介 •Spark最初由美国加州伯克利大学(UCBerkeley)的AMP 实验室于2009年开发,是基于内存计算的大数据并行计算 框架,可用于构建大型的、低延迟的数据分析应用程序 •2013年Spark加入Apache孵化器项目后发展迅猛,如今已 成为Apache软件基金会最重要的三大分布式计算系统开源 项目之一(Hadoop、Spark、Storm) •Spark在2014年打破了Hadoop保持的基准排序纪录 •Spark/206个节点/23分钟/100TB数据 •Hadoop/2000个节点/72分钟/100TB数据 •Spark用十分之一的计算资源,获得了比Hadoop快3倍 的速度
91.1 Spark简介 Spark具有如下几个主要特点: 运行速度快:使用DAG执行引擎以支持循环数据流与内存计算 容易使用:支持使用 Scala、Java、 Python和R语言进行编程,可以通过 Spark Shell进行交互式编程 通用性: Spark提供了完整而强大的技术栈,包括SL查询、流式计算 、机器学习和图算法组件 ˉ运行模式多样:可运行于独立的集群模式中,可运行于 Hadoop中,也 可运行于 Amazon ec2等云环境中,并且可以访问HDFS、 Cassandra、 HBase、Hive等多种数据源
9.1.1 Spark简介 Spark具有如下几个主要特点: •运行速度快:使用DAG执行引擎以支持循环数据流与内存计算 •容易使用:支持使用Scala、Java、Python和R语言进行编程,可以通过 Spark Shell进行交互式编程 •通用性:Spark提供了完整而强大的技术栈,包括SQL查询、流式计算 、机器学习和图算法组件 •运行模式多样:可运行于独立的集群模式中,可运行于Hadoop中,也 可运行于Amazon EC2等云环境中,并且可以访问HDFS、Cassandra、 HBase、Hive等多种数据源