●9.1sak概述 9.11Spak简介 9.12 Scala简介 9.13 Spark与 Hadoop的比较 《大数据技术原理与应用(第2版 厦门大学计算机科学系 林子雨 ziyulin@xmu. edu
《大数据技术原理与应用(第2版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 9.1 Spark概述 9.1.1 Spark简介 9.1.2 Scala简介 9.1.3 Spark与Hadoop的比较
9.11Spa简介 Spark最初由美国加州伯克利大学( UCBerkeley)的AMP 实验室于2009年开发,是基于内存计算的大数据并行计算 框架,可用于构建大型的、低延迟的数据分析应用程序 2013年 Spark加入 Apache孵化器项目后发展迅猛,如今已 成为 Apache软件基金会最重要的三大分布式计算系统开源 项目之一( Hadoop、 Spark、 storm) spark在2014年打破了 Hadoop保持的基准排序纪录 Spark206个节点/23分钟/100TB数据 Hadoop/2000个节点/72分钟/100TB数据 Spark用十分之一的计算资源,获得了比 Hadoop73倍 的速度 《大数据技术原理与应用(第2版 厦门大学计算机科学系 林子雨 ziyulin@xmu. edu
《大数据技术原理与应用(第2版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 9.1.1 Spark简介 •Spark最初由美国加州伯克利大学(UCBerkeley)的AMP 实验室于2009年开发,是基于内存计算的大数据并行计算 框架,可用于构建大型的、低延迟的数据分析应用程序 •2013年Spark加入Apache孵化器项目后发展迅猛,如今已 成为Apache软件基金会最重要的三大分布式计算系统开源 项目之一(Hadoop、Spark、Storm) •Spark在2014年打破了Hadoop保持的基准排序纪录 •Spark/206个节点/23分钟/100TB数据 •Hadoop/2000个节点/72分钟/100TB数据 •Spark用十分之一的计算资源,获得了比Hadoop快3倍 的速度
9.11Spa简介 Spark具有如下几个主要特点: 运行速度快:使用DAG执行引擎以支持循环数据流与内存计算 ·容易使用:支持使用 Scala、Java、 Python和R语言进行编程,可以通过 Spark shel进行交互式编程 通用性: Spark提供了完整而强大的技术栈,包括S①L査询、流式计算 机器学习和图算法组件 ˉ运行模式多样:可运行于独立的集群模式中,可运行于 Hadoop中,也 可运行于 Amazon eo2等云环境中,并且可以访问HDFS、 Cassandra、 HBase、Hive等多种数据源 《大数据技术原理与应用(第2版 厦门大学计算机科学系 林子雨 ziyulin@xmu. edu
《大数据技术原理与应用(第2版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 9.1.1 Spark简介 Spark具有如下几个主要特点: •运行速度快:使用DAG执行引擎以支持循环数据流与内存计算 •容易使用:支持使用Scala、Java、Python和R语言进行编程,可以通过 Spark Shell进行交互式编程 •通用性:Spark提供了完整而强大的技术栈,包括SQL查询、流式计算 、机器学习和图算法组件 •运行模式多样:可运行于独立的集群模式中,可运行于Hadoop中,也 可运行于Amazon EC2等云环境中,并且可以访问HDFS、Cassandra、 HBase、Hive等多种数据源
911a收简介 Spark如今已吸引了国内外各大公司的注意,如腾讯、淘宝、百度、亚马 逊等公司均不同程度地使用了 Spark来构建大数据分析应用,并应用到实 际的生产环境中 Spark Hadoop 2013年7月 2014年1月 2014年7月 2015年 F1月 2015年7月 2016年1月 图16-1谷歌趋势: Spark与 Hadoop对比 《大数据技术原理与应用(第2版 厦门大学计算机科学系 林子雨 ziyulin@xmu. edu
《大数据技术原理与应用(第2版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 9.1.1 Spark简介 图16-1 谷歌趋势:Spark与Hadoop对比 Spark如今已吸引了国内外各大公司的注意,如腾讯、淘宝、百度、亚马 逊等公司均不同程度地使用了Spark来构建大数据分析应用,并应用到实 际的生产环境中
幽912ca简介 Scala是一门现代的多范式编程语言,运行于Java平台(JⅥM, Java虚拟机),并兼容现有的Java程序 Scala的特性: ˆ Scala具备强大的并发性,支持函数式编程,可以更好地支持分布 式系统 Scala语法简洁,能提供优雅的API Scala兼容Java,运行速度快,且能融合到 Hadoop生态圈中 Scala是 Spark的主要编程语言,但Spak还支持Java、 Python、R 作为编程语言 Scala的优势是提供了REPL( Read-Eval-Print Loop,交互式解释 器),提高程序开发效率 《大数据技术原理与应用(第2版 厦门大学计算机科学系 林子雨 ziyulin@xmu. edu
《大数据技术原理与应用(第2版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 9.1.2 Scala简介 Scala是一门现代的多范式编程语言,运行于Java平台(JVM, Java 虚拟机),并兼容现有的Java程序 Scala的特性: •Scala具备强大的并发性,支持函数式编程,可以更好地支持分布 式系统 •Scala语法简洁,能提供优雅的API Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中 Scala是Spark的主要编程语言,但Spark还支持Java、Python、R 作为编程语言 Scala的优势是提供了REPL(Read-Eval-Print Loop,交互式解释 器),提高程序开发效率