8.1流计算概述 ·8.1.1 静态数据和流数据 ·8.1.2 批量计算和实时计算 8.1.3 流计算概念 8.14流计算与 Hadoop ·8.1.5 流计算框架 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 8.1 流计算概述 • 8.1.1 静态数据和流数据 • 8.1.2 批量计算和实时计算 • 8.1.3 流计算概念 • 8.1.4 流计算与Hadoop • 8.1.5 流计算框架
8.1.1静态数据和流数据 很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量 历史数据就是静态数据。技术人员可以利用数据挖掘和OLAP(On Line Analytical Processing)分析工具从静态数据中找到对企业有价 值的信息 数据仓库监视、运行和维护工具 外部数据 数据挖掘 前端应用 元数据 数据仓库 数据挖掘系统 插取、转换 报表 加载ETD OLTP系统 服务 !回分析工具 查询工具 文档 其中应 数据集市 OLAP服务器 数据源 数据存储和管理 分析和挖掘引擎 应用 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn • 很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量 历史数据就是静态数据。技术人员可以利用数据挖掘和OLAP(OnLine Analytical Processing)分析工具从静态数据中找到对企业有价 值的信息 8.1.1 静态数据和流数据
8.1.1静态数据和流数据 近年来,在Web应用、网络监控、传感监测等领域,兴起了一种新 的数据密集型应用——流数据,即数据以大量、快速、时变的流形式 持续到达 实例:PM25检测、电子商务网站用户点击流 流数据具有如下特征: 数据快速持续到达,潜在大小也许是无穷无尽的 数据来源众多,格式复杂 数据量大,但是不十分关注存储,一旦经过处理,要么被丢弃, 要么被归档存储 注重数据的整体价值,不过分关注个别数据 数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的 数据元素的顺序 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn • 近年来,在Web应用、网络监控、传感监测等领域,兴起了一种新 的数据密集型应用——流数据,即数据以大量、快速、时变的流形式 持续到达 • 实例:PM2.5检测、电子商务网站用户点击流 • 流数据具有如下特征: – 数据快速持续到达,潜在大小也许是无穷无尽的 – 数据来源众多,格式复杂 – 数据量大,但是不十分关注存储,一旦经过处理,要么被丢弃, 要么被归档存储 – 注重数据的整体价值,不过分关注个别数据 – 数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的 数据元素的顺序 8.1.1 静态数据和流数据
8.12批量计算和实时计算 对静态数据和流数据的处理,对应着两种截然不同的计算模式:批量 计算和实时计算 批量计算:充裕时间处理静态数据, 处理逻辑 流数据 如 Hadoop (动态数据) ·流数据不适合采用批量计算,因为流 数据不适合用传统的关系模型建模 :流数据必须采用实时计算,响应时间(静态数据 处理 为秒级 逻辑 价值 ·在大数据时代,数据格式复杂、来源 众多、数据量巨大,对实时计算提出 了很大的挑战。因此,针对流数据的 丢弃 实时计算—流计算,应运而生 价值 批量计算 实时计算 图8-2数据的两种处理模型 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn • 对静态数据和流数据的处理,对应着两种截然不同的计算模式:批量 计算和实时计算 8.1.2 批量计算和实时计算 图8-2 数据的两种处理模型 •批量计算:充裕时间处理静态数据, 如Hadoop •流数据不适合采用批量计算,因为流 数据不适合用传统的关系模型建模 •流数据必须采用实时计算,响应时间 为秒级 •在大数据时代,数据格式复杂、来源 众多、数据量巨大,对实时计算提出 了很大的挑战。因此,针对流数据的 实时计算——流计算,应运而生
8.1.3流计算概念 ·流计算:实时获取来自不同数据源的海量数据,经过实时 分析处理,获得有价值的信息 : @ 数据采集 实时分析处理 结果反馈 图8-3流计算示意图 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn • 流计算:实时获取来自不同数据源的海量数据,经过实时 分析处理,获得有价值的信息 8.1.3 流计算概念 图8-3 流计算示意图 数据采集 实时分析处理 结果反馈