814流计算框架 当前业界诞生了许多专门的流数据实时计算系统来满足各自需求 目前有三类常见的流计算框架和平台:商业级的流计算平台、开源流 计算框架、公司为支持自身业务开发的流计算框架 较为常见的是开源流计算框架,代表如下 Twitter storm:免费、开源的分布式实时计算系统,可简单、高 效、可靠地处理大量的流数据 Yahoo!s4( Simple Scalable Streaming System):开源流计算平台, 是通用的、分布式的、可扩展的、分区容错的、可插拔的流式系 统
• 当前业界诞生了许多专门的流数据实时计算系统来满足各自需求 • 目前有三类常见的流计算框架和平台:商业级的流计算平台、开源流 计算框架、公司为支持自身业务开发的流计算框架 • 较为常见的是开源流计算框架,代表如下: – Twitter Storm:免费、开源的分布式实时计算系统,可简单、高 效、可靠地处理大量的流数据 – Yahoo! S4(Simple Scalable Streaming System):开源流计算平台, 是通用的、分布式的、可扩展的、分区容错的、可插拔的流式系 统 8.1.4 流计算框架
82流计算处理流程 8.2.1 概述 8.2.2 数据实时采集 8.2.3 数据实时计算 8.2.4 实时查询服务
8.2 流计算处理流程 • 8.2.1 概述 • 8.2.2 数据实时采集 • 8.2.3 数据实时计算 • 8.2.4 实时查询服务
821数据处理流程 传统的数据处理流程,需要先采集数据并存储在关系数据库等数据管 理系统中,之后由用户通过查询操作和数据管理系统进行交互 用户查询 数据管理系统查询结果 传统的数据处理流程示意图 ·传统的数据处理流程隐含了两个前提: 存储的数据是旧的。存储的静态数据是过去某一时刻的快照,这 些数据在查询时可能已不具备时效性了 需要用户主动发出查询来获取结果
• 传统的数据处理流程,需要先采集数据并存储在关系数据库等数据管 理系统中,之后由用户通过查询操作和数据管理系统进行交互 • 传统的数据处理流程隐含了两个前提: – 存储的数据是旧的。存储的静态数据是过去某一时刻的快照,这 些数据在查询时可能已不具备时效性了 – 需要用户主动发出查询来获取结果 8.2.1 数据处理流程 传统的数据处理流程示意图
821数据处理流程 流计算的处理流程一般包含三个阶段:数据实时采集、数据实时计算 实时查询服务 数据实时采集 数据实时计算 用户查询 实时查询服务 查询结果 流计算处理流程示意图
• 流计算的处理流程一般包含三个阶段:数据实时采集、数据实时计算、 实时查询服务 8.2.1 数据处理流程 流计算处理流程示意图
822数据实时采集 数据实时采集阶段通常采集多个数据源的海量数据,需要保证实时性、 低延迟与稳定可靠 以日志数据为例,由于分布式集群的广泛应用,数据分散存储在不同 的机器上,因此需要实时汇总来自不同机器上的日志数据 目前有许多互联网公司发布的开源分布式日志采集系统均可满足每秒 数百MB的数据采集和传输需求,如 Facebook的 Scribe LinkedIn的 Kafka 淘宝的 Time tunnel 基于 Hadoop的 Chukwa和Fume
• 数据实时采集阶段通常采集多个数据源的海量数据,需要保证实时性、 低延迟与稳定可靠 • 以日志数据为例,由于分布式集群的广泛应用,数据分散存储在不同 的机器上,因此需要实时汇总来自不同机器上的日志数据 • 目前有许多互联网公司发布的开源分布式日志采集系统均可满足每秒 数百MB的数据采集和传输需求,如: – Facebook的Scribe – LinkedIn的Kafka – 淘宝的Time Tunnel – 基于Hadoop的Chukwa和Flume 8.2.2 数据实时采集