82.1数据处理流程 传统的数据处理流程,需要先采集数据并存储在关系薮据库等数据管 理系统中,之后由用户通过查询操作和数据管理系统进行交互 用户查询 数据管理系统查询结果 传统的数据处理流程示意图 传统的数据处理流程隐含了两个前提: 存储的数据是旧的。存储的静态数据是过去某一时刻的快照,这 些数据在查询时可能已不具备时效性了 需要用户主动发出查询来获取结果 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn • 传统的数据处理流程,需要先采集数据并存储在关系数据库等数据管 理系统中,之后由用户通过查询操作和数据管理系统进行交互 • 传统的数据处理流程隐含了两个前提: – 存储的数据是旧的。存储的静态数据是过去某一时刻的快照,这 些数据在查询时可能已不具备时效性了 – 需要用户主动发出查询来获取结果 8.2.1 数据处理流程 传统的数据处理流程示意图 数据管理系统 用户查询 查询结果
82.1数据处理流程 流计算的处理流程一般包含三个阶段:数据实时采集、数据实时计算 实时查询服务 数据实时采集 数据实时计算 用户查询 实时查询服务查询结果 流计算处理流程示意图 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn • 流计算的处理流程一般包含三个阶段:数据实时采集、数据实时计算 、实时查询服务 8.2.1 数据处理流程 流计算处理流程示意图 数据实时计算 数据实时采集 实时查询服务 用户查询 查询结果
822数据实时采集 数据实时采集阶段通常釆集多个数据源的海量数据,需要保证实时性 低延迟与稳定可靠 以日志数据为例,由于分布式集群的广泛应用,数据分散存储在不同 的机器上,因此需要实时汇总来自不同机器上的日志数据 目前有许多互联网公司发布的开源分布式日志采集系统均可满足每秒 数百MB的数据采集和传输需求,如: Facebook的Scbe LinkedIn的Kaka 淘宝的 Time Tunne 基于 Hadoop的 Chukwa和Fume 数据实时采集 数据实时计算 用户查询 实时查询服务查询结果 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn • 数据实时采集阶段通常采集多个数据源的海量数据,需要保证实时性 、低延迟与稳定可靠 • 以日志数据为例,由于分布式集群的广泛应用,数据分散存储在不同 的机器上,因此需要实时汇总来自不同机器上的日志数据 • 目前有许多互联网公司发布的开源分布式日志采集系统均可满足每秒 数百MB的数据采集和传输需求,如: – Facebook的Scribe – LinkedIn的Kafka – 淘宝的Time Tunnel – 基于Hadoop的Chukwa和Flume 8.2.2 数据实时采集 数据实时计算 数据实时采集 实时查询服务 用户查询 查询结果
822数据实时采集 ·数据采集系统的基本架构一般有以下三个部分: Agent:主动釆集数据,并把数据推送到co‖ ector部分 Collector:接收多个 Agent的数据,并实现有序、可靠、高性能 的转发 Store:存储 Collector转发过来的数据(对于流计算不存储数据) Agent Collector Store Agent Collector Store Ager Collector Store 数据采集系统基本架构 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn • 数据采集系统的基本架构一般有以下三个部分: – Agent:主动采集数据,并把数据推送到Collector部分 – Collector:接收多个Agent的数据,并实现有序、可靠、高性能 的转发 – Store:存储Collector转发过来的数据(对于流计算不存储数据) 8.2.2 数据实时采集 数据采集系统基本架构 Agent Agent Agent Collector Collector Collector Store Store Store
82.3数据实时计算 数据实时计算阶段对采集的数据进行实时的分析和计算,并反馈实时 结果 经流处理系统处理后的数据,可视情况进行存储,以便之后再进行分 析计算。在时效性要求较高的场景中,处理之后的数据也可以直接丢 弃 数据流入 流处理系统 数据流出 实时计算 计算结果 数据实时计算流程 数据实时采集 数据实时计算 用户查询 实时查询服务 查询结果 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn • 数据实时计算阶段对采集的数据进行实时的分析和计算,并反馈实时 结果 • 经流处理系统处理后的数据,可视情况进行存储,以便之后再进行分 析计算。在时效性要求较高的场景中,处理之后的数据也可以直接丢 弃 8.2.3 数据实时计算 数据实时计算流程 流处理系统 实时计算 数据流入 数据流出 计算结果 数据实时计算 数据实时采集 实时查询服务 用户查询 查询结果