82.1数据处理流程 流计算的处理流程一般包含三个阶段:数据实时采集、数据实时计算 实时查询服务 数据实时采集 数据实时计算 用户查询 实时查询服务查询结果 流计算处理流程示意图 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn • 流计算的处理流程一般包含三个阶段:数据实时采集、数据实时计算 、实时查询服务 8.2.1 数据处理流程 流计算处理流程示意图 数据实时计算 数据实时采集 实时查询服务 用户查询 查询结果
822数据实时采集 数据实时采集阶段通常釆集多个数据源的海量数据,需要保证实时性 低延迟与稳定可靠 以日志数据为例,由于分布式集群的广泛应用,数据分散存储在不同 的机器上,因此需要实时汇总来自不同机器上的日志数据 目前有许多互联网公司发布的开源分布式日志采集系统均可满足每秒 数百MB的数据采集和传输需求,如: Facebook的Scbe LinkedIn的Kaka 淘宝的 Time Tunne 基于 Hadoop的 Chukwa和Fume 数据实时采集 数据实时计算 用户查询 实时查询服务查询结果 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn • 数据实时采集阶段通常采集多个数据源的海量数据,需要保证实时性 、低延迟与稳定可靠 • 以日志数据为例,由于分布式集群的广泛应用,数据分散存储在不同 的机器上,因此需要实时汇总来自不同机器上的日志数据 • 目前有许多互联网公司发布的开源分布式日志采集系统均可满足每秒 数百MB的数据采集和传输需求,如: – Facebook的Scribe – LinkedIn的Kafka – 淘宝的Time Tunnel – 基于Hadoop的Chukwa和Flume 8.2.2 数据实时采集 数据实时计算 数据实时采集 实时查询服务 用户查询 查询结果
822数据实时采集 ·数据采集系统的基本架构一般有以下三个部分: Agent:主动釆集数据,并把数据推送到co‖ ector部分 Collector:接收多个 Agent的数据,并实现有序、可靠、高性能 的转发 Store:存储 Collector转发过来的数据(对于流计算不存储数据) Agent Collector Store Agent Collector Store Ager Collector Store 数据采集系统基本架构 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn • 数据采集系统的基本架构一般有以下三个部分: – Agent:主动采集数据,并把数据推送到Collector部分 – Collector:接收多个Agent的数据,并实现有序、可靠、高性能 的转发 – Store:存储Collector转发过来的数据(对于流计算不存储数据) 8.2.2 数据实时采集 数据采集系统基本架构 Agent Agent Agent Collector Collector Collector Store Store Store
82.3数据实时计算 数据实时计算阶段对采集的数据进行实时的分析和计算,并反馈实时 结果 经流处理系统处理后的数据,可视情况进行存储,以便之后再进行分 析计算。在时效性要求较高的场景中,处理之后的数据也可以直接丢 弃 数据流入 流处理系统 数据流出 实时计算 计算结果 数据实时计算流程 数据实时采集 数据实时计算 用户查询 实时查询服务 查询结果 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn • 数据实时计算阶段对采集的数据进行实时的分析和计算,并反馈实时 结果 • 经流处理系统处理后的数据,可视情况进行存储,以便之后再进行分 析计算。在时效性要求较高的场景中,处理之后的数据也可以直接丢 弃 8.2.3 数据实时计算 数据实时计算流程 流处理系统 实时计算 数据流入 数据流出 计算结果 数据实时计算 数据实时采集 实时查询服务 用户查询 查询结果
82.3实时查询服务 实时査询服务:经由流计算框架得出的结果可供用户进行实时查询、 展示或储存 传统的数据处理流程,用户需要主动发出査询才能获得想要的结果 而在流处理流程中,实时査询服务可以不断更新结果,并将用户所需 的结果实时推送给用户 虽然通过对传统的数据处理系统进行定时查询,也可以实现不断地更 新结果和结果推送,但通过这样的方式获取的结果,仍然是根据过去 某一时刻的数据得到的结果,与实时结果有着本质的区别 数据实时采集 数据实时计算 用户查 实时查询服务 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn • 实时查询服务:经由流计算框架得出的结果可供用户进行实时查询、 展示或储存 • 传统的数据处理流程,用户需要主动发出查询才能获得想要的结果。 而在流处理流程中,实时查询服务可以不断更新结果,并将用户所需 的结果实时推送给用户 • 虽然通过对传统的数据处理系统进行定时查询,也可以实现不断地更 新结果和结果推送,但通过这样的方式获取的结果,仍然是根据过去 某一时刻的数据得到的结果,与实时结果有着本质的区别 8.2.3 实时查询服务 数据实时计算 数据实时采集 实时查询服务 用户查询 查询结果