批处理与流处理 处理逻辑 动态数据 处理 静止数据 逻辑 价值 丢弃 价值 左半部是批处理:以“静止数据”为出发点,数据是任尔东西 南北风、我自岿然不动,处理逻辑进来,算完后价值出去。右半 部则是流数据处理范式。这次不动的是逻辑,“动态数据”进来, 计算完后价值留下,原始数据加入“静止数据”,或索性丢弃。 《大数据技术基础》
《大数据技术基础》 批处理与流处理 左半部是批处理:以“静止数据”为出发点,数据是任尔东西 南北风、我自岿然不动,处理逻辑进来,算完后价值出去。右半 部则是流数据处理范式。这次不动的是逻辑,“动态数据”进来, 计算完后价值留下,原始数据加入“静止数据”,或索性丢弃
批处理与流处理的组合 两种范式常常组合使用,而且形成了一些定式: 流处理作为批处理的前端:比如大型强子对撞机,每秒 PB级的数据先经过流处理范式进行过滤,只有那些科学 家感兴趣的撞击数据保留下来进入存储系统,留待批处理 范式处理。这样,欧洲核子硏究中心每年的新增存储存储 量可以减到25PB。 ·流处理与批处理肩并肩:流处理负责动态数据和实时智能 批处理负责静止数据和历史智能,实时智能和历史智能 并成为全时智能。 《大数据技术基础》
《大数据技术基础》 批处理与流处理的组合 两种范式常常组合使用,而且形成了一些定式: • 流处理作为批处理的前端:比如大型强子对撞机,每秒 PB级的数据先经过流处理范式进行过滤,只有那些科学 家感兴趣的撞击数据保留下来进入存储系统,留待批处理 范式处理。这样,欧洲核子研究中心每年的新增存储存储 量可以减到25PB。 • 流处理与批处理肩并肩:流处理负责动态数据和实时智能 ,批处理负责静止数据和历史智能,实时智能和历史智能 合并成为全时智能
如何实现“快”的数据处理 首先,“快”是个相对的概念,可以是实时,也可以秒级、分钟 级、小时级、天级甚至更长的延迟。其次,考虑目前的架构是不是有潜 力改造到足够“快” 些通用的技术思路来实现“快”: 如果数据流入量太大,在前端就地釆用流处理进行即时处理、过滤掉 非重要数据 把数据预处理成适于快速分析的格式 增量计算-也即先顾眼前的新数据,再去更新老数据 很多批处理系统慢的根源是磁盘和IO,把原始数据和中间数据放在内 存里,一定能极大地提升速度 降低对精确性的要求 《大数据技术基础》
《大数据技术基础》 如何实现“快”的数据处理 首先,“快”是个相对的概念,可以是实时,也可以秒级、分钟 级、小时级、天级甚至更长的延迟。其次,考虑目前的架构是不是有潜 力改造到足够“快”。 一些通用的技术思路来实现“快”: • 如果数据流入量太大,在前端就地采用流处理进行即时处理、过滤掉 非重要数据 • 把数据预处理成适于快速分析的格式 • 增量计算--也即先顾眼前的新数据,再去更新老数据 • 很多批处理系统慢的根源是磁盘和I/O,把原始数据和中间数据放在内 存里,一定能极大地提升速度 • 降低对精确性的要求
流处理 流处理的处理模式将数据视为流,源源不断的 数据组成了数据流。当新的数据到来时就立刻处理 并返回所需的结果。 Data stre Memory CPU 《大数据技术基础》
《大数据技术基础》 流处理 流处理的处理模式将数据视为流,源源不断的 数据组成了数据流。当新的数据到来时就立刻处理 并返回所需的结果
批处理 Google公司在2004年提出的 Mapreduce编程模型是最 具代表性的批处理模式。一个完整的 Mapreduce过程如图 所示 (n fork worker split O output worker file 0 Hy local wnue outpur Intennediate files (on local disks) 《大数据技术基础》
《大数据技术基础》 批处理 Google 公司在2004年提出的MapReduce编程模型是最 具代表性的批处理模式。一个完整的MapReduce 过程如图 所示: