数据解释 数据分析是大数据处理的核心,但是用户往往更关心结果 的展示。如果分析的结果正确但是没有采用适当的解释方 法,则所得到的结果很可能让用户难以理解,极端情况下 甚至会误导用户 ·大数据时代的数据分析结果往往也是海量的,同时结果之 间的关联关系极其复杂,采用传统的解释方法基本不可行 ·可以考虑从下面两个方面提升数据解释能力: 引入可视化技术 让用户能够在一定程度上了解和参与具体的分析过程 《大数据技术基础》
《大数据技术基础》 数据解释 • 数据分析是大数据处理的核心,但是用户往往更关心结果 的展示。如果分析的结果正确但是没有采用适当的解释方 法,则所得到的结果很可能让用户难以理解,极端情况下 甚至会误导用户。 • 大数据时代的数据分析结果往往也是海量的,同时结果之 间的关联关系极其复杂,采用传统的解释方法基本不可行 • 可以考虑从下面两个方面提升数据解释能力: – 引入可视化技术 – 让用户能够在一定程度上了解和参与具体的分析过程
提纲 口大数据处理的基本流程 口大数据处理模型 口大数据关键技术 口大数据处理工具 口大数据时代面临的新挑战 《大数据技术基础》
《大数据技术基础》 提纲 大数据处理的基本流程 大数据处理模型 大数据关键技术 大数据处理工具 大数据时代面临的新挑战
大数据之“快”从何说起 时间就是金钱 时间在分母上,越小,单位价值就越大。 像其它商品一样,数据的价值会折旧 过去一天的数据,比过去一个月的数据可能都更有价值 数据跟新闻和金融行情一样,具有时效性 《大数据技术基础》
《大数据技术基础》 大数据之“快”从何说起 •时间就是金钱 时间在分母上,越小,单位价值就越大。 •像其它商品一样,数据的价值会折旧 过去一天的数据,比过去一个月的数据可能都更有价值。 •数据跟新闻和金融行情一样,具有时效性
大数据的三种状态 静止数据 动态数据 正使用数据 大数据的三种状态如上图所示,按照数据的三状态定义, 水库里一平如镜(非活跃)的水是“静止数据( data at rest)” 水处理系统中上下翻动的水是“正使用数据( data inuse)”, 汹涌而来的新水流就是“动态数据( data in motion)”。 《大数据技术基础》
《大数据技术基础》 大数据的三种状态 大数据的三种状态如上图所示,按照数据的三状态定义, 水库里一平如镜(非活跃)的水是“静止数据(data at rest)”, 水处理系统中上下翻动的水是“正使用数据(data inuse)”, 汹涌而来的新水流就是“动态数据(data in motion)
大数据的“快”说的是两个层面 ·“动态数据”来得快 动态数据有不同的产生模式。有的是 burst模式,极 端的例子如欧洲核子研究中心(CERN)的大型强子对撞 机( Large Hadron Collider,简称LHC),此机不撞则已, 撞惊人,工作状态下每秒产生PB级的数据。也有的动态 数据是涓涓细流的模式,典型的如 clickstream,日 心, RFID数据,GPS位置信息, Twitter的 firehose流数据等。 “正使用数据”处理得快 水处理系统可以从水库调出水来进行处理(“静止数 据3转变为“正使用数据”),也可以直接对涌进来的新水流 处理(动态数据转变为“正使用数据”)。这对应着两种大 相迥异的处理范式:批处理和流处理。 《大数据技术基础》
《大数据技术基础》 大数据的“快”说的是两个层面 • “动态数据”来得快 动态数据有不同的产生模式。有的是burst模式,极 端的例子如欧洲核子研究中心(CERN)的大型强子对撞 机(Large Hadron Collider,简称LHC),此机不撞则已, 一撞惊人,工作状态下每秒产生PB级的数据。也有的动态 数据是涓涓细流的模式,典型的如 clickstream,日志, RFID数据,GPS位置信息,Twitter的firehose流数据等。 • “正使用数据”处理得快 水处理系统可以从水库调出水来进行处理(“静止数 据”转变为“正使用数据”),也可以直接对涌进来的新水流 处理(“动态数据”转变为“正使用数据”)。这对应着两种大 相迥异的处理范式:批处理和流处理