数据分析的发展史 大数据项目实际上是传统B项目在数据的外延和分析上的深挖 Advanced Analytics Business Im Analysis understand business challenges Effectiveness Benchmarking Basic Reporting Standard reporting that is reasonably automated Sice and dce data based on standard variables Data Management Consolidation of data Deta quality and accuracy Time and Resources
数据分析的发展史 • 大数据项目实际上是传统BI项目在数据的外延和分析上的深挖
大数据概念由来 ·2011年5月以“与计算相遇大数据”为主题的EMC世界大 会上,EMC提出了 Big data的概念 主题 Big data cloud computing +添加字词 金素字词 热度随时间变化的趋势
大数据概念由来 • 2011年5月以“与计算相遇大数据”为主题的EMC世界大 会上,EMC提出了Big data的概念
大数据百度指数 Ba指数大数据云计算 百度一下 5」 大数据分享和探索平台 ,指数探素 指行业指数 我的指数 需求图 接地 20140700蓝20140007金 云计算 2,996 74曹 12善 53寓曹 -12 1,926 6% 0%-3%善 用:近30天 热点趋势20140700至20140807全 < c整体趟势PC口移动 费近7天兼近30天费近0天费近半年全 大数据云计算 头条□平均值
大数据百度指数
什么是大数据 最早提出“大数据”的机构是麦肯锡公司,这引起了全球广 泛的反响。2011,EMC、BM和麦肯锡等众多国外企业发布 了大数据的研究报告,阐述了大数据的特征 且前大 无统,的定义,通常被认为是数据量很大、数 据形式 的非结构化薮据。 EMC公司认为“大”是指大型数据集,一般在10TB规模左右 BM天数搪括为个V下量花lume)老样飞3 ( variety.)、快速化( velocity)和真实性( verity),强 数据呈现价值稀疏性的特点 維基百科讼为大据是掮和用常思软件工具捕获、管理和 雜基百科 自由的百科全書
什么是大数据 • 最早提出“大数据”的机构是麦肯锡公司,这引起了全球广 泛的反响。2011年,EMC、IBM和麦肯锡等众多国外企业发布 了大数据的研究报告,阐述了大数据的特征。 • 目前大数据尚无统一的定义,通常被认为是数据量很大、数 据形式多样化的非结构化数据。 • EMC公司认为“大”是指大型数据集,一般在10TB规模左右。 同时这些数据来自多种数据源,以实时、迭代的方式实现。 IBM把大数据概括为三个V:大量化(volume)、多样化 (variety)、快速化(velocity)和真实性(verity),强调大 数据呈现价值稀疏性的特点。 • 维基百科认为:大数据是指利用常用软件工具捕获、管理和 处理数据所耗时间超过可忍时间的数据集
大数据的特征 數擔规庞大型鼋缨的昇劉级 别。 数据种类繁多。大数据种类繁多,在编码方式、 数据格式和应用特征等多个方面存在差异性, 冬晕源张約瘡枹数輕结耨径討 2012年,非结构化数据占有比例达到互联网整 个数据量的75%以上。 处理速度快。大数据对实时处理有着较高的要 求,在海量数据面前,处理数据的效率就是企 业的竞争 构化和非结 价值密度低。价值密度的高低与数据总量的大 构化批量数据 小成反比。在现实应用中,数据量大的数据并 Big 菥的姦磊铿娈箬集的忑階雀时有效处理分 结构化 Data 流数据
大数据的特征 • 数据量巨大。通过各种设备产生的海量数据, 数据规模庞大。数据量从TB级别,跃升到PB级 别。 • 数据种类繁多。大数据种类繁多,在编码方式、 数据格式和应用特征等多个方面存在差异性, 多信息源并发形成大量的异构数据。据统计, 企业中80%的数据是非结构化或半结构化的。到 2012年,非结构化数据占有比例达到互联网整 个数据量的75%以上。 • 处理速度快。大数据对实时处理有着较高的要 求,在海量数据面前,处理数据的效率就是企 业的竞争力。 • 价值密度低。价值密度的高低与数据总量的大 小成反比。在现实应用中,数据量大的数据并 不一定有很大的价值,不能被及时有效处理分 析的数据也没有很大的应用价值