1.2.1数据量大 ■根据DC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数 据摩尔定律 ■人类在最近两年产生的数据量相当于之前产生的全部数据量 ˉ预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍 TERABYTE10的12次方一块1TB硬盘 200,000照片或 PETABYTE10的15次方两个数据中心 16个 Blackblaze 机柜 pd存储单元 Growing b EXABYTE10的18次方2.000个机柜 占据一个街区的 Factor of 44 4层数据中心 ZETTABYTE10的21次方1000个数据中 纽约曼哈顿的 1/5区域 2020: 35.2 Zettabytes YOTTABYTE10的24次方一百万个数据 特拉华州和罗德 心 大数据处理技术》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据处理技术》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 1.2.1数据量大 ◼根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数 据摩尔定律) ◼人类在最近两年产生的数据量相当于之前产生的全部数据量 ◼预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍
122数据类型繁多 大数据是由结构化和非结构化数据组成的口科学研究 10%的结构化数据,存储在数据库中 一基因组 90%的非结构化数据,它们与人类信 LHC加速器 息密切相关 地球与空间探测 口企业应用 Email、文档、文件 应用日志 交易记录 Web1.0数据 文本 图像 视频 Web20数据 查询日志/点击流 Twitter/ Blog /sNs -Wiki 《大数据处理技术》 厦门大学计算机科学系 ziyulin@xmu.edu.cn
《大数据处理技术》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 1.2.2 数据类型繁多 ◼ 大数据是由结构化和非结构化数据组成的 – 10%的结构化数据,存储在数据库中 – 90%的非结构化数据,它们与人类信 息密切相关 科学研究 –基因组 –LHC 加速器 –地球与空间探测 企业应用 –Email、文档、文件 –应用日志 –交易记录 Web 1.0数据 –文本 –图像 –视频 Web 2.0数据 –查询日志/点击流 –Twitter/ Blog / SNS –Wiki
1.2.3处理速度快 口从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少 口1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同 1分钟时间: ●新浪可以发送2万条微博 ●苹果可以下载47万次应用 ●淘宝可以卖出6万件商品 人人网可以发生30万次访问 ●百度可以产生90万次搜索查询 《大数据处理技术》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据处理技术》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 1.2.3处理速度快 从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少 1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同
1.2.4价值密度低 价值密度低,商业价值高 以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是 具有很高的商业价值 《大数据处理技术》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据处理技术》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 1.2.4价值密度低 价值密度低,商业价值高 以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是 具有很高的商业价值 继续装ing