一。认识大数据时代目前对大数据尚未有一个公认的定义,不同的定义基本上是从特征出发,试图给出大数据的定义。伟库SE什么是“大数据口大数据很抽象,表示数据规模的庞大。口大数据泛指巨量的数据集,因可从中控掘出有价值的信息而受到重视。《华尔街日报》将大数据时代、智能化生产、无线网络革命称为引领未来繁荣发展的重大技术变革。11
11 一.认识大数据时代 大数据很抽象,表示数据规模的庞大。 大数据泛指巨量的数据集,因可从中挖掘出 有价值的信息而受到重视。《华尔街日报》 将大数据时代、智能化生产、无线网络革命 称为引领未来繁荣发展的重大技术变革。 目前对大数据尚未有一个公认的定义,不同 的定义基本上是从特征出发,试图给出大数 据的定义
一.认识大数据时代维基百科给出的定义:大数据是指利用常用软件工具捕获、管理和处理数据所耗时“3V”定义间超过可容忍时间的数据集价值性(Value)(IDC)规模性(Volume)“4V”定义多样性(Variety)高速性(Velocity)真实性(Veracity)(IBM)12
12 一.认识大数据时代 维基百科给出的定义: 大数据是指利用常用软件工 具捕获、管理和处理数据所耗时 “3V”定义 间超过可容忍时间的数据集。 规模性(Volume) 多样性(Variety) 高速性(Velocity) “4V”定义 价值性(Value) 真实性(Veracity) (IDC) (IBM)
一。认识大数据时代全球网民平均每月使用流量(MB)12000全球流量累计达到1EB(即10亿GB)10240的时间10000一年(2001)一个月(2004)8000一周(2007)6000一天(2013)一天产生的信息量可刻满1.88亿张DVD光盘4000200010241001019982000200320082014大数据全球网民平均每月使用流量:1M(1998)10M(2000)有多“大”?100M(2003)1G(2008)10G(2014)13
13 全球网民平均每月 使用流量(MB) 1 1 0 100 1024 10240 0 2000 4000 6000 8000 10000 12000 1998 2000 2003 2008 2014 一.认识大数据时代 全球流量累计达到1EB(即10亿GB) 的时间 一年(2001) 一个月(2004) 一周(2007) 一天(2013) 一天产生的信息量可刻满1.88亿张DVD光盘 全球网民平均每月使用流量: 1M(1998) 10M(2000) 100M(2003) 1G(2008) 10G(2014)
一。认识大数据时代我国网民数量居世界之首,每天产生的数据量也位于世界前列单日数据产生量超过5万GB淘宝网站存储量4000万GB日前数据总量10亿GB百度公司存储网页1万亿页每天大约要处理60亿次搜索请求一小时能产生3.6GB的数据一个8Mbps的摄像头个城市每月产生的数据达上千万GB个病人的CT影像数据量达几十GB医院全国每年需保存的数据达上百亿GB14
14 一.认识大数据时代 我国网民数量居世界之首,每天产生的数据量也位于世界前列。 淘宝网站 ◆单日数据产生量超过5万GB ◆存储量4000万GB 百度公司 ◆目前数据总量10亿GB ◆存储网页1万亿页 ◆每天大约要处理60亿次搜索请求 一个8Mbps的 摄像头 ◆一小时能产生3.6GB的数据 ◆一个城市每月产生的数据达上千万GB 医院 ◆一个病人的CT影像数据量达几十GB ◆全国每年需保存的数据达上百亿GB
一.认识大数据时代从数据库(database,DB)到大数据(bigdata,BD)“池塘捕鱼”VS“大海捕鱼”“鱼”是待处理的数据数据规模大(以GB、TB、PB为处理单位小(以MB为处理单位)数据类型单一(结构化为主)繁多(结构化、半结构化、非结构化)模式和数据先有模式后有数据先有数据后有模式的关系(先有池塘后有鱼)模式随数据增多不断演变(“鱼”,通过某些“鱼”判断其他处理对象数据(池塘中的鱼)种类的“鱼”是否存在)处理工具One size fits allNo size fits all15
15 一.认识大数据时代 从数据库(database,DB)到大数据(big data,BD) “池塘捕鱼”VS“大海捕鱼” “鱼”是待处理的数据 数据规模 小(以MB为处理单位) 大(以GB、TB、PB为处理单位) 数据类型 单一(结构化为主) 繁多(结构化、半结构化、非结构化) 模式和数据 的关系 先有模式后有数据 (先有池塘后有鱼) 先有数据后有模式 模式随数据增多不断演变 处理对象 数据(池塘中的鱼) (“鱼”,通过某些“鱼”判断其他 种类的“鱼”是否存在) 处理工具 One size fits all No size fits all