1 1什么是大数据 13大数据的来源 口按产生数据的主体划分 少量企业应用产生的数据 口如关系型数据库中的数据和数据仓库中的数据等。 ■大量人产生的数据 口如推特、微博、通信软件、移动通信数据、电子商务在线交易曰志数据、企业 应用的相关评论数据等。 巨量机器产生的数据 ¤如应用服务器日志、各类传感器数据、图像和视频监控数据、二维码和条形码 (条码)扫描数据等。 Cloud koshare providers 可南中医药大学/阮晓龙/13938213680/htp/ start xg. hactcm. edu. cn
河南中医药大学 / 阮晓龙 / 13938213680 / http://start.xg.hactcm.edu.cn 1.什么是大数据 按产生数据的主体划分 少量企业应用产生的数据 如关系型数据库中的数据和数据仓库中的数据等。 大量人产生的数据 如推特、微博、通信软件、移动通信数据、电子商务在线交易日志数据、企业 应用的相关评论数据等。 巨量机器产生的数据 如应用服务器日志、各类传感器数据、图像和视频监控数据、二维码和条形码 (条码)扫描数据等。 11 1.3大数据的来源
2 1什么是大数据 13大数据的来源 口按数据来源的行业划分 以BAT为代表的互联网公司 口百度公司数据总量超过了千PB级别,阿里巴巴公司保存的数据量超过了百PB级 别,拥有90%以上的电商数据,腾讯公司总存储数据量经压缩处理以后仍然超 过了百PB级别,数据量月增加达到10%。 电信、金融、保险、电力、石化系统 口电信行业数据年度用户数据增长超过10%,金融每年产生的数据超过数十PB, 保险系统的数据量也超过了PB级别,电力与石化方面,仅国家电网采集获得的 数据总量就达到了数十PB,石油化工领域每年产生和保存下来的数据量也将近 百PB级别。 Cloud koshare providers 可南中医药大学/阮晓龙/13938213680/htp/ start xg. hactcm. edu. cn
河南中医药大学 / 阮晓龙 / 13938213680 / http://start.xg.hactcm.edu.cn 1.什么是大数据 按数据来源的行业划分 以BAT为代表的互联网公司 百度公司数据总量超过了千PB级别,阿里巴巴公司保存的数据量超过了百PB级 别,拥有90%以上的电商数据,腾讯公司总存储数据量经压缩处理以后仍然超 过了百PB级别,数据量月增加达到10%。 电信、金融、保险、电力、石化系统 电信行业数据年度用户数据增长超过10%,金融每年产生的数据超过数十PB, 保险系统的数据量也超过了PB级别,电力与石化方面,仅国家电网采集获得的 数据总量就达到了数十PB,石油化工领域每年产生和保存下来的数据量也将近 百PB级别。 12 1.3大数据的来源
3 1什么是大数据 13大数据的来源 口按数据来源的行业划分 公共安全、医疗、交通领域 口一个中、大型城市,一个月的交通卡口记录数可以达到3亿条;整个医疗卫生行 业一年能够保存下来的数据就可达到数百PB级别;航班往返一次产生的数据就 达到TB级别;列车、水陆路运输产生的各种视频、文本类数据,每年保存下来 的也达到数十PB 气象、地理、政务等领域 ¤中国气象局保存的数据将近10PB,每年约增数百TB;各种地图和地理位置信息 每年约数十PB;政务数据则涵盖了旅游、教育、交通、医疗等多个门类,且多 为结构化数据。 Cloud koshare providers 可南中医药大学/阮晓龙/13938213680/htp/ start xg. hactcm. edu. cn
河南中医药大学 / 阮晓龙 / 13938213680 / http://start.xg.hactcm.edu.cn 1.什么是大数据 按数据来源的行业划分 公共安全、医疗、交通领域 一个中、大型城市,一个月的交通卡口记录数可以达到3亿条;整个医疗卫生行 业一年能够保存下来的数据就可达到数百PB级别;航班往返一次产生的数据就 达到TB级别;列车、水陆路运输产生的各种视频、文本类数据,每年保存下来 的也达到数十PB。 气象、地理、政务等领域 中国气象局保存的数据将近10PB,每年约增数百TB;各种地图和地理位置信息 每年约数十PB;政务数据则涵盖了旅游、教育、交通、医疗等多个门类,且多 为结构化数据。 13 1.3大数据的来源
14 1什么是大数据 13大数据的来源 口按数据来源的行业划分 制造业和其他传统行业 口制造业的大数据类型以产品设计数据、企业生产环节的业务数据和生产监控数 据为主。其中产品设计数据以文件为主,非结构化,共享要求较高,保存时间 较长;企业生产环节的业务数据主要是数据库结构化数据,而生产监控数据则 数据量非常大。 口在其他传统行业,虽然线下商业销售、农林牧渔业、线下餐饮、食品、科研、 物流运输等行业数据量剧增,但是数据量还处于积累期,整体体量都不算大, 多则达到PB级别,少则数十TB或数百TB级别。 Cloud koshare providers 可南中医药大学/阮晓龙/13938213680/htp/ start xg. hactcm. edu. cn
河南中医药大学 / 阮晓龙 / 13938213680 / http://start.xg.hactcm.edu.cn 1.什么是大数据 按数据来源的行业划分 制造业和其他传统行业 制造业的大数据类型以产品设计数据、企业生产环节的业务数据和生产监控数 据为主。其中产品设计数据以文件为主,非结构化,共享要求较高,保存时间 较长;企业生产环节的业务数据主要是数据库结构化数据,而生产监控数据则 数据量非常大。 在其他传统行业,虽然线下商业销售、农林牧渔业、线下餐饮、食品、科研、 物流运输等行业数据量剧增,但是数据量还处于积累期,整体体量都不算大, 多则达到PB级别,少则数十TB或数百TB级别。 14 1.3大数据的来源
15 1什么是大数据 13大数据的来源 ¤按数据存储的形式划分 大数据不仅仅体现在数据量大,还体现在数据类型多。如此海量的数据中,仅有 20%左右属于结构化的数据,80%的数据属于广泛存在于社交网络、物联网、电 子商务等领域的非结构化数据。 结构化数据 口简单来说就是数据库,如企业ERP、财务系统、医疗HS数据库、教育一卡通、 政府行政审批、其他核心数据库等数据。 ■非结构化数据 口包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频 视频信息等数据。 Cloud koshare providers 可南中医药大学/阮晓龙/13938213680/htp/ start xg. hactcm. edu. cn
河南中医药大学 / 阮晓龙 / 13938213680 / http://start.xg.hactcm.edu.cn 1.什么是大数据 按数据存储的形式划分 大数据不仅仅体现在数据量大,还体现在数据类型多。如此海量的数据中,仅有 20%左右属于结构化的数据,80%的数据属于广泛存在于社交网络、物联网、电 子商务等领域的非结构化数据。 结构化数据 简单来说就是数据库,如企业ERP、财务系统、医疗HIS数据库、教育一卡通、 政府行政审批、其他核心数据库等数据。 非结构化数据 包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频、 视频信息等数据。 15 1.3大数据的来源