第5讲大数据 1什么是大数据 1.1大数据的概念 计算、物联网等技术的兴起,标志着我们已经逐步进入大数据时代。大数 据时代的到来,已经引起了全世界各国和信息行业的广泛重视;联合国在2015 年5月发布了关于大数据的专题报告,详细阐述了大数据时代给世界各国带来的 基于和挑战;全球各大媒体也对大数据展开宣传和报道。这些都说明了大数据已 经深入影响到人们的日常生活。但是在这种火热景象的背后,普通人民对大数据 并没有足够的认识,大数据的发展还面临着一些挑战,技术需要进一步的完善 大数据的概念,最初代表着数据规模的庞大,但是随着大数据管理技术的发 展,这一简单的阐述已经不能完全概括大数据的内涵。仅仅是数据规模上的庞大 似乎与以往的数据管理方式没有什么本质上的改变。大数据的具体概念,要包括 其数据处理的所有特点。现在广为公认的大数据定义是:在数量巨大、类型复杂 价值含量高的数据信息基础上,实现对数据高速处理的数据管理模式 Big data(大数据),或称巨量资料,指的是所涉及的资料量的规模巨大到无 法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮 助企业经营决策更积极目的的资讯。 大数据通常具有4V特征: (1) Volume(体量浩大)。在数据爆炸时代,数据单位已无法用传统的TB来 衡量,而是用PB、EP或者ZB作为大数据的计量单位。导致数据激增的原因很 多,主要是互联网络的广泛使用使人类快速进入信息时代,数据疯狂增长,必然 使得数据处理量显著增多。 (2) Variety(类型繁多)。以往的数据尽管体量巨大,但一般都是比较容 易处理的结构化数据。当前,随着互联网络与传感器的飞速发展,不仅包含传统 的结构化数据,还包括音频、视频、网页、文本等半结构和非结构化数据 (3) Velocity(生成快速)。数据量的疯狂增长,使得数据处理的速度加快, 这也是大数据区别于以往海量数据处理的重要特征。面临各种信息,如何把握数 据的时效性,快速地从各种数据类型中获取高价值的信息,是大数据时代处理的 基本要求。 (4) Value(价值巨大但密度很低)。大数据为了获得事物的全部细节,会 直接采用原始数据,导致存在大量的无用信息,使得人们获取有用信息的难度加 大,就像沙子淘金 目前,对于大数据的4V定义是目前较为统一的认识。其特有的4种特征使 得大数据的概念与以往“海量数据”和“超大规模数据”有着本质区别,除了用 来描述数据之“大”,还指出了大数据的意义和必要性,即如何从体量巨大、类
第 5 讲 大数据 1 什么是大数据 1.1 大数据的概念 云计算、物联网等技术的兴起,标志着我们已经逐步进入大数据时代。大数 据时代的到来,已经引起了全世界各国和信息行业的广泛重视;联合国在 2015 年 5 月发布了关于大数据的专题报告,详细阐述了大数据时代给世界各国带来的 基于和挑战;全球各大媒体也对大数据展开宣传和报道。这些都说明了大数据已 经深入影响到人们的日常生活。但是在这种火热景象的背后,普通人民对大数据 并没有足够的认识,大数据的发展还面临着一些挑战,技术需要进一步的完善。 大数据的概念,最初代表着数据规模的庞大,但是随着大数据管理技术的发 展,这一简单的阐述已经不能完全概括大数据的内涵。仅仅是数据规模上的庞大, 似乎与以往的数据管理方式没有什么本质上的改变。大数据的具体概念,要包括 其数据处理的所有特点。现在广为公认的大数据定义是:在数量巨大、类型复杂、 价值含量高的数据信息基础上,实现对数据高速处理的数据管理模式。 Big Data(大数据),或称巨量资料,指的是所涉及的资料量的规模巨大到无 法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮 助企业经营决策更积极目的的资讯。 大数据通常具有 4V 特征: (1)Volume(体量浩大)。在数据爆炸时代,数据单位已无法用传统的 TB 来 衡量,而是用 PB、EP 或者 ZB 作为大数据的计量单位。导致数据激增的原因很 多,主要是互联网络的广泛使用使人类快速进入信息时代,数据疯狂增长,必然 使得数据处理量显著增多。 (2)Variety(类型繁多)。以往的数据尽管体量巨大,但一般都是比较容 易处理的结构化数据。当前,随着互联网络与传感器的飞速发展,不仅包含传统 的结构化数据,还包括音频、视频、网页、文本等半结构和非结构化数据。 (3)Velocity(生成快速)。数据量的疯狂增长,使得数据处理的速度加快, 这也是大数据区别于以往海量数据处理的重要特征。面临各种信息,如何把握数 据的时效性,快速地从各种数据类型中获取高价值的信息,是大数据时代处理的 基本要求。 (4)Value(价值巨大但密度很低)。大数据为了获得事物的全部细节,会 直接采用原始数据,导致存在大量的无用信息,使得人们获取有用信息的难度加 大,就像沙子淘金。 目前,对于大数据的 4V 定义是目前较为统一的认识。其特有的4种特征使 得大数据的概念与以往“海量数据”和“超大规模数据”有着本质区别,除了用 来描述数据之“大”,还指出了大数据的意义和必要性,即如何从体量巨大、类
型繁多、生成快速的数据集中挖掘价值。 1.2大数据的技术支持 大数据的快速发展主要依赖于云计算基础的迅速发展,大数据技术的发展需 要存储、计算和智能这三大技术支持。 (1)存储成本的下降 在云计算出现之前,数据存储的成本是非常高的。例如,公司要建设网站 需要购置和部署服务器,安排技术人员维护服务器,保证数据存储的安全性和数 据传输的畅通性,还会定期清理数据,腾出空间以便存储新的数据,机房整体的 人力和管理成本都很高。云计算出现后,数据存储服务衍生出了新的商业模式, 数据中心的出现降低了公司的计算和存储成本。例如,公司现在要建设网站,不 需要去购买服务器,不需要去雇用技术人员维护服务器,可以通过租用硬件设备 的方式解决问题。 存储成本的下降,也改变了大家对数据的看法,更加愿意把1年、2年甚至 更久远的历史数据保存下来,有了历史数据的沉淀,才可以通过对比,发现数据 之间的关联和价值。正是由于存储成本的下降,才能为大数据搭建最好的基础设 施 (2)运算速度的快速提升 海量数据从原始数据源到产生价值,期间会经过存储、清洗、挖掘、分析等 多个环节,如果计算速度不够快,很多事情是无法实现的。所以,在大数据的发 展过程中,计算速度是非常关键的因素。 (3)机器拥有理解数据的能力 大数据带来的最大价值就是“智慧”,大数据让机器变得有智慧,同时人工 智能进一步提升了处理和理解数据的能力。例如,谷歌 AlphaL大胜世界围棋冠 军李世石,阿里云小Ai成功预测出《我是歌手》的总决赛歌王等 1.3大数据的来源 随着人类活动的进一步扩展,数据规模会急剧膨胀,包括金融、汽车、零售 餐饮、电信、能源、政务、医疗、体育、娱乐等在内的各行业累积的数据量越来 越大,数据类型也越来越多、越来越复杂,已经超越了传统数据管理系统、处理 模式的能力范围,于是“大数据”这样一个概念才会应运而生。 1、按产生数据的主体划分 (1)少量企业应用产生的数据 如关系型数据库中的数据和数据仓库中的数据等。 (2)大量人产生的数据 如推特、微博、通信软件、移动通信数据、电子商务在线交易日志数据、企 业应用的相关评论数据等
型繁多、生成快速的数据集中挖掘价值。 1.2 大数据的技术支持 大数据的快速发展主要依赖于云计算基础的迅速发展,大数据技术的发展需 要存储、计算和智能这三大技术支持。 (1)存储成本的下降 在云计算出现之前,数据存储的成本是非常高的。例如,公司要建设网站, 需要购置和部署服务器,安排技术人员维护服务器,保证数据存储的安全性和数 据传输的畅通性,还会定期清理数据,腾出空间以便存储新的数据,机房整体的 人力和管理成本都很高。云计算出现后,数据存储服务衍生出了新的商业模式, 数据中心的出现降低了公司的计算和存储成本。例如,公司现在要建设网站,不 需要去购买服务器,不需要去雇用技术人员维护服务器,可以通过租用硬件设备 的方式解决问题。 存储成本的下降,也改变了大家对数据的看法,更加愿意把 1 年、2 年甚至 更久远的历史数据保存下来,有了历史数据的沉淀,才可以通过对比,发现数据 之间的关联和价值。正是由于存储成本的下降,才能为大数据搭建最好的基础设 施。 (2)运算速度的快速提升 海量数据从原始数据源到产生价值,期间会经过存储、清洗、挖掘、分析等 多个环节,如果计算速度不够快,很多事情是无法实现的。所以,在大数据的发 展过程中,计算速度是非常关键的因素。 (3)机器拥有理解数据的能力 大数据带来的最大价值就是“智慧”,大数据让机器变得有智慧,同时人工 智能进一步提升了处理和理解数据的能力。例如,谷歌 AlphaGo 大胜世界围棋冠 军李世石,阿里云小 Ai 成功预测出《我是歌手》的总决赛歌王等。 1.3 大数据的来源 随着人类活动的进一步扩展,数据规模会急剧膨胀,包括金融、汽车、零售、 餐饮、电信、能源、政务、医疗、体育、娱乐等在内的各行业累积的数据量越来 越大,数据类型也越来越多、越来越复杂,已经超越了传统数据管理系统、处理 模式的能力范围,于是“大数据”这样一个概念才会应运而生。 1、按产生数据的主体划分 (1)少量企业应用产生的数据 如关系型数据库中的数据和数据仓库中的数据等。 (2)大量人产生的数据 如推特、微博、通信软件、移动通信数据、电子商务在线交易日志数据、企 业应用的相关评论数据等
(3)巨量机器产生的数据 如应用服务器日志、各类传感器数据、图像和视频监控数据、二维码和条形 码(条码)扫描数据等。 2、按数据来源的行业划分 (1)以BAT为代表的互联网公司 百度公司数据总量超过了千PB级别,阿里巴巴公司保存的数据量超过了百 PB级别,拥有90%以上的电商数据,腾讯公司总存储数据量经压缩处理以后仍然 超过了百PB级别,数据量月增加达到10%。 (2)电信、金融、保险、电力、石化系统 电信行业数据年度用户数据增长超过10%,金融每年产生的数据超过数十PB, 保险系统的数据量也超过了PB级别,电力与石化方面,仅国家电网采集获得的 数据总量就达到了数十PB,石油化工领域每年产生和保存下来的数据量也将近 百PB级别。 (3)公共安全、医疗、交通领域 个中、大型城市,一个月的交通卡口记录数可以达到3亿条;整个医疗卫 生行业一年能够保存下来的数据就可达到数百PB级别;航班往返一次产生的数 据就达到TB级别;列车、水陆路运输产生的各种视频、文本类数据,每年保存 下来的也达到数十PB。 (4)气象、地理、政务等领域 中国气象局保存的数据将近10PB,每年约增数百TB;各种地图和地理位置 信息每年约数十PB;政务数据则涵盖了旅游、教育、交通、医疗等多个门类,且 多为结构化数据。 (5)制造业和其他传统行业 制造业的大数据类型以产品设计数据、企业生产环节的业务数据和生产监控 数据为主。其中产品设计数据以文件为主,非结构化,共享要求较高,保存时间 较长;企业生产环节的业务数据主要是数据库结构化数据,而生产监控数据则数 据量非常大。在其他传统行业,虽然线下商业销售、农林牧渔业、线下餐饮、食 品、科硏、物流运输等行业数据量剧增,但是数据量还处于积累期,整体体量都 不算大,多则达到PB级别,少则数十TB或数百TB级别 3、按数据存储的形式划分 大数据不仅仅体现在数据量大,还体现在数据类型多。如此海量的数据中, 仅有20%左右属于结构化的数据,80%的数据属于广泛存在于社交网络、物联网 电子商务等领域的非结构化数据 (1)结构化数据 简单来说就是数据库,如企业ERP、财务系统、医疗HIS数据库、教育一卡 通、政府行政审批、其他核心数据库等数据。 (2)非结构化数据
(3)巨量机器产生的数据 如应用服务器日志、各类传感器数据、图像和视频监控数据、二维码和条形 码(条码)扫描数据等。 2、按数据来源的行业划分 (1)以 BAT 为代表的互联网公司 百度公司数据总量超过了千 PB 级别,阿里巴巴公司保存的数据量超过了百 PB 级别,拥有 90%以上的电商数据,腾讯公司总存储数据量经压缩处理以后仍然 超过了百 PB 级别,数据量月增加达到 10%。 (2)电信、金融、保险、电力、石化系统 电信行业数据年度用户数据增长超过 10%,金融每年产生的数据超过数十 PB, 保险系统的数据量也超过了 PB 级别,电力与石化方面,仅国家电网采集获得的 数据总量就达到了数十 PB,石油化工领域每年产生和保存下来的数据量也将近 百 PB 级别。 (3)公共安全、医疗、交通领域 一个中、大型城市,一个月的交通卡口记录数可以达到 3 亿条;整个医疗卫 生行业一年能够保存下来的数据就可达到数百 PB 级别;航班往返一次产生的数 据就达到 TB 级别;列车、水陆路运输产生的各种视频、文本类数据,每年保存 下来的也达到数十 PB。 (4)气象、地理、政务等领域 中国气象局保存的数据将近 10PB,每年约增数百 TB;各种地图和地理位置 信息每年约数十 PB;政务数据则涵盖了旅游、教育、交通、医疗等多个门类,且 多为结构化数据。 (5)制造业和其他传统行业 制造业的大数据类型以产品设计数据、企业生产环节的业务数据和生产监控 数据为主。其中产品设计数据以文件为主,非结构化,共享要求较高,保存时间 较长;企业生产环节的业务数据主要是数据库结构化数据,而生产监控数据则数 据量非常大。在其他传统行业,虽然线下商业销售、农林牧渔业、线下餐饮、食 品、科研、物流运输等行业数据量剧增,但是数据量还处于积累期,整体体量都 不算大,多则达到 PB 级别,少则数十 TB 或数百 TB 级别。 3、按数据存储的形式划分 大数据不仅仅体现在数据量大,还体现在数据类型多。如此海量的数据中, 仅有 20%左右属于结构化的数据,80%的数据属于广泛存在于社交网络、物联网、 电子商务等领域的非结构化数据。 (1)结构化数据 简单来说就是数据库,如企业 ERP、财务系统、医疗 HIS 数据库、教育一卡 通、政府行政审批、其他核心数据库等数据。 (2)非结构化数据
包括所有格式的办公文档、文本、图片、ⅪML、HTML、各类报表、图像和音 频、视频信息等数据。 4、常用的大数据获取途径 (1)系统日志采集 可以使用海量数据采集工具,用于系统日志采集,如 Hadoop的 Chukwa Cloudera的 Flume、 Facebook的 Scribe等,这些工具均采用分布式架构,能满 足大数据的日志数据采集和传输需求。 (2)互联网数据采集 通过网络爬虫或网站公开API等方式从网站上获取数据信息,该方法可以数 据从网页中抽取出来,将其存储为统一的本地数据文件,它支持图片、音频、视 频等文件或附件的采集,附件与正文可以自动关联。除了网站中包含的内容之外, 还可以使用DPI或DFⅠ等带宽管理技术实现对网络流量的采集。 (3)APP移动端数据采集 APP是获取用户移动端数据的一种有效方法,APP中的SDK插件可以将用户 使用APP的信息汇总给指定服务器,即便用户在没有访问时,也能获知用户终端 的相关信息,包括安装应用的数量和类型等。单个APP用户规模有限,数据量有 限;但数十万APP用户,获取的用户终端数据和部分行为数据也会达到数亿的量 (4)与数据服务机构进行合作 数据服务机构通常具备规范的数据共享和交易渠道,人们可以在平台上快速 明确地获取自己所需要的数据。而对于企业生产经营数据或学科研究数据等保密 性要求较高的数据,也可以通过与企业或研究机构合作,使用特定系统接口等相 关方式采集数据。 2大数据的关键技术 为了高效实时地处理巨大的数据问题,大数据技术的发展应运而生。所谓大 数据技术,即针对数据集合来进行一系列收集、存储、管理、处理、分析、共享 和可视化等操作的技术。目前,大数据技术涉及大数据釆集、大数据存储与管理 大数据计算模式与系统、大数据分析与挖掘和大数据隐私与安全等方面 2.1大数据采集技术 大数据具有规模大和数据源多样化等特点,为获取高质量数据,可将大数据 釆集过程分为数据清洗、数据转换和数据集成3个环节。数据清洗是指通过检测 除去数据中的明显错误和不一致来达到减少人工干预和用户编程量的目的;数据 转换是指按照已经设计好的规则对清洗后的数据进行转换来达到统一异构数据 格式的目的;数据集成是指为后继流程提供统一且高质量的数据集合来达到解决 “信息孤岛”现象的目的
包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音 频、视频信息等数据。 4、常用的大数据获取途径 (1)系统日志采集 可以使用海量数据采集工具,用于系统日志采集,如 Hadoop 的 Chukwa、 Cloudera 的 Flume、Facebook 的 Scribe 等,这些工具均采用分布式架构,能满 足大数据的日志数据采集和传输需求。 (2)互联网数据采集 通过网络爬虫或网站公开 API 等方式从网站上获取数据信息,该方法可以数 据从网页中抽取出来,将其存储为统一的本地数据文件,它支持图片、音频、视 频等文件或附件的采集,附件与正文可以自动关联。除了网站中包含的内容之外, 还可以使用 DPI 或 DFI 等带宽管理技术实现对网络流量的采集。 (3)APP 移动端数据采集 APP 是获取用户移动端数据的一种有效方法,APP 中的 SDK 插件可以将用户 使用 APP 的信息汇总给指定服务器,即便用户在没有访问时,也能获知用户终端 的相关信息,包括安装应用的数量和类型等。单个 APP 用户规模有限,数据量有 限;但数十万 APP 用户,获取的用户终端数据和部分行为数据也会达到数亿的量 级。 (4)与数据服务机构进行合作 数据服务机构通常具备规范的数据共享和交易渠道,人们可以在平台上快速、 明确地获取自己所需要的数据。而对于企业生产经营数据或学科研究数据等保密 性要求较高的数据,也可以通过与企业或研究机构合作,使用特定系统接口等相 关方式采集数据。 2 大数据的关键技术 为了高效实时地处理巨大的数据问题,大数据技术的发展应运而生。所谓大 数据技术,即针对数据集合来进行一系列收集、存储、管理、处理、分析、共享 和可视化等操作的技术。目前,大数据技术涉及大数据采集、大数据存储与管理、 大数据计算模式与系统、大数据分析与挖掘和大数据隐私与安全等方面。 2.1 大数据采集技术 大数据具有规模大和数据源多样化等特点,为获取高质量数据,可将大数据 采集过程分为数据清洗、数据转换和数据集成3个环节。数据清洗是指通过检测 除去数据中的明显错误和不一致来达到减少人工干预和用户编程量的目的;数据 转换是指按照已经设计好的规则对清洗后的数据进行转换来达到统一异构数据 格式的目的;数据集成是指为后继流程提供统一且高质量的数据集合来达到解决 “信息孤岛”现象的目的
目前常用的数据采集方法有传感器收取、手机电子渠道、传统搜索引擎如百 度和谷歌等,以及条形码技术等 2.2大数据存储与管理技术 针对大数据的规模性,为了降低存储成本,并行地处理数据,提高数据处理 能力,采用分布式数据存储管理技术,主要存储模式为冗余存储模式,即将文件 块复制存储在几个不同的存储节点上 比较有名的分布式存储技术是 Google的GFS( Google File System)和 Hadoop的HDFS( Hadoop Distributed File System),其中,HDFS是GFS的开 源实现 为了达到方便管理数据的目的,大数据不再采用传统的单表数据存储结构, 而是采用由多维表组成的按列存储的分布式实时数据管理系统来组织和管理数 据,比较有代表性的是 Google的 Big table和 Hadoop的 HBase,其中,Big Table基于GFS, HBase基于HDFS。 2.3大数据计算模式与系统 大数据计算模式指根据大数据的不同数据特征和计算特征,从多样性的大数 据计算问题和需求中提炼并建立的各种高层抽象或模型。大数据计算模式多而复 杂,比如流式计算、批处理计算、迭代计算和图计算等,其中,由于批处理计算 的 MapReuce技术具有扩展性和可用性,适合海量且多种类型数据的混合处理, 因此,大数据计算通常采用此技术。 MapReduce采用“分而治之”的思想,首先将一个大而重的数据任务分解为 系列小而轻且相互独立的子任务,然后将这些子任务分发到平台的各节点并行 执行,最后将各节点的执行结果汇总得到最终结果,完成对海量数据的并行计算。 2.4大数据分析与挖掘技术 为了从体量巨大、类型繁多、生成快速的大数据集中寻找出更高的价值,需 要大数据分析与挖掘技术帮助理解数据的语义,来提高数据的质量和可信度。由 于大数据时代数据的复杂特征,传统的数据分析技术如数据挖掘、机器学习、统 计分析已无法满足大数据分析需求,有待进一步研究改进 目前,关键的大数据分析和挖掘技术是云计算技术和可视化技术。云计算技 术中的分布式文件系统为大数据底层存储架构提供支撑,基于分布式文件系统构 建的分布式数据库通过快捷管理数据的方式来提高数据的访问速度,同时,通过 各种并行分析技术在一个开源平台上处理复杂数据,最终通过采用各种可视化技 术将数据处理结果直观清晰地呈现出来,帮助用户更简单方便地从复杂的数据中 得到新的发现和收获。 2.5大数据与隐私安全
目前常用的数据采集方法有传感器收取、手机电子渠道、传统搜索引擎如百 度和谷歌等,以及条形码技术等。 2.2 大数据存储与管理技术 针对大数据的规模性,为了降低存储成本,并行地处理数据,提高数据处理 能力,采用分布式数据存储管理技术,主要存储模式为冗余存储模式,即将文件 块复制存储在几个不同的存储节点上。 比较有名的分布式存储技术是 Google 的 GFS(Google File System)和 Hadoop 的 HDFS(Hadoop Distributed File System),其中,HDFS 是 GFS 的开 源实现。 为了达到方便管理数据的目的,大数据不再采用传统的单表数据存储结构, 而是采用由多维表组成的按列存储的分布式实时数据管理系统来组织和管理数 据,比较有代表性的是 Google 的 Big Table 和 Hadoop 的 HBase,其中,Big Table 基于 GFS,HBase 基于 HDFS。 2.3 大数据计算模式与系统 大数据计算模式指根据大数据的不同数据特征和计算特征,从多样性的大数 据计算问题和需求中提炼并建立的各种高层抽象或模型。大数据计算模式多而复 杂,比如流式计算、批处理计算、迭代计算和图计算等,其中,由于批处理计算 的 MapReuce 技术具有扩展性和可用性,适合海量且多种类型数据的混合处理, 因此,大数据计算通常采用此技术。 MapReduce 采用“分而治之”的思想,首先将一个大而重的数据任务分解为 一系列小而轻且相互独立的子任务,然后将这些子任务分发到平台的各节点并行 执行,最后将各节点的执行结果汇总得到最终结果,完成对海量数据的并行计算。 2.4 大数据分析与挖掘技术 为了从体量巨大、类型繁多、生成快速的大数据集中寻找出更高的价值,需 要大数据分析与挖掘技术帮助理解数据的语义,来提高数据的质量和可信度。由 于大数据时代数据的复杂特征,传统的数据分析技术如数据挖掘、机器学习、统 计分析已无法满足大数据分析需求,有待进一步研究改进。 目前,关键的大数据分析和挖掘技术是云计算技术和可视化技术。云计算技 术中的分布式文件系统为大数据底层存储架构提供支撑,基于分布式文件系统构 建的分布式数据库通过快捷管理数据的方式来提高数据的访问速度,同时,通过 各种并行分析技术在一个开源平台上处理复杂数据,最终通过采用各种可视化技 术将数据处理结果直观清晰地呈现出来,帮助用户更简单方便地从复杂的数据中 得到新的发现和收获。 2.5 大数据与隐私安全