16 1什么是大数据 13大数据的来源 ¤常用的大数据获取途径 系统日志采集 口可以使用海量数据采集工具,用于系统日志采集,如 Hadoop的 Chukwa Cloudera的Fume、 Facebook的 Scribe等,这些工具均采用分布式架构,能满 足大数据的日志数据采集和传输需求。 ■互联网数据采集 口通过网络爬虫或网站公开AP等方式从网站上获取数据信息,该方法可以数据从 网页中抽取出来,将其存储为统一的本地数据文件,它支持图片、音频、视频 等文件或附件的采集,附件与正文可以自动关联。除了网站中包含的内容之外, 还可以使用DP或DF等带宽管理技术实现对网络流量的采集。 share 可南中医药大学/阮晓龙/13938213680/ht// tartxg. hactcm.edu.cn
17 1什么是大数据 13大数据的来源 ¤常用的大数据获取途径 APP移动端数据采集 口APP是获取用户移动端数据的一种有效方法,APP中的SDK插件可以将用户使用 APP的信息汇总给指定服务器,即便用户在没有访问时,也能获知用户终端的 相关信息,包括安装应用的数量和类型等。单个APP用户规模有限,数据量有 限;但数十万APP用户,获取的用户终端数据和部分行为数据也会达到数亿的 量级。 与数据服务机构进行合作 口数据服务机构通常具备规范的数据共享和交易渠道,人们可以在平台上快速、 明确地获取自己所需要的数据。而对于企业生产经营数据或学科硏究数据等保 密性要求较高的数据,也可以通过与企业或研究机构合作,使用特定系统接口 等相关方式采集数据。 share 可南中医药大学/阮晓龙/13938213680/ht// tartxg. hactcm.edu.cn
18 2.大数据的关键技术 ¤为了高效实时地处理巨大的数据问题,大数据技术的发展应运而生。 所谓大数据技术,即针对数据集合来进行一系列收集、存储、管理、 处理、分析、共享和可视化等操作的技术。 ¤目前,大数据技术涉及大数据采集、大数据存储与管理、大数据计算 模式与系统、大数据分析与挖掘和大数据隐私与安全等方面。 ④246 share 可南中医药大学/阮晓龙/13938213680/ht// tartxg. hactcm.edu.cn
19 2.大数据的关键技术 21大数据采集技术 ¤大数据具有规模大和数据源多样化等特点,为获取高质量数据,可将 大数据采集过程分为数据清洗、数据转换和数据集成3个环节。 ■数据清洗是指通过检测除去数据中的明显错误和不一致来达到減少人工干 预和用户编程量的目的; 数据转换是指按照已经设计好的规则对清洗后的数据进行转换来达到统 异构数据格式的目的 ■数据集成是指为后继流程提供统一且高质量的数据集合来达到解决‘信息孤 岛"现象的目的。 ¤目前常用的数据采集方法有传感器收取、手机电子渠道、传统搜索引 擎如百度和谷歌等,以及条形码技术等。 share 可南中医药大学/阮晓龙/13938213680/ht// tartxg. hactcm.edu.cn
20 2.大数据的关键技术 22大数据存储与管理技术 ¤针对大数据的规模性,为了降低存储成本,并行地处理数据,提高数 据处理能力,采用分布式数据存储管理技术,主要存储模式为冗余存 储模式,即将文件块复制存储在几个不同的存储节点上。 比较有名的分布式存储技术是 google的GFS( Google File System)和 Hadoop的HDFS( Hadoop Distributed File System)。 ■HDFS是GFS的开源实现。 口为了达到方便管理数据的目的,大数据不再采用传统的单表数据存储 结构,而是采用由多维表组成的按列存储的分布式实时数据管理系统 来组织和管理数据。 比较有代表性的是 Google的 Big Table和 Hadoop的 Hbase。 Big table基于GFS, HBase基于HDFS。 ⊥ci share 可南中医药大学/阮晓龙/13938213680/ht// tartxg. hactcm.edu.cn