第2章大数据关键技术与挑战 《大数据技术基础》
《大数据技术基础》 第2章 大数据关键技术与挑战
提纲 大数据处理的基本流程 口大数据处理模型 口大数据关键技术 口大数据处理工具 口大数据时代面临的新挑战 《大数据技术基础》
《大数据技术基础》 提纲 大数据处理的基本流程 大数据处理模型 大数据关键技术 大数据处理工具 大数据时代面临的新挑战
大数据处理的基本流程 Users Researcher) Enterpnse Dserntnenr 整个大数据的处理流 fluman-cormpurer Vesualizanon lua Proven Interpretation 程可以定义为:在合 适工具的辅助下,对 广泛异构的数据源进 Prediction Data 行抽取和集成,结果 按照一定的标准进行 (Dits Miming )(Autistic 统一存储,并利用合 适的数据分析技术对 存储的数据进行分析 从中提取有益的知识 I Schema Evolution Credibility 并利用恰当的方式将 Anginal Data Extra Dat_ Data. 结果展现给终端用户 nd integra 具体来说,可以分为 数据抽取与集成、数 据分析以及数据解释。 Data 《大数据技术基础》
《大数据技术基础》 大数据处理的基本流程 整个大数据的处理流 程可以定义为:在合 适工具的辅助下,对 广泛异构的数据源进 行抽取和集成,结果 按照一定的标准进行 统一存储,并利用合 适的数据分析技术对 存储的数据进行分析, 从中提取有益的知识 并利用恰当的方式将 结果展现给终端用户。 具体来说,可以分为 数据抽取与集成、数 据分析以及数据解释
数据抽取与集成 大数据的一个重要特点就是多样性,这就意味着数据来源 极其广泛,数据类型极为繁杂。这种复杂的数据环境给大 数据的处理带来极大的挑战。 要想处理大数据,首先必须对所需数据源的数据进行抽取 和集成,从中提取出关系和实体,经过关联和聚合之后采 用统一定义的结构来存储这些数据。 在薮据集成和提取时需要对数据进行清洗,保证薮据质量 及可信性。 现有的数据抽取与集成方式可以大致分为以下四种类型 数据整合、数据联邦、数据传播和混合方法等。 《大数据技术基础》
《大数据技术基础》 数据抽取与集成 • 大数据的一个重要特点就是多样性,这就意味着数据来源 极其广泛,数据类型极为繁杂。这种复杂的数据环境给大 数据的处理带来极大的挑战。 • 要想处理大数据,首先必须对所需数据源的数据进行抽取 和集成,从中提取出关系和实体,经过关联和聚合之后采 用统一定义的结构来存储这些数据。 • 在数据集成和提取时需要对数据进行清洗,保证数据质量 及可信性。 • 现有的数据抽取与集成方式可以大致分为以下四种类型: 数据整合、数据联邦、数据传播和混合方法等
数据分析 传统的分析技术如数据挖掘、机器学习、统计分析等在大 数据时代需要做出调整,因为这些技术在大数据时代面临 着一些新的挑战,主要有 数据量大并不一定意味着数据价值的增加,相反这往往意味着数 据噪音的增多 大薮据时代的算法需要进行调整(邦弗朗尼原理) 数据结果好坏的衡量 《大数据技术基础》
《大数据技术基础》 数据分析 • 传统的分析技术如数据挖掘、机器学习、统计分析等在大 数据时代需要做出调整,因为这些技术在大数据时代面临 着一些新的挑战,主要有: – 数据量大并不一定意味着数据价值的增加,相反这往往意味着数 据噪音的增多 – 大数据时代的算法需要进行调整(邦弗朗尼原理) – 数据结果好坏的衡量