1.3大数据的影响 在思维方式方面,大数据完全颠覆了传统的思维方式 全样而非抽样 效率而非精确 相关而非因果 据 A REVOLUTION WE IIVLWORRATO THINK 大数据时代 生活、工作与思维的大变革 二样里:他是 Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 1.3大数据的影响 • 在思维方式方面,大数据完全颠覆了传统的思维方式: – 全样而非抽样 – 效率而非精确 – 相关而非因果
1.4大数据关键技术 表1-5大数据技术的不同层面及其功能 技术层面 功能 数据采集 利用ETL工具将分布的、异构数据源中的数据如关系数据、平 面数据文件等,抽取到临时中间层后进行清洗、转换、集成, 最后加载到数据仓库或数据集市中,成为联机分析处理、数据 挖掘的基础;或者也可以把实时采集的数据作为流计算系统的 输入,进行实时处理分析 数据存储和管理利用分布式文件系统、数据仓库、关系数据库、 NOSQL数据库 云数据库等,实现对结构化、半结构化和非结构化海量数据 的存储和管理 数据处理与分析利用分布式并行编程模型和计算框架,结合机器学习和数据挖 掘算法,实现对海量数据的处理和分析;对分析结果进行可视 化呈现,帮助人们更好地理解数据、分析数据 数据隐私和安全在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构 建隐私数据保护体系和数据安全体系,有效保护个人隐私和数 据安全 Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 1.4大数据关键技术 表1-5 大数据技术的不同层面及其功能 技术层面 功能 数据采集 利用ETL工具将分布的、异构数据源中的数据如关系数据、平 面数据文件等,抽取到临时中间层后进行清洗、转换、集成, 最后加载到数据仓库或数据集市中,成为联机分析处理、数据 挖掘的基础;或者也可以把实时采集的数据作为流计算系统的 输入,进行实时处理分析 数据存储和管理 利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库 、云数据库等,实现对结构化、半结构化和非结构化海量数据 的存储和管理 数据处理与分析 利用分布式并行编程模型和计算框架,结合机器学习和数据挖 掘算法,实现对海量数据的处理和分析;对分析结果进行可视 化呈现,帮助人们更好地理解数据、分析数据 数据隐私和安全 在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构 建隐私数据保护体系和数据安全体系,有效保护个人隐私和数 据安全