7.1.1数据分析与数据挖掘 综上所述,数据分析(狭义)与数据挖掘的本质都是一样的,都是从 数据里面发现关于业务的知识(有价值的信息),从而帮助业务运营、 改进产品以及帮助企业做更好的决策。所以,数据分析(狭义)与数 据挖掘构成广义的数据分析。 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.1.1 数据分析与数据挖掘 综上所述,数据分析(狭义)与数据挖掘的本质都是一样的,都是从 数据里面发现关于业务的知识(有价值的信息),从而帮助业务运营、 改进产品以及帮助企业做更好的决策。所以,数据分析(狭义)与数 据挖掘构成广义的数据分析
7.1.2数据分析与数据处理 数据分析过程通常会伴随着发生数据处理(或者说伴随着大量数据计 算),因此,数据分析和数据处理是一对关系紧密的概念,很多时候, 二者是融合在一起的,很难割裂开来。也就是说,当用户在进行数据 分析的时候,底层的计算机系统会根据数据分析任务的要求,使用程 序进行大量的数据处理(或者说发生大量的数据计算)。例如,当用 户进行决策树分析时,需要事先根据决策树算法编写分析程序,当分 析开始以后,决策树分析程序就会从磁盘读取数据进行大量计算,最 终给出计算结果(也就是决策树分析结果)。 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.1.2数据分析与数据处理 数据分析过程通常会伴随着发生数据处理(或者说伴随着大量数据计 算),因此,数据分析和数据处理是一对关系紧密的概念,很多时候, 二者是融合在一起的,很难割裂开来。也就是说,当用户在进行数据 分析的时候,底层的计算机系统会根据数据分析任务的要求,使用程 序进行大量的数据处理(或者说发生大量的数据计算)。例如,当用 户进行决策树分析时,需要事先根据决策树算法编写分析程序,当分 析开始以后,决策树分析程序就会从磁盘读取数据进行大量计算,最 终给出计算结果(也就是决策树分析结果)
7.1.3大数据处理与分析 数据分析包含两个要素,即理论和技术。在理论层面,需要统计学、机 器学习和数据挖掘等知识;在技术层面,包括单机分析工具(比如sPSS、 SAs等)或单机编程语言(比如 Python、R),以及大数据处理与分析技 术(比如 MapReduce、 Spark、Hive等)。 数据分析可以是针对小规模数据的分析,也可以是针对大规模数据的分 析(这时被称为“大数据分析”)。在大数据时代到来之前,数据分析 主要以小规模的抽样数据为主,一般使用统计学、机器学习和数据挖掘 的相关方法,以单机分析工具(比如SPSs和SAS)或者单机编程(比如 Python、R)的方式来实现分析程序。但是,到了大数据时代,数据量爆 炸式地增长,很多时候需要对规模巨大的全量数据而不是小规模的抽样 数据进行分析,这时,单机工具和单机程序已经显得“无能为力”,就 需要釆用分布式实现技术,比如使用 Map Reduce、 Spark或Fink编写分 布式分析程序,借助于集群的多台机器进行并行数据处理分析,这个过 程就被称为“大数据处理与分析” 大数据导论 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.1.3大数据处理与分析 数据分析包含两个要素,即理论和技术。在理论层面,需要统计学、机 器学习和数据挖掘等知识;在技术层面,包括单机分析工具(比如SPSS、 SAS等)或单机编程语言(比如Python、R),以及大数据处理与分析技 术(比如MapReduce、Spark、Hive等)。 数据分析可以是针对小规模数据的分析,也可以是针对大规模数据的分 析(这时被称为“大数据分析”)。在大数据时代到来之前,数据分析 主要以小规模的抽样数据为主,一般使用统计学、机器学习和数据挖掘 的相关方法,以单机分析工具(比如SPSS和SAS)或者单机编程(比如 Python、R)的方式来实现分析程序。但是,到了大数据时代,数据量爆 炸式地增长,很多时候需要对规模巨大的全量数据而不是小规模的抽样 数据进行分析,这时,单机工具和单机程序已经显得“无能为力”,就 需要采用分布式实现技术,比如使用MapReduce、Spark或Flink编写分 布式分析程序,借助于集群的多台机器进行并行数据处理分析,这个过 程就被称为“大数据处理与分析
7.1.3大数据处理与分析 本章后续内容中,在数据分析理论层面,只介绍属于数据挖掘的理论知 识(即机器学习和数据挖掘算法),对于使用统计学方法的狭义的数据 分析理论知识(如对比分析、分组分析、交叉分析、预测分析、漏斗分 析、AB测试分析、结构分析、因素分析、矩阵分析、相关分析、回归 分析、聚类分析、判断分析、成分分析等)不做介绍,感兴趣的读者可 以参考相关的统计学书籍。在数据分析技术层面,介绍面向大规模数据 的大数据处理与分析技术(如 Map Reduce、 Spark、 Flink、Hive等) 对于单机工具和单机编程不做介绍,感兴趣的读者可以参考与SPSS、 SAs、 Python和R等相关的书籍 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.1.3大数据处理与分析 本章后续内容中,在数据分析理论层面,只介绍属于数据挖掘的理论知 识(即机器学习和数据挖掘算法),对于使用统计学方法的狭义的数据 分析理论知识(如对比分析、分组分析、交叉分析、预测分析、漏斗分 析、A/B测试分析、结构分析、因素分析、矩阵分析、相关分析、回归 分析、聚类分析、判断分析、成分分析等)不做介绍,感兴趣的读者可 以参考相关的统计学书籍。在数据分析技术层面,介绍面向大规模数据 的大数据处理与分析技术(如MapReduce、Spark、Flink、Hive等), 对于单机工具和单机编程不做介绍,感兴趣的读者可以参考与SPSS、 SAS、Python和R等相关的书籍
7.2机器学习和数据挖掘算法 72.1概述 722分类 72.3聚类 72.4回归分析 72.5关联规则 72.6协同过滤 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.2机器学习和数据挖掘算法 7.2.1概述 7.2.2 分类 7.2.3聚类 7.2.4 回归分析 7.2.5关联规则 7.2.6协同过滤