》7.2.1概述 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、 算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习 行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自 身的性能,它是人工智能的核心,是使计算机具有智能的根本途径,其应 用遍及人工智能的各个领域 数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据 挖掘可以视为机器学习与数据库的交叉,它主要利用机器学习界提供的算 法来分析海量数据,利用数据库界提供的存储技术来管理海量数据。从知 识的来源角度而言,数据挖掘领域的很多知识也“间接”来自于统计学界, 之所以说“间接”,是因为统计学界一般偏重于理论研究而不注重实用性, 统计学界中的很多技术需要在机器学习界进行验证和实践并变成有效的机 器学习算法以后,才可能进入数据挖掘领域,对数据挖掘产生影响。 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.2.1概述 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、 算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习 行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自 身的性能,它是人工智能的核心,是使计算机具有智能的根本途径,其应 用遍及人工智能的各个领域。 数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据 挖掘可以视为机器学习与数据库的交叉,它主要利用机器学习界提供的算 法来分析海量数据,利用数据库界提供的存储技术来管理海量数据。从知 识的来源角度而言,数据挖掘领域的很多知识也“间接”来自于统计学界, 之所以说“间接”,是因为统计学界一般偏重于理论研究而不注重实用性, 统计学界中的很多技术需要在机器学习界进行验证和实践并变成有效的机 器学习算法以后,才可能进入数据挖掘领域,对数据挖掘产生影响
》7.2.1概述 虽然数据挖掘的很多技术都来自机器学习领域,但是,我们并不能因此 就认为数据挖掘只是机器学习的简单应用。毕竞,机器学习通常只研究 小规模的数据对象,往往无法应用到海量数据的情形,数据挖掘领域必 须借助于海量数据管理技术对数据进行存储和处理,同时对一些传统的 机器学习算法进行改进,使其能够支持海量数据的情形 典型的机器学习和数据挖掘算法包括分类、聚类、回归分析和关联规则等。 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.2.1概述 虽然数据挖掘的很多技术都来自机器学习领域,但是,我们并不能因此 就认为数据挖掘只是机器学习的简单应用。毕竟,机器学习通常只研究 小规模的数据对象,往往无法应用到海量数据的情形,数据挖掘领域必 须借助于海量数据管理技术对数据进行存储和处理,同时对一些传统的 机器学习算法进行改进,使其能够支持海量数据的情形。 典型的机器学习和数据挖掘算法包括分类、聚类、回归分析和关联规则等
72.2分类 分类是一种重要的机器学习和数据挖掘技术。分类的目的是根据数据集的 特点构造一个分类函数或分类模型(也常常称作分类器),该模型能把未知 类别的样本映射到给定类别中。 构造分类模型的过程一般分为训练和测试两个阶段。在构造模型之前,将 数据集随机地分为训练数据集和测试数据集。先使用训练数据集来构造分 类模型,然后使用测试数据集来评估模型的分类准确率。如果认为模型的 准确率可以接受,就可以用该模型对其它数据元组进行分类。一般来说, 测试阶段的代价远低于训练阶段。 典型的分类方法包括决策树、朴素贝叶斯、支持向量机和人工神经网络等。 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.2.2 分类 分类是一种重要的机器学习和数据挖掘技术。分类的目的是根据数据集的 特点构造一个分类函数或分类模型(也常常称作分类器),该模型能把未知 类别的样本映射到给定类别中。 构造分类模型的过程一般分为训练和测试两个阶段。在构造模型之前,将 数据集随机地分为训练数据集和测试数据集。先使用训练数据集来构造分 类模型,然后使用测试数据集来评估模型的分类准确率。如果认为模型的 准确率可以接受,就可以用该模型对其它数据元组进行分类。一般来说, 测试阶段的代价远低于训练阶段。 典型的分类方法包括决策树、朴素贝叶斯、支持向量机和人工神经网络等
72.2分类 这里给出一个分类的应用实例。假设有一名植物学爱好者对她发现的 鸢尾花的品种很感兴趣。她收集了每朵鸢尾花的一些测量数据:花瓣 的长度和宽度以及花萼的长度和宽度。她还有一些鸢尾花分类的数据, 也就是说,这些花之前已经被植物学专家鉴定为属于 setosa versicolor或 VIrgiNica三个品种之一。基于这些分类数据,她可以确定 每朵鸢尾花所属的品种。于是,她可以构建一个分类算法,让算法从 这些已知品种的鸢尾花测量数据中进行学习,得到一个分类模型,再 使用分类模型预测新鸢尾花的品种。 大数据导论 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.2.2 分类 这里给出一个分类的应用实例。假设有一名植物学爱好者对她发现的 鸢尾花的品种很感兴趣。她收集了每朵鸢尾花的一些测量数据:花瓣 的长度和宽度以及花萼的长度和宽度。她还有一些鸢尾花分类的数据, 也就是说,这些花之前已经被植物学专家鉴定为属于setosa、 versicolor或virginica三个品种之一。基于这些分类数据,她可以确定 每朵鸢尾花所属的品种。于是,她可以构建一个分类算法,让算法从 这些已知品种的鸢尾花测量数据中进行学习,得到一个分类模型,再 使用分类模型预测新鸢尾花的品种
72.2分类 聚类分析的常见应用场景包括: (1)目标用户的群体分类。通过对特定运营目的和商业目的所挑选出的指 标变量进行聚类分析,把目标群体划分成几个具有明显特征区别的细分群体, 从而可以在运营活动中为这些细分群体采取精细化,个性化的运营和服务, 最终提升运营的效率和商业效果。 (2)不同产品的价值组合。企业可以按照不同的商业目的,并依照特定的 指标标量来为众多的产品种类进行聚类分析,把企业的产品体系进一步细分 成具有不同价值、不同目的的多维度的产品组合,并且在此基础分别制定和 相应的开发计划、运营计划和服务规划 (3)探测发现离群点和异常值。这里的离群点是指相对于整体数据对象而 言的少数数据对象,这些对象的行为特征与整体的数据行为特征很不一致, 比如,某B2C电商平台上,比较昂贵、频繁的交易,就有可能隐含欺诈的风 险,需要风控部门提前关注 大数据导论 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.2.2 分类 聚类分析的常见应用场景包括: (1)目标用户的群体分类。通过对特定运营目的和商业目的所挑选出的指 标变量进行聚类分析,把目标群体划分成几个具有明显特征区别的细分群体, 从而可以在运营活动中为这些细分群体采取精细化,个性化的运营和服务, 最终提升运营的效率和商业效果。 (2)不同产品的价值组合。企业可以按照不同的商业目的,并依照特定的 指标标量来为众多的产品种类进行聚类分析,把企业的产品体系进一步细分 成具有不同价值、不同目的的多维度的产品组合,并且在此基础分别制定和 相应的开发计划、运营计划和服务规划。 (3)探测发现离群点和异常值。这里的离群点是指相对于整体数据对象而 言的少数数据对象,这些对象的行为特征与整体的数据行为特征很不一致, 比如,某B2C电商平台上,比较昂贵、频繁的交易,就有可能隐含欺诈的风 险,需要风控部门提前关注