7.2.3聚类 聚类又称群分析,是一种重要的机器学习和数据挖掘技术。聚类分析的目的 是将数据集中的数据对象划分到若干个簇中,并且保证每个簇之间样本尽量 接近,不同簇的样本间距离尽量远。通过聚类生成的簇是一组数据对象的集 合,簇满足以下两个条件 (1)每个簇至少包含一个数据对象 (2)每个数据对象仅属于一个簇 聚类分析一般属于无监督分类的范畴,按照一定的要求和规律,在没有关于 分类的先验知识情况下,对数据进行区分和分类。聚类既能作为一个单独过 程,用于找寻数据内部的分布结构,也可以作为分类等其他学习任务的前驱 过程。聚类算法可分为划分法( Partitioning Method)、层次法 ( Hierarchical method)、基于密度的方法( Density- based Method)、基 于网格的方法(Grid- based method)、基于模型的方法(Mode- Based Method)。这些方法没有统一的评价指标,因为不同聚类算法的目标函数相 差很大。有些聚类是基于距离的(如K- Means),有些是假设先验分布的 (如GMM,LDA),有些是带有图聚类和谱分析性质的(如谱聚类),还有 些是基于密度的(如 DBSCAN)。聚类算法应该嵌入到问题中进行评价。 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.2.3聚类 聚类又称群分析,是一种重要的机器学习和数据挖掘技术。聚类分析的目的 是将数据集中的数据对象划分到若干个簇中,并且保证每个簇之间样本尽量 接近,不同簇的样本间距离尽量远。通过聚类生成的簇是一组数据对象的集 合,簇满足以下两个条件: (1)每个簇至少包含一个数据对象; (2)每个数据对象仅属于一个簇。 聚类分析一般属于无监督分类的范畴,按照一定的要求和规律,在没有关于 分类的先验知识情况下,对数据进行区分和分类。聚类既能作为一个单独过 程,用于找寻数据内部的分布结构,也可以作为分类等其他学习任务的前驱 过程。聚类算法可分为划分法(Partitioning Method)、层次法 (Hierarchical Method)、基于密度的方法(Density-based Method)、基 于网格的方法(Grid-based Method)、基于模型的方法(Model-Based Method)。这些方法没有统一的评价指标,因为不同聚类算法的目标函数相 差很大。有些聚类是基于距离的(如K-Means),有些是假设先验分布的 (如GMM,LDA),有些是带有图聚类和谱分析性质的(如谱聚类),还有 些是基于密度的(如DBSCAN)。聚类算法应该嵌入到问题中进行评价
7.2.4回归分析 回归分析( Regression Analysis)指的是确定两种或两种以上变量间相互依 赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分 为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和 多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分 析和非线性回归分析 在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量 (目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析, 时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道 路交通事故数量之间的关系,最好的研究方法就是回归 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.2.4 回归分析 回归分析(Regression Analysis)指的是确定两种或两种以上变量间相互依 赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分 为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和 多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分 析和非线性回归分析。 在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量 (目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析, 时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道 路交通事故数量之间的关系,最好的研究方法就是回归
72.5关联规贝 关联规则最初是针对购物篮分析( Market Basket Analysis)问题提出的。假 设零售商想更多地了解顾客的购物习惯。特别是,想知道顾客可能会在一次 购物时同时购买哪些商品?为了回答该问题,可以对商店的顾客事物零售数 量进行购物篮分析。该过程通过发现顾客放入“购物篮”中的不同商品之间 的关联,分析顾客的购物习惯。这种关联的发现可以帮助零售商了解哪些商 品频繁地被顾客同时购买,从而帮助他们开发更好的营销策略。 关联规则定义为:假设是仁{1,l,l3,…,m}项的集合。给定一个交易数据库D, 其中每个事务t是非空子集,即每一个交易都与一个唯一的标识符TD对应 关联规则在D中的支持度是D中事务同时包含Ⅹ、¥的百分比,即概率;置信 度是D中事务已经包含X的情况下,包含Y的百分比,即条件概率。如果满足 最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值是 根据挖掘需要人为设定的。 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.2.5关联规则 关联规则最初是针对购物篮分析(Market Basket Analysis)问题提出的。假 设零售商想更多地了解顾客的购物习惯。特别是,想知道顾客可能会在一次 购物时同时购买哪些商品?为了回答该问题,可以对商店的顾客事物零售数 量进行购物篮分析。该过程通过发现顾客放入“购物篮”中的不同商品之间 的关联,分析顾客的购物习惯。这种关联的发现可以帮助零售商了解哪些商 品频繁地被顾客同时购买,从而帮助他们开发更好的营销策略。 关联规则定义为:假设是I={I1 ,I2 ,I3 ,…,Im}项的集合。给定一个交易数据库D, 其中每个事务t是I的非空子集,即每一个交易都与一个唯一的标识符TID对应。 关联规则在D中的支持度是D中事务同时包含X、Y的百分比,即概率;置信 度是D中事务已经包含X的情况下,包含Y的百分比,即条件概率。如果满足 最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值是 根据挖掘需要人为设定的
72.5关联规贝 这里举一个简单的例子进行说明。表7-1是顾客购买记录的数据库D,包含6个 事务。项集}{乒乓球拍,乒乓球,运动鞋,羽毛球}。考虑关联规则(频繁二 项集):乒乓球拍与乒乓球,事务1,2,3,4,6包含乒乓球拍,事务1,2,6同时包 含乒乓球拍和乒乓球,这里用X表示购买了乒乓球,用Y表示购买了乒乓球拍 则XAy=3,D=6,支持度(XAY/D=0.5:X=5,置信度(XAYX=06。若给定最 小支持度α=0.5,最小置信度β=06,认为购买乒乓球拍和购买乒乓球之间存 在关联。 表顾客购买记录 匚TD乒乓球拍乒乓球_运动鞋羽毛球 123456 111101 110011 00110 000010 常见的关联规则挖掘算法包括 Apriori算法和 FP-Growth算法等 大数据导论 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.2.5关联规则 这里举一个简单的例子进行说明。表7-1是顾客购买记录的数据库D,包含6个 事务。项集I={乒乓球拍,乒乓球,运动鞋,羽毛球}。考虑关联规则(频繁二 项集):乒乓球拍与乒乓球,事务1,2,3,4,6包含乒乓球拍,事务1,2,6同时包 含乒乓球拍和乒乓球,这里用X表示购买了乒乓球,用Y表示购买了乒乓球拍, 则X˄Y=3, D=6,支持度(X˄Y)/D=0.5;X=5, 置信度(X˄Y)/X=0.6。若给定最 小支持度α= 0.5,最小置信度β= 0.6,认为购买乒乓球拍和购买乒乓球之间存 在关联。 TID 乒乓球拍 乒乓球 运动鞋 羽毛球 1 1 1 1 0 2 1 1 0 0 3 1 0 0 0 4 1 0 1 0 5 0 1 1 1 6 1 1 0 0 表 顾客购买记录 常见的关联规则挖掘算法包括Apriori算法和FP-Growth算法等
72.6协同过滤 推荐技术从被提出到现在已有十余年,在多年的发展历程中诞生了很多新的推 荐算法。协同过滤作为最早、最知名的推荐算法,不仅在学术界得到了深入研 究,而且至今在业界仍有广泛的应用,已经被大量应用到电子商务的推荐系统 中。协同过滤主要包括基于用户的协同过滤、基于物品的协同过滤和基于模型 的协同过滤 基于用户的协同过滤算法(简称 UserC算法)是推荐系统中最古老的算法, 可以说, UserC的诞生标志着推荐系统的诞生。该算法在1992年被提出,直 到现在该算法都是推荐系统领域最著名的算法之一。∪ sercH算法符合人们对 于“趣味相投”的认知,即兴趣相似的用户往往有相同的物品喜好,当目标用 户需要个性化推荐时,可以先找到和目标用户有相似兴趣的用户群体,然后将 这个用户群体喜欢的、而目标用户没有听说过的物品推荐给目标用户,这种方 法就称为“基于用户的协同过滤算法” 大数据导论 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.2.6协同过滤 推荐技术从被提出到现在已有十余年,在多年的发展历程中诞生了很多新的推 荐算法。协同过滤作为最早、最知名的推荐算法,不仅在学术界得到了深入研 究,而且至今在业界仍有广泛的应用,已经被大量应用到电子商务的推荐系统 中。协同过滤主要包括基于用户的协同过滤、基于物品的协同过滤和基于模型 的协同过滤。 基于用户的协同过滤算法(简称UserCF算法)是推荐系统中最古老的算法, 可以说,UserCF的诞生标志着推荐系统的诞生。该算法在1992年被提出,直 到现在该算法都是推荐系统领域最著名的算法之一。UserCF算法符合人们对 于“趣味相投”的认知,即兴趣相似的用户往往有相同的物品喜好,当目标用 户需要个性化推荐时,可以先找到和目标用户有相似兴趣的用户群体,然后将 这个用户群体喜欢的、而目标用户没有听说过的物品推荐给目标用户,这种方 法就称为“基于用户的协同过滤算法