第9讲降维分析与分类分析 (归因分析) 2015年12月
2015年12月 第9讲 降维分析与分类分析 (归因分析) 2
降维分析与分类分析的概念 >1、统计学中的降维分析简介 ◆(1)什么是降维分析? 在数据统计分析过程中,常常从多个视角制作调查或评价指 标,从而能够全面地反应调查对象的属性和特点。 然而,在调查完成后,常常发现以下问题: 多个指标项的语义有重叠; 需要获得凝练的分析结论。 。为此,需要对调硏指标进行凝练,减少评价指标的维数,使 结论变得更加易于表述和理解。 ◆(2)降维分析的前提条件 部分变量之间存在着高度的相关性(同类变量); 部分变量之间存在着显著差异性(不同类变量)
一、降维分析与分类分析的概念 ➢ 1、统计学中的降维分析简介 ◆(1)什么是降维分析? 在数据统计分析过程中,常常从多个视角制作调查或评价指 标,从而能够全面地反应调查对象的属性和特点。 然而,在调查完成后,常常发现以下问题: 多个指标项的语义有重叠; 需要获得凝练的分析结论。 为此,需要对调研指标进行凝练,减少评价指标的维数,使 结论变得更加易于表述和理解。 ◆(2)降维分析的前提条件 部分变量之间存在着高度的相关性(同类变量); 部分变量之间存在着显著差异性(不同类变量)。 3
降维分析与分类分析的概念 1、统计学中的降维分析简介 ◆(3)降维分析的常见手段 主成分分析 因子分析中的一种,寻求影响多个指标项的一个或多个主 成份(这些主成分的特征根在1以上 面向变量的聚类分析 对于调研数据,针对变量进行聚类,把多个变量分为若干 小组,形成几个聚结的变量集; 分析每个变量集的语义,形成凝结的维度。 对应分析 。对于调研数据来讲,综合性的结论通常与全体变量的取值 有关系。但是,某些情况下,某一特定变量的取值可能直 接影响最终结果。 。对应分析就是找出相关的两个变量之间取值对应关系的操 作
一、降维分析与分类分析的概念 ➢ 1、统计学中的降维分析简介 ◆(3)降维分析的常见手段 主成分分析 因子分析中的一种,寻求影响多个指标项的一个或多个主 成份(这些主成分的特征根在1以上) 面向变量的聚类分析 对于调研数据,针对变量进行聚类,把多个变量分为若干 小组,形成几个聚结的变量集; 分析每个变量集的语义,形成凝结的维度。 对应分析 对于调研数据来讲,综合性的结论通常与全体变量的取值 有关系。但是,某些情况下,某一特定变量的取值可能直 接影响最终结果。 对应分析就是找出相关的两个变量之间取值对应关系的操 作。 4
降维分析与分类分析的概念 >2、统计学中的分类分析简介 ◆(1)什么是分类分析 在数据统计与分析过程中,常常需要把成千上万的个案分成 若干类,以便于操作。例如,可以把学生分为男生、女生, 还可以把学生按照综合表现分为优等生、良好生、普通生和 差生。 。依据某些因素,对个案分类的过程就是分类 ◆(2)数据分类的基本条件 不同个案的属性取值离散化程度较高,存在着比较明显的差 别 。依据某几个属性,具备把个案分成几类的可能性
一、降维分析与分类分析的概念 ➢ 2、统计学中的分类分析简介 ◆(1)什么是分类分析 在数据统计与分析过程中,常常需要把成千上万的个案分成 若干类,以便于操作。例如,可以把学生分为男生、女生, 还可以把学生按照综合表现分为优等生、良好生、普通生和 差生。 依据某些因素,对个案分类的过程就是分类。 ◆(2)数据分类的基本条件 不同个案的属性取值离散化程度较高,存在着比较明显的差 别; 依据某几个属性,具备把个案分成几类的可能性。 5
降维分析与分类分析的概念 >2、实现分类分析的主要技术 ◆(1)聚类分析—面向个案 面向个案的聚类分析就是分类。 其目标是把众多个案聚结为较少的几个类别,以便总结规 律或者实施数据管理 (面向变量的系统聚类是降维分析,称为R聚类) °面向个案的聚类分析有两种技术 面向个案的系统聚类(也叫层次聚类),被称为Q聚类。 自动分层聚类, 从与个案数相同的类别数逐步聚结为1类,构成树状结构 K-Means聚类技术 √指定类别数的聚类 √基于用户指定的聚类类别数、类别中心点,开始聚类
一、降维分析与分类分析的概念 ➢ 2、实现分类分析的主要技术 ◆(1)聚类分析——面向个案 面向个案的聚类分析就是分类。 其目标是把众多个案聚结为较少的几个类别,以便总结规 律或者实施数据管理。 (面向变量的系统聚类是降维分析,称为R聚类) 面向个案的聚类分析有两种技术: 面向个案的系统聚类(也叫层次聚类),被称为Q聚类。 ✓自动分层聚类, ✓从与个案数相同的类别数逐步聚结为1类,构成树状结构 K-Means聚类技术 ✓指定类别数的聚类 ✓基于用户指定的聚类类别数、类别中心点,开始聚类。 6