杜会学系列教材 第十四章 对应分析 在社会科学研究中,一个经常会遇到的问题就是要对定性变量数据进行量化 分析,因为研究中往往使用一些定性( Nonmetric)变量,例如名义变量或序次 变量来反映研究对象的行为、态度等,研究不同性别的顾客对不同品牌商品的喜 好,不同职业的人在吸烟行为上的差异等都属于此类研究。以往在分析这样的定 性变量时,往往需要使用非线性统计方法,例如L< linear等,但在每个变量都 划分成许多类别的情况下,这些分析方法就很难直观地揭示出变量之间的联系以 及变量类别之间的关系。在这种情况下,我们可以使用对应分析方法。 什么是对应分析 1.对应分析的概念与基本形式 对应分析( orrespondence analvsis)方法是近年来新发展起来的一种多元 相依变量( Interdependence)统计分析技术,它通过分析由定性变量构成的交互 汇总表来揭示变量间的联系。当以变量的一系列类别以及这些类别的分布图来描 述变量之间的联系时,使用这一分析技术可以揭示同一变量的各个类别之间的差
异以及不同变量各个类别之间的对应关系。 与其他相依变量分析技术不同,它既可以分析定性变量数据,同时还可以分 析非线性关系。当我们分析的变量是名义变量或序次变量,变量之间存在非线性 关系时,则可以用对应分析来揭示变量之间的联系。 对应分析的基本形式是对由两个定性或类型( Category)变量构成的交互表 进行分析,将定性变量数据转变成可度量的分值、减少维度并作出分值分布图。 在减少维度方面,对应分析与因子分析( Factor Analysis)相似;在作分布图方 面,对应分析与多维标度( Multidimensional scaling)方法相似。对应分析的优 点就在于可以同时做到这几方面,这是以往的统计方法所不能做的,因此,在定 性变量数据分析方面,对应分析提供了一种新的多元相依变量的分析技术 2.有关多元对应分析 虽然对应分析的基本形式是对两个定性变量进行分析,实际上对于由三个或 三个以上变量形成的交互表也可以进行对应分析,这样的对应分析称为多元对应 分析( Multiple Correspondence Analysis)。多元对应分析可以采取两种方法,第 种方法与二元对应分析非常相似,只是需要对超过二元的变量进行转换,从而 使各个变量的所有类别都表现在同一个多维空间里。这里以同时分析三个名义变 量为例,假设我们想分析不同性别、分别居住在城市和农村的人对在过去一年取 得的收入是否满意,如果要将这三个变量放在同一张交互表里,就要进行转换。 我们可以将性别与城乡这两个变量合并成一个变量,原来性别分为两个类型 (男、女),城乡也分为两种类型(城、乡),合并后的变量可以记为“性别城乡 分为四个类型:男城市、男农村、女城市、女农村,这样就又可以使用对应 分析的基夲形式(二维形式)对上述问题进行分析了。但是,从上述变量类型转 换中也可以看出,当我们所要分析的变量超过三个时,用这种方法就会感到很不 方便了,这时就要使用以下介绍的另种方法 多元对应分析的第二种方法是采用同质性分析( Homogeneity analysis)技 术.这是一种对多个名义变量进行主成分分析的技术,其优势是可以同时对多个 定性变量进行对应分析。在SPSS软仵里专门有一个 HOMALS程序可以帮助我 们进行分析,这里不多赘述。 从上述两种多元对应分析方法的比较看,当对两个变量进行分析时(可以看 作是多元对应分析的特例),用两种方法得到的统计结果并不致(但是用各自 的解释方式得出的结论是一样的)。因此,在变量数为两个的情况下,建议使用 对应分析的基本形式;在变量数为三个的情况下,建议使用上述多元对应分析的 458
第一种方法,即将其中两个变量合并成一个后再进行分析;当变量数为四个或以 上时,建议使用上述多元对应分析的第二种方法,即运用同质性分析方法。 3.对应分析的基本思路 对应分析方法通过对二维交互表的频数分析来确定变量及其类别之间的关 系。例如,在分析顾客对不同品牌商品的喜好时,可以将商品品牌与顾客的性 别、收入水平、职业等进行交叉汇总,汇总表中的每一项数字都代表着某一类顾 客喜欢某一品牌的人数,这一人数也就是这类顾客与这一品牌的“对应”点,代 表着不同特点的顾客与品牌之间的联系。通过对应分析,可以把品牌、顾客特点 以及他们之间的联系同时反映在一个二维或三维的分布图上,顾客认为比较相似 的品牌在图上的分布便会彼此靠近在一起。根据顾客特点与每一品牌之间距离的 远近,还可以区分顾客的哪些特点与喜好某种品牌的关系密切。 在对应分析中,每个变量的类别差异是通过直观图上的分值距离表现出来 的,但这个距离并不是我们通常所说的距离,而是经过加权的距离,在加权过程 中,以卡方值( Chi-square)的差异表现的。因此,对应分析的基础是将卡方值 转变成可度量的距离。卡方值分布是由累计交叉汇总表中每一交互组的实际频数 与期望频数的差值得来的,如果卡方值是负值,就说明这一单元格中的实际发生 频数低于期望频数。每一单元格(每个行变量类别与列变量类别在表中的交叉 点)频数的期望值取决于它在行分布中所占的比例和列分布中所占的比例。如果 某一单元格的卡方值是正值,而且数值很大,就说明这一单元格对应的行变量类 别与列变量类别有很强的对应关系,这两个类别在图上的距离就会很近。如果是 负值,则两个类别在图上的距离就会很远。 4.对应分析方法的优点 对应分析方法的出现为我们分析定性变量提供了许多方便条件,这表现在以 下几个方面。 (1)定性变量划分的类别越多,这种方法的优势越明显 利用简单的交叉汇总表就可以对定性变量进行分析,而且变量划分的类别越 多,这种分析方法的优势越明显 尽管其他统计方法也可以对交叉汇总表进行分析,但当变量是名义或序次变 量、而且变量的类别很多时,用这些方法就很难看出变量之间的关系。例如,当 我们调査不同职业的顾客对不同品牌香烟的喜好时,职业变量可以分成十多个类 别,而香烟品牌也可以有十个之多。这样一个由名义变量构成的庞大的交叉表就
很难看出变量间的联系。对于这样的研究,对应分析的优势就表现得十分明显。 对应分析可以将不同职业的顾客与他们选择的不同品牌香烟同时表现在一个二维 直观图里,从而清楚地反映出哪些职业的顾客喜欢冋样的香烟品牌,哪些香烟品 牌在顾客的心目中比较相似等 (2)揭示行变量类别间与列变量类别间的联系 对应分析不但可以表现行变量与列变量之间的联系,而且可以揭示行变量类 别间与列变量类别间的联系 在社会科学研究中,经常有许多用序次变量表示的变量。例如,在对不同受 教育程度的人是否愿意做社区志愿服务人员的调查中,调查对象的意愿通常被划 分为五类:1)非常愿意;2)愿意:3)一般;4)不愿意;5)很不愿意。在调查 不同职业的人对在过去一年里收入的满意程度时,又往往会用编码:1)非常满 意:2)满意;3)一般;4)不满意:5)很不满意来表示。如果对上述变量直接 进行分析,隐含的假定是不同意愿或满意程度类别之间的差距是等距的,而实际 上很可能并不是这样。而在对应分析的分布图上,特征相似的类别会聚集到 起,差异很大的类别则相距很远,由此,我们可以区分变量的不同类别之间的差 异情况,重新调整分类,使之更加符合实际情况。 (3)将类别联系直观地表现于图形中 对应分析最大的优势是可以将所有行变量类别和列变量类别的联系直观地表 现在同一张分布图上,我们从中可以看出哪些行变量类别与列变量类别有密切的 联系,从而能够清楚地解释统计分析结果 4)可以将名义变量或序次变量转变为间距变量 以对应分析方法为基础还可以将名义变量或序次变量转变为间距变量,从而 可以应用更多的传统统计方法分析含有这样变量的调查数据。 然而,在看到对应分析方法的优点的同时,也不能忽略它的局限性 5.对应分析方法的局限性 (1)不能用于相关关系的假设检验 对应分析只是一种描述性的统计分析方法,它虽然可以揭示变量间的联系 但不能用于相关关系的假设检验。例如,它不能说明两个变量之间存在的联系是 否显著。如果你所作分析的主要目的是量化变量之间的联系,那么就要用Lag linear等其他统计方法。 (2)维度要由研究者决定 对应分析是一种减少维度的方法,在分析过程中,到底用几维进行分析需要
由研究者自己决定,没有硬性的规定。在分析过程中,研究者可以知道最大维度 数是多少,但是减少到几维为好必须权衡分析结果是否可解释( Interpretability) 以及是否简约( Parsi-mony)。对应分析的原则是用最少的维度来解释尽可能多的 差异,但多少才算是多要由研究者决定。 (3)对极端值敏感 在分析过程中,极端值( Outlier,或称野点子)对对应分析的结果影响很 大 、对应分析的假设条件 运用分布图分析变量类别间的关系时可以采用两种方法:一种是分解法 ( Decomposi-tional Method),例如,多维标度( Multidimentional Scaling)就属于 分解法分析技术,使用多维标度技术分析顾客对不同品牌商品的喜好时,每个被 调查者只需对不同品牌是否相似或喜欢什么品牌作出一个总体的评价,随后这些 总体评价会被分解成若于维度,从而在分布图上将不同品牌的差异表现出来。 另一种方法是构成法(( oppositional Method),对应分析就属于构成法技 术。用构成法分析顾客对不同品牌商品的喜好时,每个被调查者先要对不同品牌 商品的每个特征分别进行评价,然后再从这些评价中得出品牌相似或品牌喜好的 总体评价。在多元统计方法中,因子分析和判别分析都是常用的构成法分析技 术 对应分析方法对于数据类型、变量之间的关系没有严格的限定。但是,调查 对象必须有代表性,研究对象要有可比性,变量的类别应当涵盖所有可能出现的 情况。比如在生活满意度调查中,有满意的,也会有不满意的,还会有回答 的,表示既不是满意也不是不满意,也有不回答的可能,这些答案都应考虑在 内。对于所分析的调查数据,对应分析还有以下一些假设条件。 1.被调查者回答问题时并不都从同角度(或称维度)作出判断 在意愿、满意度和商品品牌喜好等调查中,被调査者都通常会从两个维度进 行评判。这两个维度一个是主观维度,一个是客观维度。主观维度是指人们主观 的看法,比如认为某一商品很贵,某部电影很好看,某家生活很幸福等。之所以 说这些判断是主观得出的,是因为换一个人可能就并不这样认为,一个人认为很 好看的电影在另一个人眼里可能并不好看。客观维度是指从研究对象的有形特点 进行判断,例如商品的体积、形状、颜色、重量等,一个重10公斤的物品在谁 46l