几个有代表性的指标进行聚类分析。为此,把十个指标根据其相关性进行型聚类,再 从每个类中选取代表性的指标。首先对每个变量(指标)的数据分别进行标准化处理。 变量间相近性度量采用相关系数,类间相近性度量的计算选用类平均法。聚类树型图见 图5。 图5指标聚类树型图 计算的MATLAB程序如下: load gi.tt%把原始数据保存在纯文本文件g:tt中 一g,%计算相关系数矩阵 d=tril(r); %取出相关系数矩阵的下三角元素 for i=1:10 %对角线元素化成零 d(i.i=0 end d-d(): d-nonzeros(d:%取出非零元素 d=d:d=1-d: z=linkage(d) dendrogram(z) 从聚类图中可以看出,每十万人口高等院校招生数、每十万人口高等院校在校生数、 其它5个指标各自为一类。这样就从十个指标中选定了六个分析指标: ,:每百万人口高等院校数: x2:每十万人口高等院校毕业生数 x,:高级职称占专职教师的比例: x:平均每所高等院校的在校生数: 458
-458- 几个有代表性的指标进行聚类分析。为此,把十个指标根据其相关性进行R型聚类,再 从每个类中选取代表性的指标。首先对每个变量(指标)的数据分别进行标准化处理。 变量间相近性度量采用相关系数,类间相近性度量的计算选用类平均法。聚类树型图见 图5。 3 4 2 5 6 1 9 10 7 8 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 图 5 指标聚类树型图 计算的 MATLAB 程序如下: load gj.txt %把原始数据保存在纯文本文件 gj.txt 中 r=corrcoef(gj); %计算相关系数矩阵 d=tril(r); %取出相关系数矩阵的下三角元素 for i=1:10 %对角线元素化成零 d(i,i)=0; end d=d(:); d=nonzeros(d); %取出非零元素 d=d';d=1-d; z=linkage(d) dendrogram(z) 从聚类图中可以看出,每十万人口高等院校招生数、每十万人口高等院校在校生数、 每十万人口高等院校教职工数、每十万人口高等院校专职教师数、每十万人口高等院校 毕业生数 5 个指标之间有较大的相关性,最先被聚到一起。如果将 10 个指标分为 6 类, 其它 5 个指标各自为一类。这样就从十个指标中选定了六个分析指标: 1 x :每百万人口高等院校数; 2 x :每十万人口高等院校毕业生数; 7 x :高级职称占专职教师的比例; 8 x :平均每所高等院校的在校生数;
x,:国家财政预算内普通高教经费占国内生产总值的比重: xo:生均教育经费 可以根据这六个指标对30个地区进行聚类分析。 (4)O型聚类分析 根据这六个指标对30个地风讲行聚类分析。首先对每个变量的数据分别讲行标准化 处理,样本间相近性采用欧氏距离度最,类间距离的计算选用类平均法。聚类树型图见 图 点点丸 图6各地区聚类树型图 计算的MATLAB程序如下: load gj.txt把原始数据保存在纯文本文件gj.tt中 gj(:,3:6)=[]: ai-zscore(gi); -pdist(gj) z=linkage(y) dendrogram(z,'average') 4.案例研究结果 各地区高等教育发展状况存在较大的差异,高教资源的地区分布很不均衡。如果根 据各地区高等教有发展状况把30个地区分为三类,结果为: 第一类:北京:第二类:西藏:第三类:其他地区。 如果根据各地区高等教有发展状况把30个地区分为四类,结果为: 第一类:北京:第二类:西藏:第三类:上海天津:第四类:其他地区。 如果根据各地区高等教育发展状况把30个地区分为五类,结果为: 第一类:北京:第二类:西藏:第三类:上海天津:第四类:宁夏、贵州、青海: 第五类:其他地区。 从以上结果结合聚类图中的合并距离可以看出,北京的高等教有状况与其它地区相 比有非常大的不同,主要表现在每百万人口的学校数量和每十万人口的学生数量以及国 -459
-459- 9 x :国家财政预算内普通高教经费占国内生产总值的比重; 10 x :生均教育经费。 可以根据这六个指标对30 个地区进行聚类分析。 (4)Q 型聚类分析 根据这六个指标对30个地区进行聚类分析。首先对每个变量的数据分别进行标准化 处理,样本间相近性采用欧氏距离度量,类间距离的计算选用类平均法。聚类树型图见 图6。 19 26 27 22 14 20 16 24 18 15 23 17 21 5 8 7 6 9 12 11 13 10 4 28 29 30 2 3 25 1 0 1 2 3 4 5 6 7 8 图6 各地区聚类树型图 计算的MATLAB程序如下: load gj.txt %把原始数据保存在纯文本文件gj.txt中 gj(:,3:6)=[]; gj=zscore(gj); y=pdist(gj); z=linkage(y) dendrogram(z,'average') 4.案例研究结果 各地区高等教育发展状况存在较大的差异,高教资源的地区分布很不均衡。如果根 据各地区高等教育发展状况把30 个地区分为三类,结果为: 第一类:北京;第二类:西藏;第三类:其他地区。 如果根据各地区高等教育发展状况把30个地区分为四类,结果为: 第一类:北京;第二类:西藏;第三类:上海天津;第四类:其他地区。 如果根据各地区高等教育发展状况把30个地区分为五类,结果为: 第一类:北京;第二类:西藏;第三类:上海天津;第四类:宁夏、贵州、青海; 第五类:其他地区。 从以上结果结合聚类图中的合并距离可以看出,北京的高等教育状况与其它地区相 比有非常大的不同,主要表现在每百万人口的学校数量和每十万人口的学生数量以及国
家财政预算内普通高教经费占国内生产总值的比重等方面远远高于其他地区,这与北京 作为全国的政治、经济与文化中心的地位是吻合的。上海和天津作为另外两个较早的直 辖市,高等教有状况和北京是类似的状况。宁夏、贵州和青海的高等教有状况极为类似 高等教有资源相对匮乏。西藏作为一个非常特殊的民族地区,其高等教育状况具有和其 他地区不同的情形,被单独聚为一类,主要表现在每百万人口高等院校数比较高,国家 财政预算内普通高教经费占国内生产总值的比重和生均教有经费也相对较高,而高级职 称占专职教师的比例与平均每所高等院校的在校生数又都是全国最低的,这正是西藏高 等教有状况的特殊之处:人口相对较少,经费比较充足,高等院校规模较小,师资力量 薄弱。其他地区 的高等教有状况较为类似,共同被聚为一类。 计对这种情况 有关部 可以采取相措施对宁夏、贵州、青海和西藏地区进行扶持,促进当地高等教有事业的 发展。 §3主成分分析 主成分分析(principal c ana1sis)是1901年Pe 0n对非箱机变量 入的,1933年 te1is将此方法推r广到随机向量的情形,主成分分析和聚类分析有很 大的不同,它有严格的数学理论作基础。 主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我 们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始 变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资 料的综合性指 可见,主成分分析实际上是一种降维方法 3.1基本思想及方法 如果用x,2,.,x,表示p门课程,G,C2,.,c。表示各门课程的权重,那么加权 之和就是 s=Cx+C22+.+Cnx2 (14) 我们希望选择适当的权重能更好地区分学生的成绩。每个学生都对应一个这样的综合成 锁,记为S,S2,.,5,n为学生人数。如果这些值很分散,表明区分得好,即是说, 需要寻找这样的加权,能使,32,.,3n尽可能的分散,下面来看它的统计定义。 设X,X2,.,X。表示以x,x2,.,x为样本观测值的随机变量,如果能找到 9,92,.,C。,使得 Var(c X]+c2X:+.+cpXp) (15) 的值达到最大,则由于方差反映了数据差异的程度,因此也就表明我们抓住了这p个 变量的最大变异。当然,(15)式必须加上某种限制,否则权值可选择无穷大而没有意 -460-
-460- 家财政预算内普通高教经费占国内生产总值的比重等方面远远高于其他地区,这与北京 作为全国的政治、经济与文化中心的地位是吻合的。上海和天津作为另外两个较早的直 辖市,高等教育状况和北京是类似的状况。宁夏、贵州和青海的高等教育状况极为类似, 高等教育资源相对匮乏。西藏作为一个非常特殊的民族地区,其高等教育状况具有和其 他地区不同的情形,被单独聚为一类,主要表现在每百万人口高等院校数比较高,国家 财政预算内普通高教经费占国内生产总值的比重和生均教育经费也相对较高,而高级职 称占专职教师的比例与平均每所高等院校的在校生数又都是全国最低的。这正是西藏高 等教育状况的特殊之处:人口相对较少,经费比较充足,高等院校规模较小,师资力量 薄弱。其他地区的高等教育状况较为类似,共同被聚为一类。针对这种情况,有关部门 可以采取相应措施对宁夏、贵州、青海和西藏地区进行扶持,促进当地高等教育事业的 发展。 §3 主成分分析 主成分分析(principal component analysis)是1901年Pearson对非随机变量引 入的,1933年Hotelling将此方法推广到随机向量的情形,主成分分析和聚类分析有很 大的不同,它有严格的数学理论作基础。 主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我 们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始 变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资 料的综合性指标。由此可见,主成分分析实际上是一种降维方法。 3.1 基本思想及方法 如果用 p x , x , , x 1 2 " 表示 p 门课程, p c , c , , c 1 2 " 表示各门课程的权重,那么加权 之和就是 p p s = c x + c x +"+ c x 1 1 2 2 (14) 我们希望选择适当的权重能更好地区分学生的成绩。每个学生都对应一个这样的综合成 绩,记为 n s ,s , ,s 1 2 " ,n 为学生人数。如果这些值很分散,表明区分得好,即是说, 需要寻找这样的加权,能使 n s ,s , ,s 1 2 " 尽可能的分散,下面来看它的统计定义。 设 X X X p , , , 1 2 " 表示以 p x , x , , x 1 2 " 为样本观测值的随机变量,如果能找到 p c , c , , c 1 2 " ,使得 Var( ) 1 1 2 2 p X p c X + c X +"+ c (15) 的值达到最大,则由于方差反映了数据差异的程度,因此也就表明我们抓住了这 p 个 变量的最大变异。当然,(15)式必须加上某种限制,否则权值可选择无穷大而没有意
义,通常规定 G+c+.+c2=1 (16) 在此约束下,求(15)式的最优解。由于这个解是p-维空间的一个单位向量,它代表 一个“方向”,它就是常说的主成分方向。 一个主成分不足以代表原来的P个变量,因此需要寻找第二个乃至第三、第四主 成分,第二个主成分不应该再包含第一个主成分的信息,统计上的描述就是让这两个主 成分的协方差为零,几何上就是这两个主成分的方向正交。具体确定各个主成分的方法 如下。 设乙,表示第i个主成分,i=L2.,p,可设 Z1=GX1+G2X2+.+GpXp Z2=caX+cnx2+.+cx (17) Z。=cnX+cpX2++cpX 其中对每一个i,均有c后+c经+.+c2=l,且(cu,c,.,Cp)使得Var(Z)的值达 到最大:(C2,c2,C2p)不仅垂直于(c,c,Gp),而且使Var(Z)的值达到最大 (9C2,Cp)同时垂直于(C,C2,.,Cp)和(C21,C2,.,C2p),并使Var(Z)的值 达到最大:以此类推可得全部P个主成分,这项工作用手做是很繁琐的,但借助于计 算机很容易完成。剩下的是如何确定主成分的个数,我们总结在下面几个注意事项中 1)主成分分析的结果受量纲的影响,由于各变最的单位可能不一样 如果各自改 变量纲,结果会不一样,这是主成分分析的最大问题,回归分析是不存在这种情况的 所以实际中可以先把各变量的数据标准化,然后使用协方差矩阵或相关系数矩阵进行分 析。 2)为使方差达到最大的主成分分析,所以不用转轴(由于统计软件常把主成分分 析和因子分析放在 一起,后者往往需要转轴,使用时应注意)。 3)主成分的保留。用相关系数矩阵求主成分时,Kaiser主张将特征值小于1的主成 分予以放弃(这也是SPSS软件的默认值)。 4)在实际研究中,由于主成分的目的是为了降维,减少变量的个数,故一般选取 少量的主成分(不超过5或6个),只要它们能解释变异的70%~80%(称累积贡献率) 就行 下面我们直接通过主成分估计(principleestimate)进一步阐述主成分分析的基 本思想和相关概念。 3.2主成分估计 -461
-461- 义,通常规定 1 2 2 2 2 c1 + c +"+ c p = (16) 在此约束下,求(15)式的最优解。由于这个解是 p − 维空间的一个单位向量,它代表 一个“方向”,它就是常说的主成分方向。 一个主成分不足以代表原来的 p 个变量,因此需要寻找第二个乃至第三、第四主 成分,第二个主成分不应该再包含第一个主成分的信息,统计上的描述就是让这两个主 成分的协方差为零,几何上就是这两个主成分的方向正交。具体确定各个主成分的方法 如下。 设 Zi 表示第i 个主成分,i = 1,2,", p ,可设 ⎪ ⎪ ⎩ ⎪ ⎪ ⎨ ⎧ = + + + = + + + = + + + p p p pp p p p p p Z c X c X c X Z c X c X c X Z c X c X c X " """""""""""" " " 1 1 2 2 2 21 1 22 2 2 1 11 1 12 2 1 (17) 其中对每一个i ,均有 1 2 2 2 2 ci1 + ci +"+ cip = ,且( , , , ) 11 12 1p c c " c 使得 Var( ) Z1 的值达 到最大;( , , , ) 21 22 2 p c c " c 不仅垂直于( , , , ) 11 12 1p c c " c ,而且使 Var( ) Z2 的值达到最大; ( , , , ) 31 32 3 p c c " c 同时垂直于( , , , ) 11 12 1p c c " c 和( , , , ) 21 22 2 p c c " c ,并使 Var( ) Z3 的值 达到最大;以此类推可得全部 p 个主成分,这项工作用手做是很繁琐的,但借助于计 算机很容易完成。剩下的是如何确定主成分的个数,我们总结在下面几个注意事项中。 1)主成分分析的结果受量纲的影响,由于各变量的单位可能不一样,如果各自改 变量纲,结果会不一样,这是主成分分析的最大问题,回归分析是不存在这种情况的, 所以实际中可以先把各变量的数据标准化,然后使用协方差矩阵或相关系数矩阵进行分 析。 2)为使方差达到最大的主成分分析,所以不用转轴(由于统计软件常把主成分分 析和因子分析放在一起,后者往往需要转轴,使用时应注意)。 3)主成分的保留。用相关系数矩阵求主成分时,Kaiser主张将特征值小于1的主成 分予以放弃(这也是SPSS软件的默认值)。 4)在实际研究中,由于主成分的目的是为了降维,减少变量的个数,故一般选取 少量的主成分(不超过5或6个),只要它们能解释变异的70%~80%(称累积贡献率) 就行了。 下面我们直接通过主成分估计(principle estimate)进一步阐述主成分分析的基 本思想和相关概念。 3.2 主成分估计
主成分估计(principal component estimate)是Massy在1965年提出的,它是回 归系数参数的一种线性有偏估计(biased estimate),同其它有偏估计,如岭估计(ridge estimate)等一样,是为了克服最小二乘(LS)估计在设计阵病态(即存在多重共线性) 时表现出的不稳定性而提出的。 主成分估计采用的方法是将原来的回归自变量变换到另另一组变量,即主成分,选 择其中一部分重要的主成分作为新的自变量(此时丢弃了一部分,影响不大的自变量, 这实际达到了降维的目的),然后用最小二乘法对选取主成分后的模型参数进行估计, 最后再变换回原来的模型求出参数的估计。 设有p个回归(自)变量x,x2,.,x。,它在第1次试验中的取值为 X1,x2,.,xp(i=l,2,.,n) 将它们写成矩阵形式 x2.Xp】 . (18) (注意这里x,2,.,既表示回归自变量,又表示这些变量的观测值列向量,从上下 文中我们容易区分开。)(18)即为设计阵,考虑线性模型 Y=1+Xp+6,6~N(0,σ2), (19) 其中Y为n×1向量,B。为未知参数,1为所有元素均为1的n维列向量,B为p×1未 知参数向量,5为nx1误差向量。假定X已经标准化(即X的每个分量x均已标准 化,如果未标准化,需要作变量的标准化变换(x,一x,)/3,其中x,S,为x,各分量的 均值和标准差。),此时 (20 对于自变量的任意一个线性组合 ==c+c++c cj=1. (21) 将:视为一个新的变量。于是:在第次试验中的取值为 -462-
-462- 主成分估计(principal component estimate)是Massy在1965年提出的,它是回 归系数参数的一种线性有偏估计(biased estimate),同其它有偏估计,如岭估计(ridge estimate)等一样,是为了克服最小二乘(LS)估计在设计阵病态(即存在多重共线性) 时表现出的不稳定性而提出的。 主成分估计采用的方法是将原来的回归自变量变换到另另一组变量,即主成分,选 择其中一部分重要的主成分作为新的自变量(此时丢弃了一部分,影响不大的自变量, 这实际达到了降维的目的),然后用最小二乘法对选取主成分后的模型参数进行估计, 最后再变换回原来的模型求出参数的估计。 设有 p 个回归(自)变量 p x , x , , x 1 2 " ,它在第i 次试验中的取值为 i i ip x , x , , x 1 2 " (i = 1,2,", n ) 将它们写成矩阵形式 ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = = n n np p p p x x x x x x x x x X x x x " # # # " " " 1 2 21 22 2 11 12 1 1 2 ( , , , ) (18) (注意这里 p x , x , , x 1 2 " 既表示回归自变量,又表示这些变量的观测值列向量,从上下 文中我们容易区分开。)(18)即为设计阵,考虑线性模型 Y = β 1+ Xβ + ε 0 , ~ (0, ) 2 ε N σ I , (19) 其中Y 为 n ×1向量, β 0 为未知参数,1为所有元素均为1的n 维列向量, β 为 p ×1未 知参数向量,ε 为 n ×1误差向量。假定 X 已经标准化(即 X 的每个分量 j x 均已标准 化,如果未标准化,需要作变量的标准化变换 ij j j (x − x )/ s ,其中 j j x ,s 为 j x 各分量的 均值和标准差。),此时 ∑= = = n i Yi n Y 1 0 1 β ˆ (20) 对于自变量的任意一个线性组合 p p z = c x + c x +"+ c x 1 1 2 2 ,∑= = p j j c 1 2 1, (21) 将 z 视为一个新的变量。于是 z 在第i 次试验中的取值为