2)夹角余弦 也可以直接利用两变量x与x的夹角余弦rk来定义它们的相似性度量,有 xi ik 各种定义的相似度量均应具有以下两个性质 a)pr≤1,对于一切jk 越接近1,x,与x越相关或越相似。/越接近零,x与x的相似性越弱 1.3.2变量聚类法 类似于样本集合聚类分析中最常用的最短距离法、最长距离法等,变量聚类法采用 了与系统聚类法相同的思路和过程。在变量聚类问题中,常用的有最大系数法、最小系 数法等。 1)最大系数法 在最大系数法中,定义两类变量的距离为 R(G, G2)=max(rk) (12) 这时,R(G1,G2)等于两类中最相似的两变量间的相似性度量值 2)最小系数法 在最小系数法中,定义两类变量的距离为 R(G, G2)=min(rk) 这时,R(G1,G2)等于两类中相似性最小的两个变量间的相似性度量值 例2服装标准制定中的变量聚类法 在服装标准制定中,对某地成年女子的各部位尺寸进行了统计,通过14个部位的测 量资料,获得各因素之间的相关系数表(见表2)。 表5成年女子各部位相关系数
-453- 2)夹角余弦 也可以直接利用两变量 j x 与 k x 的夹角余弦 jk r 来定义它们的相似性度量,有 2 1 1 2 1 2 1 ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ = ∑ ∑ ∑ = = = n i ik n i ij n i ij ik jk x x x x r (11) 各种定义的相似度量均应具有以下两个性质: a) rjk ≤1,对于一切 j, k ; b) jk kj r = r ,对于一切 j, k 。 jk r 越接近1, j x 与 k x 越相关或越相似。 jk r 越接近零, j x 与 k x 的相似性越弱。 1.3.2 变量聚类法 类似于样本集合聚类分析中最常用的最短距离法、最长距离法等,变量聚类法采用 了与系统聚类法相同的思路和过程。在变量聚类问题中,常用的有最大系数法、最小系 数法等。 1)最大系数法 在最大系数法中,定义两类变量的距离为 ( , ) max{ } 2 1 1 2 jk x G x G R G G r k j ∈ ∈ = , (12) 这时, ( , ) R G1 G2 等于两类中最相似的两变量间的相似性度量值。 2)最小系数法 在最小系数法中,定义两类变量的距离为 ( , ) min{ } 2 1 1 2 jk x G x G R G G r k j ∈ ∈ = , (13) 这时, ( , ) R G1 G2 等于两类中相似性最小的两个变量间的相似性度量值。 例2 服装标准制定中的变量聚类法。 在服装标准制定中,对某地成年女子的各部位尺寸进行了统计,通过14个部位的测 量资料,获得各因素之间的相关系数表(见表2)。 表5 成年女子各部位相关系数 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10 x 11 x 12 x 13 x 14 x
0.3661 x30.2420.2331 x40.280.1940.59 x530.360.3240.4760.4351 x60.2820.2620.4830.470.4521 x0.2450.2650.540.4780.5350.6631 x0.4480.3450.4520.4040.4310.3220.2661 x。0.4860.3670.3650.3570.4290.2830.2870.82 0.6480.6620.2160.0320.4290.2830.2630.5270.5471 x10.6890.6710.2430.3130.430.3020.2940.520.580.9571 x20.4860.6360.1740.2430.3750.2960.2550.4030.4170.8570.8521 x,0.1330.1530.7320.4770.3390.3920.4460.2660.2410.0540.0990.0551 x。037602520.6760510.410470.40424037203630.376032106271 其中x1一上体长,x2-手臂长,x3-胸围,x4-颈围,x5-总肩围,x6-总胸宽, 后背宽,x8-前腰节高,x-后腰节高,x0-总体长,x1-身高,x12-下体长,x13 腰围,x14-臀围。用最大系数法对这14个变量进行系统聚类,分类结果如图3 图3成年女子14个部位指标的聚类图 454
-454- 1 x 1 2 x 0.366 1 3 x 0.242 0.233 1 4 x 0.28 0.194 0.59 1 5 x 0.36 0.324 0.476 0.435 1 6 x 0.282 0.262 0.483 0.47 0.452 1 7 x 0.245 0.265 0.54 0.478 0.535 0.663 1 8 x 0.448 0.345 0.452 0.404 0.431 0.322 0.266 1 9 x 0.486 0.367 0.365 0.357 0.429 0.283 0.287 0.82 1 10 x 0.648 0.662 0.216 0.032 0.429 0.283 0.263 0.527 0.547 1 11 x 0.689 0.671 0.243 0.313 0.43 0.302 0.294 0.52 0.558 0.957 1 12 x 0.486 0.636 0.174 0.243 0.375 0.296 0.255 0.403 0.417 0.857 0.852 1 13 x 0.133 0.153 0.732 0.477 0.339 0.392 0.446 0.266 0.241 0.054 0.099 0.055 1 14 x 0.376 0.252 0.676 0.581 0.441 0.447 0.44 0.424 0.372 0.363 0.376 0.321 0.627 1 其中 x1 − 上体长,x2 − 手臂长,x3 − 胸围,x4 − 颈围,x5 − 总肩围,x6 − 总胸宽,x7 − 后背宽,x8 − 前腰节高,x9 −后腰节高,x10 −总体长,x11 − 身高,x12 −下体长,x13 − 腰围, x14 −臀围。用最大系数法对这14个变量进行系统聚类,分类结果如图3。 10 11 12 2 1 8 9 3 13 14 4 5 6 7 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 图3 成年女子14个部位指标的聚类图
计算的 MATLAB程序如下: %把下三角相关系数矩阵粘贴到纯文本文件ch.txt中 a= textread(ch.txt’) for i=l: 1 a(i,i)=0; ( b=nonzeros(b): b=b: b=1-b z=linkage(b, complete') dendrogram (z) dl=find (y==2): indl=ind1 ind2=find (y==1): ind2=ind2 可以看出,人体的变量大体可以分为两类:一类反映人高、矮的变量,如上体长, 手臂长,前腰节高,后腰节高,总体长,身高,下体长;另一类是反映人体胖瘦的变量, 如胸围,颈围,总肩围,总胸宽,后背宽,腰围,臀围。 §2聚类分析案例一我国各地区普通高等教育发展状况分析 聚类分析又称群分析,是对多个样本(或指标)进行定量分类的一种多元统计分析 方法。对样本进行分类称为Q型聚类分析,对指标进行分类称为R型聚类分析。本案例 运用Q型和R型聚类分析方法对我国各地区普通高等教育的发展状况进行分析 1.案例研究背景 近年来,我国普通高等教育得到了迅速发展,为国家培养了大批人才。但由于我国 各地区经济发展水平不均衡,加之高等院校原有布局使各地区高等教育发展的起点不 致,因而各地区普通高等教育的发展水平存在一定的差异,不同的地区具有不同的特 点。对我国各地区普通高等教育的发展状况进行聚类分析,明确各类地区普通高等教育 发展状况的差异与特点,有利于管理和决策部门从宏观上把握我国普通高等教育的整体 发展现状,分类制定相关政策,更好的指导和规划我国高教事业的整体健康发展。 2.案例研究过程 (1)建立综合评价指标体系 高等教育是依赖高等院校进行的,高等教育的发展状况主要体现在高等院校的相 关方面。遵循可比性原则,从高等教育的五个方面选取十项评价指标,具体如图4 (2)数据资料 指标的原始数据取自《中国统计年鉴,1995》和《中国教育统计年鉴,1995》除以 各地区相应的人口数得到十项指标值见表6。其中:x1为每百万人口高等院校数;x2为 每十万人口高等院校毕业生数;x3为每十万人口高等院校招生数;x4为每十万人口高 等院校在校生数;x为每十万人口高等院校教职工数;x6为每十万人口高等院校专职 455
-455- 计算的MATLAB程序如下: %把下三角相关系数矩阵粘贴到纯文本文件ch.txt中 a=textread('ch.txt'); for i=1:14 a(i,i)=0; end b=a(:);b=nonzeros(b);b=b';b=1-b; z=linkage(b,'complete'); y=cluster(z,2) dendrogram(z) ind1=find(y==2);ind1=ind1' ind2=find(y==1);ind2=ind2' 可以看出,人体的变量大体可以分为两类:一类反映人高、矮的变量,如上体长, 手臂长,前腰节高,后腰节高,总体长,身高,下体长;另一类是反映人体胖瘦的变量, 如胸围,颈围,总肩围,总胸宽,后背宽,腰围,臀围。 §2 聚类分析案例—我国各地区普通高等教育发展状况分析 聚类分析又称群分析,是对多个样本(或指标)进行定量分类的一种多元统计分析 方法。对样本进行分类称为Q型聚类分析,对指标进行分类称为R型聚类分析。本案例 运用Q型和R型聚类分析方法对我国各地区普通高等教育的发展状况进行分析。 1.案例研究背景 近年来,我国普通高等教育得到了迅速发展,为国家培养了大批人才。但由于我国 各地区经济发展水平不均衡,加之高等院校原有布局使各地区高等教育发展的起点不一 致,因而各地区普通高等教育的发展水平存在一定的差异, 不同的地区具有不同的特 点。对我国各地区普通高等教育的发展状况进行聚类分析,明确各类地区普通高等教育 发展状况的差异与特点,有利于管理和决策部门从宏观上把握我国普通高等教育的整体 发展现状,分类制定相关政策,更好的指导和规划我国高教事业的整体健康发展。 2.案例研究过程 (1)建立综合评价指标体系 高等教育是依赖高等院校进行的,高等教育的发展状况主要体现在高等院校的相 关方面。遵循可比性原则,从高等教育的五个方面选取十项评价指标,具体如图4。 (2)数据资料 指标的原始数据取自《中国统计年鉴,1995》和《中国教育统计年鉴,1995》除以 各地区相应的人口数得到十项指标值见表 6。其中: 1 x 为每百万人口高等院校数; 2 x 为 每十万人口高等院校毕业生数; 3 x 为每十万人口高等院校招生数; 4 x 为每十万人口高 等院校在校生数; 5 x 为每十万人口高等院校教职工数; 6 x 为每十万人口高等院校专职
教师数;x,为高级职称占专职教师的比例;x3为平均每所高等院校的在校生数;x为 国家财政预算内普通高教经费占国内生产总值的比重;x0为生均教育经费 平均所高校在校生数 百万人囗学权数 年十万人口毕业生数 每十万人口招生数 生数量 每十丁人口教职工魏数 教职工情况 每十万人口专职教师数效 高级职称占专职教冲的比例 经費极入 平均教育好费 图4高等教育的十项评价指标 表6我国各地区普通高等教育发展状况数据 xA xa x6 北京5%631046115579131941462652013631 3.39234308103549816135.023052 津2.35157291329510938403031869385 陕西1.35811113641505830.4526991.227881 辽宁1.50881284211445834.302808.547733 吉林 16786 1535833.532215.767480 黑龙江|1.1 35222528.588570 湖北1.0567 32892835 667262 江苏.956494 287 31543008397786 34.502988 四川564051m62 32623149|.5 32953202286805 肃 28132657 7282 湖南 33.06|2618 g4;mk2363m4 21863 099.297106 53 21876 25632555435580 河北 8143 61 29.822313 315704
-456- 教师数; 7 x 为高级职称占专职教师的比例; 8 x 为平均每所高等院校的在校生数; 9 x 为 国家财政预算内普通高教经费占国内生产总值的比重; 10 x 为生均教育经费。 图4 高等教育的十项评价指标 表6 我国各地区普通高等教育发展状况数据 地区 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10 x 北京 5.96 310 461 1557 931 319 44.36 2615 2.20 13631 上海 3.39 234 308 1035 498 161 35.02 3052 .90 12665 天津 2.35 157 229 713 295 109 38.40 3031 .86 9385 陕西 1.35 81 111 364 150 58 30.45 2699 1.22 7881 辽宁 1.50 88 128 421 144 58 34.30 2808 .54 7733 吉林 1.67 86 120 370 153 58 33.53 2215 .76 7480 黑龙江 1.17 63 93 296 117 44 35.22 2528 .58 8570 湖北 1.05 67 92 297 115 43 32.89 2835 .66 7262 江苏 .95 64 94 287 102 39 31.54 3008 .39 7786 广东 .69 39 71 205 61 24 34.50 2988 .37 11355 四川 .56 40 57 177 61 23 32.62 3149 .55 7693 山东 .57 58 64 181 57 22 32.95 3202 .28 6805 甘肃 .71 42 62 190 66 26 28.13 2657 .73 7282 湖南 .74 42 61 194 61 24 33.06 2618 .47 6477 浙江 .86 42 71 204 66 26 29.94 2363 .25 7704 新疆 1.29 47 73 265 114 46 25.93 2060 .37 5719 福建 1.04 53 71 218 63 26 29.01 2099 .29 7106 山西 .85 53 65 218 76 30 25.63 2555 .43 5580 河北 .81 43 66 188 61 23 29.82 2313 .31 5704
安徽 47 146 2032.832488335628 南 L西 南 16547 27.342344287928 内蒙古:8443 2927652032325581 西藏 16926 45 37753312.10810100 广西 43129391731.932146245139 宁夏 1.39 342270150042|5377 贵州 37 28.12 345415 青海1483846 151633017871024387368 (3)R型聚类分析 定性考察反映高等教育发展状况的五个方面十项评价指标,可以看出,某些指标之 间可能存在较强的相关性。比如每十万人口高等院校毕业生数、每十万人口高等院校招 生数与每十万人口高等院校在校生数之间可能存在较强的相关性,每十万人口高等院 校教职工数和每十万人口高等院校专职教师数之间可能存在较强的相关性。为了验证这 种想法,运用 MATLAB软件计算十个指标之间的相关系数,相关系数矩阵如表6所示。 表6相关系数矩阵 100004340952809591097460979804065100663086800609 094341.0000.99460.99460.97430970206136035000.80390.5998 095280.9946100000.99870.98310.98070.62610.34450.82310.6171 095910.9946099871.00000.9878098560.60960.32560.82760.6124 0.974609743098310.98781000109960.599024110859006174 097980970209807098560998610005500022210:869106164 040650.61360626106090.55990.55001.00040.7890.36550.1510 0.0663035000.34450.32560.241102220778910000.220.0482 0.86800.80390.82310.82760.85900.86910.36550.1221.00000.6833 0.66090.599806171061240.61740.61640.1510 8331000 可以看出某些指标之间确实存在很强的相关性,因此可以考虑从这些指标中选取
-457- 安徽 .59 35 47 146 46 20 32.83 2488 .33 5628 云南 .66 36 40 130 44 19 28.55 1974 .48 9106 江西 .77 43 63 194 67 23 28.81 2515 .34 4085 海南 .70 33 51 165 47 18 27.34 2344 .28 7928 内蒙古 .84 43 48 171 65 29 27.65 2032 .32 5581 西藏 1.69 26 45 137 75 33 12.10 810 1.00 14199 河南 .55 32 46 130 44 17 28.41 2341 .30 5714 广西 .60 28 43 129 39 17 31.93 2146 .24 5139 宁夏 1.39 48 62 208 77 34 22.70 1500 .42 5377 贵州 .64 23 32 93 37 16 28.12 1469 .34 5415 青海 1.48 38 46 151 63 30 17.87 1024 .38 7368 (3)R型聚类分析 定性考察反映高等教育发展状况的五个方面十项评价指标,可以看出,某些指标之 间可能存在较强的相关性。比如每十万人口高等院校毕业生数、每十万人口高等院校招 生数与每十万人口高等院校在校生数之间可能存在较强的相关性, 每十万人口高等院 校教职工数和每十万人口高等院校专职教师数之间可能存在较强的相关性。为了验证这 种想法,运用MATLAB软件计算十个指标之间的相关系数,相关系数矩阵如表6所示。 表6 相关系数矩阵 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10 x 1 x 1.0000 0.9434 0.9528 0.9591 0.9746 0.9798 0.4065 0.0663 0.8680 0.6609 2 x 0.9434 1.0000 0.9946 0.9946 0.9743 0.9702 0.6136 0.3500 0.8039 0.5998 3 x 0.9528 0.9946 1.0000 0.9987 0.9831 0.9807 0.6261 0.3445 0.8231 0.6171 4 x 0.9591 0.9946 0.9987 1.0000 0.9878 0.9856 0.6096 0.3256 0.8276 0.6124 5 x 0.9746 0.9743 0.9831 0.9878 1.0000 0.9986 0.5599 0.2411 0.8590 0.6174 6 x 0.9798 0.9702 0.9807 0.9856 0.9986 1.0000 0.5500 0.2222 0.8691 0.6164 7 x 0.4065 0.6136 0.6261 0.6096 0.5599 0.5500 1.0000 0.7789 0.3655 0.1510 8 x 0.0663 0.3500 0.3445 0.3256 0.2411 0.2222 0.7789 1.0000 0.1122 0.0482 9 x 0.8680 0.8039 0.8231 0.8276 0.8590 0.8691 0.3655 0.1122 1.0000 0.6833 10 x 0.6609 0.5998 0.6171 0.6124 0.6174 0.6164 0.1510 0.0482 0.6833 1.0000 可以看出某些指标之间确实存在很强的相关性,因此可以考虑从这些指标中选取