198419851986 l989 小麦亩产量(y) 116.0123.5123.0166.6118.5197.0153.0 化肥使用量(x1 农家肥使用量(x2) 108.9127.4110.1121.5137.4139.7130.0 从表2-8可以看出,小麦亩产量(y)随着化肥使用量(x)及农家肥使用 量(x2)的增加而增加,但肥料投入量的增长速度越来越高于小麦亩产量的增 长速度,其间的关系可用对数变化规律来模拟,即 y=β0+β1|nx1+β2nx2+E 在(19)式中,若令y′=y,x1=lnx1,x2=lnx2,则它可以被化为 线性形式 y=βo+β1x1+B2x2+e (19′) 变量替换后,各新变量对应的观测数据如表2-9所示 根据表2-9中的数据,计算可得:x,′1 4824l;y y=142500以及L1=∑(xn-x1)2=123464 表2-9变量替换后各新变量的对应数据 L2=L21=∑(x2-X1)(x2-x2)=0.1879 (x2-x2)2=005903 =597337 )(ya-y)=9.2856 所以,正规方程组为 1.23464bl+0.1879b2=597337 0.1879b1+0.05903b2=92856 (20 b0=142.5-1.4980b1-4.824lb2 解上述正规方程组(20)式可得 bl=47.388 b2=6.39899 因此,(19′)式所对应的线性回归方程为 y’=40.64341+47.388X1+6.39889X2 (21) 而对应于(19)式的非线性回归方程为:
年份 1984 1985 1986 1987 1988 1989 1990 序号 1 2 3 4 5 6 7 小麦亩产量( y ) 116.0 123.5 123.0 166.6 118.5 197.0 153.0 化肥使用量( x1 ) 2.21 3.96 3.77 4.28 4.00 7.32 8.66 农家肥使用量( x2 ) 108.9 127.4 110.1 121.5 137.4 139.7 130.0 从表 2-8 可以看出,小麦亩产量(y)随着化肥使用量(x1)及农家肥使用 量(x2)的增加而增加,但肥料投入量的增长速度越来越高于小麦亩产量的增 长速度,其间的关系可用对数变化规律来模拟,即 y=β0+β1lnx1+β2lnx2+ε (19) 在(19)式中,若令y′ = y,x1 ′ = lnx1,x ′ 2 = lnx2,则它可以被化为 线性形式 y = + x + x + 19 ′ β0 β1 1 ′ β2 2 ′ ε ( ′) 变量替换后,各新变量对应的观测数据如表 2-9 所示。 根据表 中的数据,计算可得: ; ′ ′ ′ ′ 2 - 9 = 1 7 x = 1.4980 = 1 7 1 a1 a=1 7 x x xa a å å= 2 2 1 7 = 4.8241; ′ ′ 以及 ′ ′ ′ y y L x x a a a a = = = - = = = å å 1 7 142 500 1 23464 11 1 1 2 1 7 1 7 . ; ( ) . ; 表 2-9 变量替换后各新变量的对应数据 L = L = (x - x )(x - x ) = 0.1879 L = (x - x ) = 0.05903 12 21 a 1 a2 2 a=1 7 22 a2 2 a=1 7 ′ ′ ′ ′ ′ ′ ′ ′ ′ ; ; å å 2 L = = 59.7337 L = (x - x )(y - y ) = 9.2856 1y a=1 7 2y a2 2 a=1 7 a ′ ′ ′ ′ ′ ′ ′ ′ ; ′ 。 (x x )(y y ) å a1 - 1 a - å 所以,正规方程组为 1.23464b1+ 0.1879b2 = 59.7337 0.1879b1+ 0.05903b2 = 9.2856 20 b0 = 142.5-1.4980b1- 4.8241b2 ( ) ì í ï î ï 解上述正规方程组(20)式可得 b0 = 40.64341 b1= 47.388 b2 = 6.39899 ì í ï î ï 因此,(19′)式所对应的线性回归方程为 y = 40.64341+ 47.388x + 6.398899x 21 ′ 1 ′ 2 ′ ( ) 而对应于(19)式的非线性回归方程为:
y=40.64341+47.388|nx1+6.39899nx2 (22)
y=40.64341+47.388lnx1+6.39899lnx2 (22)
第三节系统聚类分析方法 聚类分析,亦称群分析或点群分析,它是研究多要素事物分类问题的数 量方法。其基本原理是,根据样本自身的属性,用数学方法按照某些相似性 或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对 样本进行聚类。 聚类分析方法,是地理学中研究地理事物分类问题和地理分区问题的重 要的数量分析方法。常见的聚类分析方法有系统聚类法、动态聚类法和模糊 聚类法等。本节,我们将结合有关实例,主要介绍和探讨系统聚类分析方法 在地理学研究中的应用问题。 聚类要素的数据处理 在聚类分析中,聚类要素的选择是十分重要的,它直接影响分类结果的 准确性和可靠性。在地理分类和分区研究中,被聚类的对象常常是多个要素 构成的。不同要素的数据往往具有不同的单位和量纲,因而其数值的差异可 能是很大的,这就会对分类结果产生影响。因此当分类要素的对象确定之后, 在进行聚类分析之前,还要对聚类要索进行数据处理。 假设有m个被聚类的对象,每一个被聚类对象都有x1,x2,…,xn个要素构 成。它们所对应的要素数据可用表2-10给出。在聚类分析中,常用的聚类要 素的数据处理方法有如下几种。 聚类对象 X: M M Xm1Xm2…,Yn (1)总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素 的数据除以该要素数据的总和,即 这种标准化方法所得的新数据x。满足 (j=1, (2)标准差的标准化,即 =1,2, 2. 在(2)式中
第三节 系统聚类分析方法 聚类分析,亦称群分析或点群分析,它是研究多要素事物分类问题的数 量方法。其基本原理是,根据样本自身的属性,用数学方法按照某些相似性 或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对 样本进行聚类。 聚类分析方法,是地理学中研究地理事物分类问题和地理分区问题的重 要的数量分析方法。常见的聚类分析方法有系统聚类法、动态聚类法和模糊 聚类法等。本节,我们将结合有关实例,主要介绍和探讨系统聚类分析方法 在地理学研究中的应用问题。 一、聚类要素的数据处理 在聚类分析中,聚类要素的选择是十分重要的,它直接影响分类结果的 准确性和可靠性。在地理分类和分区研究中,被聚类的对象常常是多个要素 构成的。不同要素的数据往往具有不同的单位和量纲,因而其数值的差异可 能是很大的,这就会对分类结果产生影响。因此当分类要素的对象确定之后, 在进行聚类分析之前,还要对聚类要索进行数据处理。 假设有 m 个被聚类的对象,每一个被聚类对象都有 x1,x2,…,xn个要素构 成。它们所对应的要素数据可用表 2-10 给出。在聚类分析中,常用的聚类要 素的数据处理方法有如下几种。 要 素 聚类对象 x1 x2 … , xj …, xn 1 2 M M i m x11 x12 …, x1j …, x1n x11 x12 …, x1j …, x1n M M M M xi1 xi2 …, xij …, xin M M M M xm1 xm2 …, xmj …, xmn (1)总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素 的数据除以该要素数据的总和,即 x x x i m j n ij ij ij i m ′ … … = = = æ è ç ö ø ÷ = / å , , , , , , ( ) 1 1 2 1 2 1 这种标准化方法所得的新数据x ′ ij 满足 x j n ij i m ′ = = … = å 1 1 2 1 ( , , , ) (2)标准差的标准化,即 x x x s i m j n ij ij j j ′ … … = - = = æ è ç ö ø ÷ 1 2 1 2 2 , , , , , , ( ) 在(2)式中
x)2 由这种标准化方法所得的新数据x,各要素的平均值为0,标准 差为1,即有 1=:(x-:)/=S=吗m (3)极大值标准化,即 l,2, max 经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于 (4)极差的标准化,即 min =1,2 Xi- max(x; 3 (4) miniX l,2,… 经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余 的数值均在0与1之间。 表2-11给出了某地区九个农业区的七项经济指标,其极差标准化处理后 的数据如表2-12所示。 表2-11某地区九个农业区的七项经济指标数据 区代号「人均耕地 劳均耕地水田比重复种指数粮食亩产 人均粮食 x1(亩/人) (亩/个)|x3(%)|x4(%)|x5(公斤/亩)|x6(公斤/人) 4.41 5.63 113.60 300.70 1036.40 4.72 14.57 0.39 95.10 184.90 683.70 1.84 4.74 5.28 148.50 462.30 611.10 G 7.91 0.39 111.00 632.60 1.22 3.18 72.04 217.80 816.60 791.10 1.23 3.1643.78 179.60 598.20 636.50 1.12 2.72 65.15 194.70 712.60 634.30 440 53594.9025.30710 2.50 2.90 94.80 282.10 574.60 表2-12极差标准化处理后的数据
x m x S m j ij j xij xj i m i m = = - = = å å 1 1 2 1 1 , ( ) 由这种标准化方法所得的新数据x ′ ij ,各要素的平均值为0,标准 差为 1,即有 x m x S m j ij j xij x j i m i m ′ ′ ′ ′ = = = - = = = å å 1 0 1 1 2 1 1 , ( ) (3)极大值标准化,即 x x x i m j n ij ij ij ′ … … = = = æ è ç ö ø ÷ max{ } , , , , , , ( ) 1 2 1 2 3 经过这种标准化所得的新数据,各要素的极大值为 1,其余各数值小于 1。 (4)极差的标准化,即 x x x x x i m j n ij ij ij i ij ij = - - = = æ è ç ö ø ÷ min{ } max{ } min{ } , , , , , , 1 2 1 2 … … (4) 经过这种标准化所得的新数据,各要素的极大值为 1,极小值为 0,其余 的数值均在 0 与 1 之间。 表 2-11 给出了某地区九个农业区的七项经济指标,其极差标准化处理后 的数据如表 2-12 所示。 表 2-11 某地区九个农业区的七项经济指标数据 指 标 区代号 人均耕地 x1(亩/人) 劳均耕地 x2(亩/个) 水田比重 x3 (%) 复种指数 x4 (%) 粮食亩产 x5(公斤/亩) 人均粮食 x6 (公斤/人) G1 4.41 16.40 5.63 113.60 300.70 1036.40 G2 4.72 14.57 0.39 95.10 184.90 683.70 G3 1.84 4.74 5.28 148.50 462.30 611.10 G4 2.69 7.91 0.39 111.00 297.20 632.60 G5 1.22 3.18 72.04 217.80 816.60 791.10 G6 1.23 3.16 43.78 179.60 598.20 636.50 G7 1.12 2.72 65.15 194.70 712.60 634.30 G8 4.40 9.99 5.35 94.90 245.30 771.70 G9 2.50 6.21 2.90 94.80 282.10 574.60 表 2-12 极差标准化处理后的数据
代号 0.91 0.07 0.15 0.18 0.14 0.00 0.00 24 0.00 0.20 0.15 0.07 0.44 0.44 0.08 0.07 0.00 0.18 0.00 0.03 0.03 1.00 1.00 1.00 0.45 1.00 GGGG9 0.0 0.03 0.61 0.69 0.65 0.13 0.00 0.90 0.81 0.84 0.13 0.53 0.38 0.26 0.04 0.00 0.150.00 0.00 二、距离和相似系数的计算 距离是事物之间差异性的测度,而相似系数则是其相似性的测度,所以 距离和相似系数是聚类分析的依据和基础。当聚类要素的数据处理工作完成 以后,就要计算分类对象之间的距离或相似系数,并依据距离或相似系数的 矩阵结构进行聚类。 (一)距离的计算 如果我们把每一个分类对象的n个聚类要素看成n维空间的n个坐标 轴,则每一个分类对象的n个要素所构成的n维数据向量就是n维空间中的 一个点。这样,各分类对象之间的差异性就可以由它们所对应的n维空间中 点之间的距离度量。常用的距离有 (1)绝对值距离 (1,j=1,2, (2)欧氏距离 (6) (3)明科夫斯基距离 d=∑|x (1,J=1,2,…,m) (7) (7)式中,p≥1。当p=1时,它就是绝对值距离;当p=2时,它就是欧 氏距离。 (4)切比雪夫距离。当明科夫斯基距离p→∞时,有 di max]x (1,j=1,2 选择不同的距离,聚类结果会有所差异。在地理分区和分类研究中,往 往采用几种距离进行计算、对比,选择一种较为合理的距离进行聚类。 据表2-12中的数据,用公式(5)式计算可得九个农业区之间的绝对值距 离矩阵如下:
指 标 区代号 x1 x2 x3 x4 x5 x6 x7 G1 0.91 1.00 0.07 0.15 0.18 1.00 0.14 G2 1.00 0.87 0.00 0.00 0.00 0.24 0.00 G3 0.20 0.15 0.07 0.44 0.44 0.08 0.07 G4 0.44 0.38 0.00 0.13 0.18 0.13 0.00 G5 0.03 0.03 1.00 1.00 1.00 0.45 1.00 G6 0.03 0.03 0.61 0.69 0.65 0.13 0.59 G7 0.00 0.00 0.90 0.81 0.84 0.13 1.00 G8 0.91 0.53 0.07 0.00 0.10 0.43 0.09 G9 0.38 0.26 0.04 0.00 0.15 0.00 0.00 二、距离和相似系数的计算 距离是事物之间差异性的测度,而相似系数则是其相似性的测度,所以 距离和相似系数是聚类分析的依据和基础。当聚类要素的数据处理工作完成 以后,就要计算分类对象之间的距离或相似系数,并依据距离或相似系数的 矩阵结构进行聚类。 (一)距离的计算 如果我们把每一个分类对象的 n 个聚类要素看成 n 维空间的 n 个坐标 轴,则每一个分类对象的 n 个要素所构成的 n 维数据向量就是 n 维空间中的 一个点。这样,各分类对象之间的差异性就可以由它们所对应的 n 维空间中 点之间的距离度量。常用的距离有 (1)绝对值距离 d ij xik x jk i j m k n = - = = å| | ( , 1, 2, , ) (5) 1 … (2)欧氏距离 dij xik x jk i j m k n = - = = å( ) ( , , , , ) 2 1 1 2 … (6) (3)明科夫斯基距离 d ij xik x jk i j m p k n p = - é ë ê ù û ú = = å| | ( , , , , ) 1 1 1 2 … (7) (7)式中,p≥1。当 p=1 时,它就是绝对值距离;当 p=2 时,它就是欧 氏距离。 (4)切比雪夫距离。当明科夫斯基距离 p→∞时,有 dij = max|xik - x jk | (i, j = 1, 2, …, m) (8) 选择不同的距离,聚类结果会有所差异。在地理分区和分类研究中,往 往采用几种距离进行计算、对比,选择一种较为合理的距离进行聚类。 据表 2-12 中的数据,用公式(5)式计算可得九个农业区之间的绝对值距 离矩阵如下: