在(19)式中,n为样本数,k为自变量个数。对于前述计算得出的复相关系 数R413=0.974,由于n=23,k=3,故 0974 F × 120.1907 1-0974 3 查F检验的临界值表(见本书附录),可以得出不同显著水平上的临界值 Fa,若F>F0.01,则表示复相关在置信度水平a=0.01上显著,称为极显著 若F0.05<F≤F.01,则表示复相关在置信度水平a=0.05上显著;若Fo.1o≤F ≤F0.05,则表示复相关在置信度水平a=0.10上显著;若F>F0.10,则表示复 相关不显著,即因变量Y与K个自变量之间的关系不密切。在上例中, F=120.1907>F001=5.0103,故复相关达到了极显著水平
在(19)式中,n 为样本数,k 为自变量个数。对于前述计算得出的复相关系 数 R4·123=0.974,由于 n=23,k=3,故 F = - - - = 0 974 1 0974 23 3 1 3 1201907 2 . . × . 查 F-检验的临界值表(见本书附录Ⅱ),可以得出不同显著水平上的临界值 Fa,若 F>F0.01,则表示复相关在置信度水平 a=0.01 上显著,称为极显著; 若 F0.05<F≤F0.01,则表示复相关在置信度水平 a=0.05 上显著;若 F0.10≤F ≤F0.05,则表示复相关在置信度水平 a=0.10 上显著;若 F>F0.10,则表示复 相关不显著,即因变量 Y 与 K 个自变量之间的关系不密切。在上例中, F=120.190 7>F0.01=5.0103,故复相关达到了极显著水平
第二节地理要素间的回归分析 地理要素间的相关分析揭示了诸地理要素之间相互关系的密切程度。然 而诸要素之间相互关系的进一步具体化,譬如某一地理要素与其它地理要素 之间的相互关系若能用一定的函数形式予以近似的表达,那么其实用意义将 会更大。在复杂地理系统中,某些要素的变化很难预测或控制,相反,另外 些要素则容易被预测或控制。在这种复杂地理系统中,若能在某些难测难 控的要素与其它易测易控的要素之间建立一种近似的函数表达式,则就可以 比较容易地通过那些易测易控要素的变化情况去了解那些难测难控的要素的 变化情况。数理统计学为我们提供了回归分析方法,是研究要素之间具体的 数量关系的一种强有力的手段,借助于这种方法,可以建立地理要素之间的 相关关系模型——回归分析模型。 现代地理科学研究的对象是多层次多要素的复杂系统,其要素之间的相 互关系,既有线性的,也有非线性的。因此,地理要素之间的回归分析模型, 既有线性回归模型,也有非线性回归模型。但是在回归分析研究中,许多非 线性模型都可以通过变量变换将其转化为线性模型来处理。下面我们首先来 介绍地理要素之间的线性回归模型。 元线性回归模型 元线性回归模型描述的是两个要素(变量)之间的线性相关关系。假设 有两个地理要素(变量)x和y,x为自变量,y为因变量。则,一元线性回归 模型的基本结构形式为 y=a+bx, (1) 在(1)式中,a和b为待定参数;a=1,2,…,n为n组观测数据(x1,y1), 2,y2),…,(xn,y)的下标;εa为随机变量。如果记a和b分别为参 数a与b的拟合值,便得一元线性回归模型 (2)式代表x与y之间相关关系的拟合直线,常称为回归直线;y是 y的估计值,亦称回归值。 (一)参数a、b的最小二乘估计 实际观测值y;与回归值y之差e;1=y;-yi,刻画了y;与y的偏 离程度,即表示实际观测值与回归估计值之间的误差大小。参数a与b的最 小二乘拟合原则要求y与y,的误差e1的平方和达到最小,即 (y;-a-bx;)→>min 根据取极值的必要条件,有 da
第二节 地理要素间的回归分析 地理要素间的相关分析揭示了诸地理要素之间相互关系的密切程度。然 而诸要素之间相互关系的进一步具体化,譬如某一地理要素与其它地理要素 之间的相互关系若能用一定的函数形式予以近似的表达,那么其实用意义将 会更大。在复杂地理系统中,某些要素的变化很难预测或控制,相反,另外 一些要素则容易被预测或控制。在这种复杂地理系统中,若能在某些难测难 控的要素与其它易测易控的要素之间建立一种近似的函数表达式,则就可以 比较容易地通过那些易测易控要素的变化情况去了解那些难测难控的要素的 变化情况。数理统计学为我们提供了回归分析方法,是研究要素之间具体的 数量关系的一种强有力的手段,借助于这种方法,可以建立地理要素之间的 相关关系模型——回归分析模型。 现代地理科学研究的对象是多层次多要素的复杂系统,其要素之间的相 互关系,既有线性的,也有非线性的。因此,地理要素之间的回归分析模型, 既有线性回归模型,也有非线性回归模型。但是在回归分析研究中,许多非 线性模型都可以通过变量变换将其转化为线性模型来处理。下面我们首先来 介绍地理要素之间的线性回归模型。 一、一元线性回归模型 一元线性回归模型描述的是两个要素(变量)之间的线性相关关系。假设 有两个地理要素(变量)x 和 y,x 为自变量,y 为因变量。则,一元线性回归 模型的基本结构形式为 ya=a+bxa+εa (1) 在(1)式中, a 和 b 为待定参数;a=1,2,…,n 为 n 组观测数据(x1,y1), (x2,y2),…,(xn,yn)的下标;εa为随机变量。如果记 a 和 b 分别为参 数 a 与 b 的拟合值,便得一元线性回归模型 (2)式代表x与y之间相关关系的拟合直线,常称为回归直线; y 是 Ù y 的估计值,亦称回归值。 (一)参数 a、b 的最小二乘估计 实际观测值yi与回归值 yi 之差e i = yi - yi,刻画了yi与 yi 的偏 Ù Ù Ù 离程度,即表示实际观测值与回归估计值之间的误差大小。参数 a 与 b 的最 小二乘拟合原则要求y i 与 yi 的误差ei的平方和达到最小,即 Ù Q e y y y a bx i i n i i i n i i i n = = - = - - ® = Ù = = å å å 2 1 1 2 1 2 3 ( ) ( ) min ( ) 根据取极值的必要条件,有 ¶ ¶ ¶ ¶ Q a y a bx Q b y a bx x i i i n i i i i n = - - - = = - - - = ì í ï ï î ï ï = = å å 2 0 2 0 1 1 ( ) ( ) 即
(y bx;)=0 (y1-a-bx1)x;=0 上述方程组可以进一步写成 ma+∑X ∑ 方程组(4)式通常被称为正规方程组,它又可以被写成矩阵形式 X 解上述正规方程组(4)式或(4′)式,就可以得到关于参数a与b的拟 合值 ∑(x,-Xy, ∑(x;-x)2 Xiy X 在(5)式和(6)式中,x和y分别为x和y;(i=1,2,…,n)的平均值 即 Xi, y y 建立一元线性回归模型的过程,就是用变量x和y;的实际观测数据确 定参数a和b的最小二乘估计值a和b的过程。现在,我们用表2-1中的数据 建立某地区农业总产值(y)与粮食总产量(x)之间的一元线性回归模型。 回归系数a和b的拟合值分别为
( ) ( ) y a bx y a bx x i i i n i i i n i - - = - - = ì í ï ï î ï ï = = å å 1 1 0 0 上述方程组可以进一步写成 na x b y x a x b x y i i n i i n i i n i i n i i i n + æ è ç ö ø ÷ = æ è ç ö ø ÷ + æ è ç ö ø ÷ = ì í ï ï î ï ï = = = = = å å å å å 1 1 1 2 1 1 (4) 方程组(4)式通常被称为正规方程组,它又可以被写成矩阵形式 n x x x a b y x y i i n i i n i i n i i n i i i n = = = = = å å å å å é ë ê ê ê ê ù û ú ú ú ú é ë ê ê ê ù û ú ú ú = é ë ê ê ê ê ù û ú ú ú ú 1 1 2 1 1 1 (4) 解上述正规方程组(4)式或(4′)式,就可以得到关于参数 a 与 b 的拟 合值: a y b x Ù Ù = - (5) b L Lx x x y y x x x y n x y x n x xy x i i i n i i n i i i n i i n i i n i i i n i n = = - - - = - æ è ç ö ø ÷ æ è ç ö ø ÷ - æ è ç ö ø ÷ = = = = = = = å å å å å å å ( )( ) ( ) ( ) 1 2 1 1 1 1 2 1 2 1 1 1 6 在(5)式和(6)式中,x和y分别为xi和yi(i = 1,2,…, n) 的平均值 , 即 x = 1 n x y n y i i n i i n = = å = å 1 1 1 , 。 建立一元线性回归模型的过程,就是用变量 xi和 yi的实际观测数据确 定参数a和b的最小二乘估计值a 和 b 的过程。现在,我们用表2 -1中的数据 Ù Ù , 建立某地区农业总产值(y)与粮食总产量(x)之间的一元线性回归模型。 回归系数 a 和 b 的拟合值分别为
10 x 8371 1 ×240×336 =0085278 10 ×(240) ×336-0.085278××240=1313328 故该地区农业总产值(y)与粮食总产量(x)之间的回归方程为 y=1.313328+0.085278x 元线性回归模型显著性检验 回归模型建立之后,需要对模型的可信度进行检验,以鉴定模型的质量。 线性回归方程的显著性检验是借助于F检验来完成的。 在回归分析中,y的n次观测值y1,y2…,yn之间的差异,可用观测 值y,与其平均值y的离差平方和来表示,它被称为总的离差平方和,记为 (8) 可以证明 (y;-y) (9)式中,Q=∑(y1-y,)称为误差平方和,或剩余平方和,而 ∑(-y)2=∑( (a+bx -a-bx 2∑(x x)2=b LXx=bL 称为回归平方和 由(φ9)式可以看出,当υ对Ly的贡献越大时,Q的影响就越小,回归模型的 效果就越好。这样,就可以由统计量F=U/ (10) 衡量回归模型的效果,显然F越大,就意味着模型的效果越佳。事实上,统 计量F-F(1,n-2)。在显著水平a下,若F>F。(1,m-2),则认为回归方程 效果在此水平下显著。一般地,当F<F0.10(1,n-2)时,则认为方程效果不 明显。对于回归方程()式,我们有
b L L x y x y x x xy xx i i i i i i i i i i i Ù = = = = = = = - æ è ç ö ø ÷ æ è ç ö ø ÷ - æ è ç ö ø ÷ = - - = å å å å å 1 10 1 10 8371 1 10 240 336 6120 1 10 240 0085278 1 10 1 10 1 10 2 1 10 2 1 10 2 . . ( ) . × × × a y bx Ù Ù = - = - = 1 10 336 0 085278 1 10 × . . × ×240 1.313328 故该地区农业总产值(y)与粮食总产量(x)之间的回归方程为 y = 1.313328 + 0.085278x 7 Ù ( ) (二)一元线性回归模型显著性检验 回归模型建立之后,需要对模型的可信度进行检验,以鉴定模型的质量。 线性回归方程的显著性检验是借助于 F 检验来完成的。 在回归分析中,y 的 n 次观测值 y1,y2…,yn之间的差异,可用观测 值yi与其平均值y的离差平方和来表示,它被称为总的离差平方和,记为 S Lyy yi y i n 总 = = - ( ) = å( ) 1 2 8 可以证明 S L y y y y y y Q U yy i i n i i i n i i n 总 = = - = - + - = + = Ù = Ù = å å å ( ) ( ) ( ) ( ) 2 1 2 1 1 2 9 (9)式中,Q = (y i y i ) 称为误差平方和,或剩余平方和,而 i n - Ù = å 2 1 U y yi a bx a bx b x x b Lxx bL i i N i i n i i n xy = - = + - - = - = = Ù = = = å å å ( ) ( ) ( ) 2 1 2 1 2 2 1 2 称为回归平方和。 由(9)式可以看出,当 U 对 Lyy的贡献越大时,Q 的影响就越小,回归模型的 效果就越好。这样,就可以由统计量 F U Q n = - / ( ) 2 10 衡量回归模型的效果,显然 F 越大,就意味着模型的效果越佳。事实上,统 计量 F—F(1,n-2)。在显著水平 a 下,若 F>Fa(1,n-2),则认为回归方程 效果在此水平下显著。一般地,当 F<F0.10(1,n-2)时,则认为方程效果不 明显。对于回归方程(7)式,我们有
S=Lx=∑y;-y)2=30840 U=bL=0.085278×30.7000=2.6180346 Q=S-U=3.0840-2.6180346-0.4659654 所以 26180346 F=U/ Q 0465964≈44948137 在置信水平a=0.01下查F分布表得:F0.01(1,8)=116由于F=44.948137 >Fo1(1,g)=11.6,所以回归方程(7)式在置信水平a=0.01下是显著的。 二、多元线性回归模型 在多要素的地理系统中,除了在某两个要素之间存在着相互作用和影响 而发生某种相关外,在若干个(多于两个)要素之间也存在着相关影响、相互 关联的情况。因此,多元地理回归模型更带有普遍性的意义。 (一)多元线性回归模型的建立 假设某一因变量y受k个自变量x1,x2,…,X的影响,其n组观测值 为(ya,xa1,xa2,…,xa),a-1,2,…,n。那么,多元线性回归模型的 结构形式为 y=βo+β1xa1+B2Xa2+…+ Break+Ea (11) 在(11)式中,β0,β1,…,βk为待定参数,εa为随机变量。如果b b1,…b分别为β。,β1,β2,…,βk的拟合值,则得回归方程 y=b+bx1+b2x2+…+bxk (12) 在(12)式中,b为常数,b1,b2,…,b被称为偏回归系数。偏回归系 数b;(;=1,2,…,H的意义是,当其它自变量x(j≠i)都固定时,自变量x 每变化一个单元而使因变量y平均改变的数值。 根据最小二乘法原理,β;(=a,1,2,…,w的估计值b;(,1,2,…,要使 ya -y) ∑|。-(b+bxn+b2x2+…+bx1) →mn 由求极值的必要条件得 (a -y,)=0 dO 2∑y2-y)x。=0j=1,2,…,k) 方程组(14)式经展开整理后得
S L y y yy i i 总 = = - = = å( ) . 2 1 10 3 0840 U=bLxy=0.085278×30.7000=2.6180346 Q=S 总-U=3.0840-2.6180346-0.4659654 所以 F U Q n = - / = = . . . 2 2 6180346 0 4659654 1 8 44 948137 × 在置信水平 a=0.01 下查 F 分布表得:F0.01(1,8)=11.6。由于 F=44.948137 >F0.01(1,8)=11.6,所以回归方程(7)式在置信水平 a=0.01 下是显著的。 二、多元线性回归模型 在多要素的地理系统中,除了在某两个要素之间存在着相互作用和影响 而发生某种相关外,在若干个(多于两个)要素之间也存在着相关影响、相互 关联的情况。因此,多元地理回归模型更带有普遍性的意义。 (一)多元线性回归模型的建立 假设某一因变量 y 受 k 个自变量 x1,x2,…,xk的影响,其 n 组观测值 为(ya,xa1,xa2,…,xak),a=1,2,…,n。那么,多元线性回归模型的 结构形式为: ya=β0+β1xa1+β2xa2+…+βkxak+εa (11) 在(11)式中,β0,β1,…,βk为待定参数,εa为随机变量。如果 b0, b1,…bk分别为β0,β1,β2,…,βk的拟合值,则得回归方程 y = b0 + b1x1 + b2 x2 + + bk xk 12 Ù … ( ) 在(12)式中,b0为常数,b1,b2,…,bk被称为偏回归系数。偏回归系 数 bi(i=1,2,…,k)的意义是,当其它自变量 xj(j≠i)都固定时,自变量 xi 每变化一个单元而使因变量 y 平均改变的数值。 根据最小二乘法原理,βi(i=0,1,2,…,k)的估计值 bi(i=0,1,2,…,k)要使 Q y y y b b x b x b x a a a n a a a k a a n k = - = - + + + + ® Ù = = å å ( ) [ ( )] min 2 1 0 1 2 2 1 1 2 … 由求极值的必要条件得 ¶ ¶ ¶ ¶ Q b y y Q b y y x j k a a a n j a a aj a n 0 1 1 2 0 2 0 1 2 = - - = = - - = = ì í ï ï î ï ï Ù = Ù = å å ( ) ( ) ( , , … , ) 方程组(14)式经展开整理后得