吉林大学精品课>>专门水文地质学>>教材>>专门水文地质学 §8.5相关分析法 地下水资源预报中,经常碰到两种类型的变量关系。一类是确定性的函数关系,如一口井的抽水量和水位降这两个变量关系,就满足一一对应的 函数关系。另一类是非确定性的依赖关系,如一个开采区的开采量和降深的关系,虽然是相互依赖的,降深大开采量也多,但变量关系不是确定的,对 应同样降深的开采量不一定完全相等,找不到任何函数可以表示这类变量关系。此外,开采量和降雨量的关系,开采量和地表水侧渗量或灌水回渗量的 关系等,也都有类似的性质,这类既有依赖又不确定的变量关系,统称为相关关系 相关分析法就是研究上述变量的相关关系,建立回归方程,并用来预报开采量的方法。严格说,研究随机变量和确定变量之间的相关关系称为回归 分析,研究随机变量和随机变量之间的相关关系才称为相关分析。为了简单,以后不加以区分,统称为相关分析 相关分析法的适用范围很广,只要在具备多年观测资料地区,无论水文地质条件多么复杂,条件是否查清,都可建立回归方程进行预报,用回归方 程预报的效果,一般来说预报系列较短精度较高,系列较长则精度下降,但对较长系列,可以采用不断校正方程,不断延长系列的逐步预报法 根据研究的变量数目和相关性质不同,可分为一元线性相关分析,多元线性相关分析,多元非线性相关分析,最后简介常用的逐步回归分析法 元线性相关分析 设有两个变量Y和X,存在前述的相关关系,对这两个变量进行n次独立观测,得一组观测值 (X,Yt),t=1、2、3…n 如用这组观测值在直角坐标纸上做散点图,点的分布呈直线趋势时,则表示变量Y和X呈线性相关,现用Y的平均状态配一直线方程 这就是Y对X的回归方程,b,b称为回归系数,是待定值
1 吉林大学精品课>>专门水文地质学>>教材>>专门水文地质学 §8.5 相关分析法 在地下水资源预报中,经常碰到两种类型的变量关系。一类是确定性的函数关系,如一口井的抽水量和水位降这两个变量关系,就满足一一对应的 函数关系。另一类是非确定性的依赖关系,如一个开采区的开采量和降深的关系,虽然是相互依赖的,降深大开采量也多,但变量关系不是确定的,对 应同样降深的开采量不一定完全相等,找不到任何函数可以表示这类变量关系。此外,开采量和降雨量的关系,开采量和地表水侧渗量或灌水回渗量的 关系等,也都有类似的性质,这类既有依赖又不确定的变量关系,统称为相关关系。 相关分析法就是研究上述变量的相关关系,建立回归方程,并用来预报开采量的方法。严格说,研究随机变量和确定变量之间的相关关系称为回归 分析,研究随机变量和随机变量之间的相关关系才称为相关分析。为了简单,以后不加以区分,统称为相关分析。 相关分析法的适用范围很广,只要在具备多年观测资料地区,无论水文地质条件多么复杂,条件是否查清,都可建立回归方程进行预报,用回归方 程预报的效果,一般来说预报系列较短精度较高,系列较长则精度下降,但对较长系列,可以采用不断校正方程,不断延长系列的逐步预报法。 根据研究的变量数目和相关性质不同,可分为一元线性相关分析,多元线性相关分析,多元非线性相关分析,最后简介常用的逐步回归分析法。 一、一元线性相关分析 设有两个变量 Y 和 X,存在前述的相关关系,对这两个变量进行 n 次独立观测,得一组观测值: (Xt,Yt),t=1、2、3……n 如用这组观测值在直角坐标纸上做散点图,点的分布呈直线趋势时,则表示变量 Y 和 X 呈线性相关,现用 Y 的平均状态配一直线方程: Y = b + bx 0 ˆ (8-17) 这就是 Y 对 X 的回归方程,b0,b 称为回归系数,是待定值
若使上式成为最佳的配合直线,可用最小二乘法确定b和b值。为此,取全部观测值Y与H=b+bx,的偏差平方和 △=∑(-)2=∑(-b-bx,)2①为最小。这样确定b、b后配出的直线。同全部观测值(xY)的偏差将是一切直线中最小的一条,或 者说,它是一切直线中同全部观测值最靠近的 代表X和Y之间的变化规律,其精度可由式①算出的△的最小值来代表,在后面检验回归 方程的效果时将用到这一点 因为Δ是b和b的二次函数,又是非负值,故其最小值总是存在的。按数学分析中的极值原理,取△关于b和b的偏导数,并令导数等于零 a=-2S(x-b-bX)=0 b=2(r-h-bx)x,=0 ∑表示对从1到求和,上式也可改写成: ∑(y1-),)=0 解方程组②,得回归系数 b=Y-bX 式中:=1∑x,和=1∑,为样本的算术平均值,反映样本的平均水平:Sxy
2 若 使 上 式 成 为 最 佳 的 配 合 直 线 , 可 用 最 小 二 乘 法 确 定 b0 和 b 值 。 为 此 , 取 全 部 观 测 值 Yt 与 Yt = b0 + bXt ˆ 的 偏 差 平 方 和 2 0 1 2 1 ) ( ) ˆ ( t n t t t n t = Yt −Y = Y − b − bX = = ① 为最小。这样确定 b0、b 后配出的直线。同全部观测值(Xt,Yt)的偏差将是一切直线中最小的一条,或 者说,它是一切直线中同全部观测值最靠近的一条,所以最能代表 X 和 Y 之间的变化规律,其精度可由式①算出的Δ的最小值来代表,在后面检验回归 方程的效果时将用到这一点。 因为Δ是 b0 和 b 的二次函数,又是非负值,故其最小值总是存在的。按数学分析中的极值原理,取Δ关于 b0 和 b 的偏导数,并令导数等于零: 2 ( 0 ) 0 0 1 = − − − = = t n t Yt b bX b 2 ( 0 ) 0 1 = − − − = = t t n t Yt b bX X b = n t 1 表示对从 1 到求和,上式也可改写成: ) 0 ˆ ( 1 − = = t n t Yt Y ) 0 ˆ ( 1 − = = t t n t Yt Y X 解方程组②,得回归系数: b0 = Y − bX XX XY S S b = 式中: = = n t Xt n X 1 1 和 = = n t Yt n Y 1 1 ,为样本的算术平均值,反映样本的平均水平;SXY ② ③ ④
和Sx为变量的协方差,S=x,-1②x∑)=∑x1-xXx-Sx=x2-∑x)=∑(x,-x 把④式代入(8-17)式,即得到要求的一元线性回归方程,也可简写成下列形式 予-x=bX-x) 这说明,对于一组样本观测值(X,)来说,回归方程是一条通过散点图几何重心(X,F)的直线,b是直线的斜率,明确这一点,对做散点图有帮 但是,建立的回归方程能否正确反映Y和ⅹ的变化规律,不能肯定。因为用最小二乘法建立回归方程时并没有用到Y和Ⅹ必然存在线性相关的假 定,即使观测值在散点图上呈现完全散乱的点子,没有线性相关,同样可以建立一个回归方程,只是这种方程毫无价值而已。所以还要解决两个问题 ①变量之间的线性相关是否存在,即变量的相关程度问题:②用回归方程预报时,能有多大的随机误差,即预报的精度问题。这是检验回归方程有无实 际价值的两个重要问题。 为了建立检验标准,我们从方差分析着手。把观测值Y1对其平均值Y的总偏差平方和进行分解: S8=∑(-)2=∑(-)+(-Y=∑(,-F4S(-i 最后的等式,是由于交积差为零。由③式可知: ∑(x-)X2,-Y)=∑(x-)b0+bX,-)=(b-∑(x1-1,)+b2(,-)),=0于是得分解式及其自由度为 ,自由度fe=n-1 S回=2(-Y),自由度f=1(自变量个数)
3 和 SXX 为变量的协方差, ( )( ) ( )( ) 1 1 1 1 1 X Y X X Y Y n S X Y t n t t n t t n t t t n t XY = t − = − − = = = = 2 1 2 1 1 2 ( ) ( ) 1 X X X n S X n t t n t t n t XX = t − = − = = = 。 把④式代入(8-17)式,即得到要求的一元线性回归方程,也可简写成下列形式: ( ) Y ˆ − X = b X − X (8-18) 这说明,对于一组样本观测值 ( , ) Xt Yt 来说,回归方程是一条通过散点图几何重心 (X,Y ) 的直线,b 是直线的斜率,明确这一点,对做散点图有帮 助。 但是,建立的回归方程能否正确反映 Y 和 X 的变化规律,不能肯定。因为用最小二乘法建立回归方程时并没有用到 Y 和 X 必然存在线性相关的假 定,即使观测值在散点图上呈现完全散乱的点子,没有线性相关,同样可以建立一个回归方程,只是这种方程毫无价值而已。所以还要解决两个问题: ①变量之间的线性相关是否存在,即变量的相关程度问题;②用回归方程预报时,能有多大的随机误差,即预报的精度问题。这是检验回归方程有无实 际价值的两个重要问题。 为了建立检验标准,我们从方差分析着手。把观测值 Yt 对其平均值 Y 的总偏差平方和进行分解: 2 1 2 1 2 1 2 1 ) ˆ )] ( ) ( ˆ ) ( ˆ ( ) [( = = = = = − = − + − = − + − n t t t n t t t t n t t n t S总 Yt Y Y Y Y Y Y Y Y Y 最后的等式,是由于交积差为零。由③式可知: ) 0 ˆ ) ( ˆ )( ) ( ) ( ˆ ) ( ˆ )( ˆ ( 1 1 0 0 1 1 − − = − + − = − − + − = = = = = t t n t t t n t t t t n t t t t n t Yt Y Y Y Y Y b bX Y b Y Y Y b Y Y X 于是得分解式及其自由度为 S 总=S 回+S 余 ⑤ 2 1 ( ) = = − n t S总 Yt Y ,自由度 f 总=n-1, 2 1 ) ˆ ( = = − n t S回 Yt Y ,自由度 f 回=1(自变量个数)
S=∑(-,),自由度f=n2(取样组数减去两个变量个数) 求说偏平方和是由部分组成的,二是Su为平方和表示由量x取值不起的Y值的签其大小反喷了变量之网的相 测因素 制因素等 预报精 分别确定相关程度和预报精度的检验标准 (1)变量之间的相关程度 取S在S中所占的比例大小,作为衡量变量之间相关程度的数量指标 r称为相关系数,把Y1=b0+bX,代入S中,同时利用④式,可得r的计算式 x√S√Sx 式中:Sn=∑(X-)2=S 0≤H≤1,r=0时,表示Y和x没有线性相关,观测值在散点图上呈散乱点子:也可能存在非线性相关,散点图呈曲线趋势。r=1时,表示Y和Z 呈线性函数关系,所有观测值都应落在同一直线上。0<<1,表示Y和X存在线性相关。H越大线性相关越密切,观测值在散点图上越靠近配合直线 的两侧分布:越小则线性相关越微弱,观测值在散点图上越远离配合直线
4 2 1 ) ˆ ( = = − n t S余 Yt Yt ,自由度 f 余= n-2 (取样组数减去两个变量个数) 式⑤说明,总偏差平方和是由两部分组成的。一是 S 回,称为回归平方和,表示由变量 X 取值不同引起的 Y 值的差异,其大小反映了变量之间的相 关程度;二是 S 余,称剩余平方和,表示由观测因素和未加控制因素等随机误差引起的 Y 值的差异,其大小反映了随机误差对预报精度的影响。据此, 可分别确定相关程度和预报精度的检验标准: ⑴ 变量之间的相关程度 取 S 回在 S 总中所占的比例大小,作为衡量变量之间相关程度的数量指标: 总 回 S S r = r 称为相关系数,把 Yt = b0 + bXt 代入 S 回中,同时利用④式,可得 r 的计算式: = = = = − − n t t n t t Y Y Y Y r 1 2 1 ( ) ) ˆ ( = = = − − n t t n t t Y Y X X b 1 2 1 ( ) ) ˆ ( XY XX XY S S S (8-19) 式中: S Y Y S总 N T YY = t − = = 2 1 ( ) 0 r 1,r = 0 时,表示 Y 和 X 没有线性相关,观测值在散点图上呈散乱点子;也可能存在非线性相关,散点图呈曲线趋势。r=1 时,表示 Y 和 Z 呈线性函数关系,所有观测值都应落在同一直线上。 0 r 1,表示 Y 和 X 存在线性相关。 r 越大线性相关越密切,观测值在散点图上越靠近配合直线 的两侧分布; r 越小则线性相关越微弱,观测值在散点图上越远离配合直线
根据(819)式计算的值,只要在0-1区间就表示变量之间存在线性相关,但只要川值大到一定程度时才有明显的相关关系。那么团究竞要多大时Y 和ⅹ之间才有明显的线性关系?这就必须对相关系数进行显著性检验。为此,构造统计量: 把Y=b+b代回S=中,再利用④和⑤式,得: Sa=∑(-Y)=∑(b+bX1-Y)=b2∑ S余=Sg-SF=SYY(1-r2) 代入F式中得计算式: (n-2) 上式服从自由度为1和n2的F分布。在给定显著性水平a下,把计算的F值同附表I中达到显著时的临界值F(L,n-2)做比较,若F>F(1,n-2) 则说明在α水平上两变量之间的线性关系是显著的,否则说明线性关系不显著 由(8-20)式知,F和r存在一一对应关系,按F分布表中的临界值可以求出相应r的临界值,如附表Il因此,在实际检验时,也可用(8-19)式 计算的r值同附表Ⅱ的临界值直接做比较,若r超过表Ⅱl的临界值可认为变量之间的线性关系是显著的,反之,低于临界值则认为线性关系不显著 所谓显著性水平αo是指做出“显著”这个结论时发生判断错误的可能性。如α=0.05时,表示判断错误的可能性不超过5%:a=001时,这种可能 性不超过1%。检验时选取的a值越小,检验越严格,相应的要求r值就越大。例如,n=12时,如果计算的≥0576,则说明r值在a=05的水平上 概率或可信度为9%)显著。如把可信度提高到9%,计算的相关系数有H20708,则说明在a=001水平上显著。a越小,r的显著程度越高
5 根据(8-19)式计算的值,只要在 0~1 区间就表示变量之间存在线性相关,但只要 r 值大到一定程度时才有明显的相关关系。那么 r 究竟要多大时 Y 和 X 之间才有明显的线性关系?这就必须对相关系数进行显著性检验。为此,构造统计量: ( ) 余 回 余 余 回 回 2 / / = = n − S S S f S f F 把 Yt = b0 + bXt ˆ 代回 S 回中,再利用④和⑤式,得: YY n t t n t t n t S Yt Y b bX Y b X X r S 2 2 1 2 2 1 0 2 1 ) ( ) ( ) ˆ = ( − = + − = − = = = = 回 S 余=S 总-S 回=SYY(1-r 2 ) ⑥ 代入 F 式中得计算式: ( 2) 1 2 2 − − = n r r F (8-20) 上式服从自由度为1 和n-2的F分布。在给定显著性水平α下,把计算的F值同附表I中达到显著时的临界值 F (1,n − 2) 做比较,若 F F (1,n − 2) , 则说明在α水平上两变量之间的线性关系是显著的,否则说明线性关系不显著。 由(8-20)式知,F 和 r 存在一一对应关系,按 F 分布表中的临界值可以求出相应 r 的临界值,如附表 II。因此,在实际检验时,也可用(8-19)式 计算的 r 值同附表 II 的临界值直接做比较,若 r 超过表 II 的临界值可认为变量之间的线性关系是显著的,反之,低于临界值则认为线性关系不显著。 所谓显著性水平α0 是指做出“显著”这个结论时发生判断错误的可能性。如α=0.05 时,表示判断错误的可能性不超过 5%;α=0.01 时,这种可能 性不超过 1%。检验时选取的α值越小,检验越严格,相应的要求 r 值就越大。例如,n=12 时,如果计算的 r 0.576 ,则说明 r 值在α=0.05 的水平上 (概率或可信度为 95%)显著。如把可信度提高到 99%,计算的相关系数有 r 0.708 ,则说明在α=0.01 水平上显著。α越小,r 的显著程度越高,变