量之间的线性关系越密切,所建的回归方程才越有价值 (2)回归方程的预报精度 已知S表示随机误差,即观测值并不完全落在配合直线上,而是散布在它的两侧所存在的误差。所以S籴越小,用回归方程预报的效果越好,这里 的S金,实际上就是前面最小二乘法建立回归方程时所给出的最小的那个Δ值。因此,可用均方差 作为衡量回归方程预报效果好坏的指标。余也称为剩余标准差,它表示观测值偏离配合直线的平均距离,把⑥式代入上式得余的计算 (Y-)2/n-2.Ⅵ1-r2= (8-2 这样计算的σ余越小预报的效果越好,但究竟多小效果最好?仍可用显著性检验来说明 所谓预报问题,就是在一定的显著性水平α下寻找一个偏差δ,使得按给定的ⅹ预报Y时的观测值,以(1-a)的概率落在(Y6,Y+6)的区间 P δ<Y<F+d}=1-a 6和余有如下的一般关系: 6=F(,n-2)o斜++ 1.(X-X)2 这说明,在一定的样本观测值和显著性水平下,给出的X越接近X,6越小。如在(X,Y)平面上划成曲线,则y±δ形成一个包围回归直线的
6 量之间的线性关系越密切,所建的回归方程才越有价值。 (2) 回归方程的预报精度 已知 S 余表示随机误差,即观测值并不完全落在配合直线上,而是散布在它的两侧所存在的误差。所以 S 余越小,用回归方程预报的效果越好,这里 的 S 余,实际上就是前面最小二乘法建立回归方程时所给出的最小的那个Δ值。因此,可用均方差 余 = S余 /(n − 2) 作为衡量回归方程预报效果好坏的指标。 余 也称为剩余标准差,它表示观测值偏离配合直线的平均距离,把⑥式代入上式得 余 的计算式: 2 2 1 2 1 2 ( ) / 2 1 r n S Y Y n r YY n t − − = − − − = = 余 (8-21) 这样计算的 余 越小预报的效果越好,但究竟多小效果最好?仍可用显著性检验来说明。 所谓预报问题,就是在一定的显著性水平α下寻找一个偏差δ,使得按给定的 X 预报 Y 时的观测值,以(1-α)的概率落在(Y-δ, Y+δ)的区间 内,即: PY ˆ − Y Y ˆ + = 1− 而δ和 余 有如下的一般关系: − − = − + + = n t Xt X X X n F n 1 2 2 2 ( ) 1 ( ) (1, 2) 余 1 这说明,在一定的样本观测值和显著性水平下,给出的 X 越接近 X ,δ越小。如在(X,Y)平面上划成曲线,则 Y 形成一个包围回归直线的
带域,两头呈喇叭形,在〓X处带域最窄。因此,如果给岀ⅹ预报Y时,则预报区间越短(X越靠近),带域宽度越窄,说明预报饿精度越高 在实际计算中,n值往往过大,要求的预报区间较短,这时1+-+ ≈1,结果得预报区间的近似式 (x1-X)2 余<<Y+G余=68.3% 这说明,在给出X预报Y时的观测值中,有683%可能落在配合直线两侧各为一个均方差的范围内,或者说观测值Y可能落在Y±余之间的概率 为683%,同样,观测值Y落在Y±20之间的概率为954%,落在Y±3之间的概率为997%,即 P-27<Y<+2}954% P 30余<Y<Y+30余=99 Y±Nσ余称为可信区间。用回归方程预报Y时,σ余越小,可信区间越窄,预报的精度越高。当r=1时,Y和X呈函数关系,这时可余=0,表示 所有观测值都落在配合直线上。 控制是预报的反问题。即在一定概率P下,要求Y在区间(Y1,Y2)内取值时,X应控制的范围或求出相应的X1和X2,例如,概率为683%,如 1=Y-G余=b+bX1-0余 2=+G余=b+bX2+ 则给出了Y1和Y2,就可解出X1和X2作为控制X的上下限
7 带域,两头呈喇叭形,在 X = X 处带域最窄。因此,如果给出 X 预报 Y 时,则预报区间越短(X 越靠近 X ),带域宽度越窄,说明预报饿精度越高。 在实际计算中,n 值往往过大,要求的预报区间较短,这时 1 ( ) 1 ( ) 1 1 2 2 − − + += n t Xt X X X n ,结果得预报区间的近似式: PY ˆ − 余 Y Y ˆ + 余 =68.3% 这说明,在给出 X 预报 Y 时的观测值中,有 68.3%可能落在配合直线两侧各为一个均方差的范围内,或者说观测值 Y 可能落在 Y 余 之间的概率 为 68.3%,同样,观测值 Y 落在 Y 2 余 之间的概率为 95.4%,落在 Y 3 余 之间的概率为 99.7%,即: PY ˆ − 2 余 Y Y ˆ + 2 余 =95.4% PY ˆ −3 余 Y Y ˆ + 3 余 =99.7% Y N 余 ˆ 称为可信区间。用回归方程预报 Y 时, 余 越小,可信区间越窄,预报的精度越高。当 r=1 时,Y 和 X 呈函数关系,这时 余 =0,表示 所有观测值都落在配合直线上。 控制是预报的反问题。即在一定概率 P 下,要求 Y 在区间(Y1,Y2)内取值时,X 应控制的范围或求出相应的 X1 和 X2,例如,概率为 68.3%,如 取 1 = − 余 = 0 + 1 − 余 ˆ Y Y b bX 2 = + 余 = 0 + 2 + 余 ˆ Y Y b bX 则给出了 Y1 和 Y2,就可解出 X1 和 X2 作为控制 X 的上下限
〈实例》,某水源地已有多年的开采历史。经分析,取其中十年的开采资料进行相关分析。为了扩大开采,要求预报降深S=26m时的开采量Q。原始 数据和计算数据均列入表(8-10)中,表中采用的符号QY,S~X 根据表中的数据,按下列顺序预报 首先,计算相关系数,按(8-19)求得 0.997 √808×5171 按n=10,查附表Ⅱ知,在显著性水平a=001时相关系数的临界值为0.765。显然,计算值0.997)0.765,所以Q和S之间的线性关系是显著的 其次,建立预报方程,进行预报。按④式计算回归系数 (S-SQ2-)2038 ∑(S.-s)25771 把B值和Q=73,S=198代入(8-18)式,整理后得回归方程 Q=-5.03+3941×S 代入S=26m,得预报的开采量Q=9743×10m3 最后,检验预报精度。按(8-21)式计算剩余均方差 表(8-10) 年份开采资料 计算数据
8 〈实例〉,某水源地已有多年的开采历史。经分析,取其中十年的开采资料进行相关分析。为了扩大开采,要求预报降深 S=26m 时的开采量 Q。原始 数据和计算数据均列入表(8-10)中,表中采用的符号 Q~Y,S~X。 根据表中的数据,按下列顺序预报: 首先,计算相关系数,按(8-19)求得: 0.997 808 51.71 203.8 ( ) ( ) ( )( ) 2 2 = = − − − − = = S S Q Q S S Q Q S S S r t t t t QQ S S S Q 按 n=10,查附表 II 知,在显著性水平α=0.01 时相关系数的临界值为 0.765。显然,计算值 0.997〉0.765,所以 Q 和 S 之间的线性关系是显著的。 其次,建立预报方程,进行预报。按④式计算回归系数。 3.941 57.71 203.8 ( ) ( )( ) 2 = = − − − = = S S S S Q Q S S b t t t SS SQ 把 B 值和 Q = 73, S = 19.8 代入(8-18)式,整理后得回归方程: Q = −5.03 + 3.941 S 代入 S=26m,,得预报的开采量 Q=97.43×104m3 /d。 最后,检验预报精度。按(8-21)式计算剩余均方差 1 0.778 2 ( ) 2 2 − = − − = r n Qt Q 余 表(8-10) 年份 开采资料 计算数据
(ma-0 ) 195960 10.89 16.5-13 3.316910.89 19626314.7-10-2.31005.2 总和7301979 51.67 203.8 概率为68.3%,则有 43-078<Q<9743+077}=68% 这说明,预报S=26m的开采量时,Q的观测值将落在9665-982区间的概率为683%,也就是实测开采量将在宽约156×104m3d的带形区内波动 所以回归方程的预报精度是足够的 二、多元线性相关分析 地下水资源总是在多种因素影响下形成的,所以在资源评价中采用多元线性相关分析的 1关分析为好。参与多元相关的各种变量可按当地具体条件确定。如在潜水区,可以考虑开采量和潜水位、开采面积、历年的 蒜 发量等各变量的相关关系:在承压水区,可以建立开采量和水位、侧渗补给量、回灌量、开采时间等的相关关系:矿井疏干区,可以建立涌水量和地下
9 Qt (104m3 /d) St (m ) Qt − Q St − S 2 (Q Q) t − 2 (S S ) t − (Q Q ) t − (S S ) t − 1959 60 16.5 -13 -3.3 169 10.89 42.9 1960 67 18 -6 -1.8 36 3.24 10.8 1961 60 16.5 -13 -3.3 169 10.89 42.9 1962 63 14.7 -10 -2.3 100 5.29 23 1970 80 21.5 7 1.7 49 2.89 11.9 1971 80 21.9 7 2.1 49 4.41 14.7 1972 78 21 5 1.2 25 1.44 6 1973 76 20.5 3 0.7 9 0.49 2.1 1974 82 22 9 2.2 81 4.84 19.8 1975 84 22.5 11 2.7 121 7.29 29.7 总和 730 197.9 808 51.67 203.8 平均 73 19.8 如取概率为 68.3%,则有 P97.43−0.778 Q 97.43+ 0.778= 68.3% 这说明,预报 S=26m 的开采量时,Q 的观测值将落在 96.65-98.2 区间的概率为 68.3%,也就是实测开采量将在宽约 15.6×104m3 /d 的带形区内波动, 所以回归方程的预报精度是足够的。 二、多元线性相关分析 地下水资源总是在多种因素影响下形成的,所以在资源评价中采用多元线性相关分析的 效果总比一元相关分析为好。参与多元相关的各种变量可按当地具体条件确定。如在潜水区,可以考虑开采量和潜水位、开采面积、历年的降雨量、蒸 发量等各变量的相关关系;在承压水区,可以建立开采量和水位、侧渗补给量、回灌量、开采时间等的相关关系;矿井疏干区,可以建立涌水量和地下
水位、降雨量、巷道长度等的相关关系:在泉群地区,可以建立泉群流量和前一年的流量、前几年的降雨量、蒸发量等的相关关系。下面简介多元线性 相关的原理和应用 设有因变量Y和自变量X1(i=1,2,3…m)。对Y和X进行n次观测,得一组观测值为(Xm,X2 如果Y和X1之间存在线性相关,则可配一线性回归方程: b+b1X1+b2X2+…bnX (8-22) 式中:bo,b,i=1,2,3……m,为回归系数,是待定值 为使上式成为最佳的配合直线,同一元相关分析法一样,可用最小二乘法确定m+1个回归系数。因此,取全部观测值Y和y的偏差平方和 △=∑0-,)2=∑[-(+bx+bX2+…bX) 达到最小。按数学分析中的极值原理,首先取 0=2[-(4+X+…bXm)=0 b 由此解得 h=2-(∑X)=-(x+hx2+…bx) 式中:p1 y I>x 把b代入⑦式,整理后得 =∑x-F)-b(X-X)-b2(x2-x2)-…bn(Xm-x
10 水位、降雨量、巷道长度等的相关关系;在泉群地区,可以建立泉群流量和前一年的流量、前几年的降雨量、蒸发量等的相关关系。下面简介多元线性 相关的原理和应用。 设有因变量 Y 和自变量 Xi( i=1,2,3……m)。对 Y 和 Xi 进行 n 次观测,得一组观测值为(X1t , X2t , ……Xmt , Yt) , t=1,2,3……n。 如果 Y 和 Xi 之间存在线性相关,则可配一线性回归方程: Y = b0 + b1X1 + b2X2 +bm X m ˆ (8-22) 式中:b0, bi, i=1,2,3……m , 为回归系数,是待定值。 为使上式成为最佳的配合直线,同一元相关分析法一样,可用最小二乘法确定 m+1 个回归系数。因此,取全部观测值 Yt 和 Yt ˆ 的偏差平方和 ( ) = = = − = − + + + n t t t t m mt n t Yt Yt Y b b X b X b X 1 2 0 1 1 2 2 2 1 ) ˆ ( ⑦ 达到最小。按数学分析中的极值原理,首先取 2 ( ) 0 1 0 1 1 0 = − − + + = = n t Yt b b X t bm X mt b 由此解得 = − = = n t n t Yt bi Xit n b 1 1 0 ( ) 1 ( ) = Y − b1X1 + b2X2 +bm X m ⑧ 式中: = = n t Yt n Y 1 1 , = = = n t i Xit i m n X 1 , 1,2 1 ; 把 0 b 代入⑦式,整理后得: 2 1 1 1 1 2 2 2 ( ) ( ) ( ) ( ) = = − − − − − − − n t Yt Y b X t X b X t X bm X mt X m