研究生地理数学方法(实习) Part1电子表格 Excel 这个结果我们前面进行过验算 观测值对应的是样品数目,即有n=10 第二部分,方差分析表 方差分析部分包括自由度、误差平方和、均方差、F值、t统计量、P值、参数估计结 果的变化范围等(图1-3-4)。 方差分析 回归分f ini 1748.8542748.8542371.94535.42E-08 816.106762.013345 9764.961 图1-3-4方差分析表( ANOVA) 逐列、分行解释如下: 第一列df对应的是自由度( degree of freedom) 第一行是回归自由度dft,等于变量数目,即df=m 第二行为剩余自由度dfe,或者残差自由度,等于样品数目减去变量数目再减1, 即有dfe=n-m-1。在我们的计算公式中,剩余自由度通常用v表示 第三行为总自由度dt,等于样品数目减1,即有df=n-1。对于本例,m=1,n=10 因此,df=1,dfe=n-m-1=8,dft=n-1=9。 显然,三者的关系是 回归自由度+剩余自由度=总自由度 第二列SS对应的是误差平方和,或称变差。 ●第一行为回归平方和或称回归变差SSr,即有 Ss=∑(,-)2=7488542 它表征的是因变量的预测值对其平均值的总偏差。 第二行为剩余平方和(也称残差平方和)或称剩余变差SSe,即有 SSe=∑(y2-)2=16.10676 它表征的是因变量预测值对其观测值的总偏差,这个数值越大,意味着拟合的效果越差,反 之则越好。上述的y的标准误差即由Sse给出 第三行为总平方和或称总变差SSt,也就是 s:=∑(y-元)2=7646 它表示的是因变量对其平均值的总偏差。容易验证7488542+16.10676=764961,即有 回归平方和+剩余平方和=总平方和 或者
研究生地理数学方法(实习) Part1 电子表格 Excel 12 这个结果我们前面进行过验算。 z 观测值对应的是样品数目,即有 n=10。 第二部分,方差分析表 方差分析部分包括自由度、误差平方和、均方差、F 值、t 统计量、P 值、参数估计结 果的变化范围等(图 1-3-4)。 图 1-3-4 方差分析表(ANOVA) 逐列、分行解释如下: 第一列 df 对应的是自由度(degree of freedom)。 z 第一行是回归自由度 dfr,等于变量数目,即 dfr=m。 z 第二行为剩余自由度 dfe,或者残差自由度,等于样品数目减去变量数目再减 1, 即有 dfe=n-m-1。在我们的计算公式中,剩余自由度通常用 v 表示。 z 第三行为总自由度 dft,等于样品数目减 1,即有 dft=n-1。对于本例,m=1,n=10, 因此,dfr=1,dfe=n-m-1=8,dft=n-1=9。 显然,三者的关系是: 回归自由度+剩余自由度=总自由度 第二列 SS 对应的是误差平方和,或称变差。 z 第一行为回归平方和或称回归变差 SSr,即有 SSr ( ˆ ) 748.8542 1 2 =∑ − = = n i i i y y . 它表征的是因变量的预测值对其平均值的总偏差。 z 第二行为剩余平方和(也称残差平方和)或称剩余变差 SSe,即有 SSe ( ˆ ) 16.10676 1 2 = ∑ − = = n i i i y y . 它表征的是因变量预测值对其观测值的总偏差,这个数值越大,意味着拟合的效果越差,反 之则越好。上述的 y 的标准误差即由 SSe 给出。 z 第三行为总平方和或称总变差 SSt,也就是 SSt ( ) 764.961 1 2 =∑ − = = n i i i y y . 它表示的是因变量对其平均值的总偏差。容易验证 748.8542+16.10676=764.961,即有 回归平方和+剩余平方和=总平方和 或者
研究生地理数学方法(实习) PartI 子表格 Excel SSr +sSe= sst 而测定系数就是回归平方和在总平方和中所占的比重 R =0.978944。 SSt764.961 这个数值越大,拟合的效果也就越好。 第三列MS对应的是均方差,它是误差平方和除以相应的自由度得到的商。 第一行为回归均方差MSr,即有 MSr=SSr_748.8542 748.854 这个数值越大,拟合的效果也就越好。 第二行为剩余均方差MSe,即有 sse=16-10676=201335 这个数值越小,拟合的效果也就越好 第四列对应的是F值,用于线性关系的判定。对于一元线性回归,F值的计算公式前面 已经给出 1-R 式中R=0.978944,dfe=10-1-1=8,因此 、8*0.978944 3719453 1-0.978944 在方差分析表中,F值等于回归均方差MSr与剩余均方差MSe的比值,即有 F MSr748.8542 3719453 MSe2.013345 第五列 Significance F是F值对应的P值——回归P值,亦即线性关系的弃真概率。所 谓“弃真概率”就是线性关系为假的概率,显然1-P便是线性关系为真的概率。可见,P值 越小,置信度也就越高。借助F分布函数 fdist,可以将F值转换为Sig值。在回归结果工 作表的任意单元格中输入公式“= FDIST(E12B12B13)”,立即得到P值(542E-08)。反过 来,借助F值査询函数finv,可以将P值转换为F值。在任意单元格输入公式 =FINV(F12B12B13)”,立即得到F值(371945)。 第三部分,回归系数表 回归系数表包括回归模型的截距、斜率及其有关的检验参数等(图1-3-5) Coefficien标准误差 t Stat p-value Intercept2.3564381.8278761.2891670.233363 最太积雪18129210040019.285885428-08 Lower95‰Uper95%下限95.0上限95,0% -1.858656.571527-1.858656.571527 1.5961512.0296911.5961512.029691 图1-35回归系数表 第一列 Coefficients对应的模型的回归系数,包括常数项即截距a=2.356438和斜率
研究生地理数学方法(实习) Part1 电子表格 Excel 13 SSr + SSe = SSt . 而测定系数就是回归平方和在总平方和中所占的比重: 0.978944 764.961 748.8542 SSt SSr 2 R = = = 。 这个数值越大,拟合的效果也就越好。 第三列 MS 对应的是均方差,它是误差平方和除以相应的自由度得到的商。 z 第一行为回归均方差 MSr,即有 748.8542 1 748.8542 dfr SSr MSr = = = . 这个数值越大,拟合的效果也就越好。 z 第二行为剩余均方差 MSe,即有 2.013345 8 16.10676 dfe SSe MSe = = = . 这个数值越小,拟合的效果也就越好。 第四列对应的是 F 值,用于线性关系的判定。对于一元线性回归,F 值的计算公式前面 已经给出 2 2 1 dfe * R R F − = , 式中 R2 =0.978944,dfe=10-1-1=8,因此 371.9453 1 0.978944 8* 0.978944 = − F = . 在方差分析表中,F 值等于回归均方差 MSr 与剩余均方差 MSe 的比值,即有 371.9453 2.013345 748.8542 MSe MSr F = = = . 第五列 Significance F 是 F 值对应的 P 值——回归 P 值,亦即线性关系的弃真概率。所 谓“弃真概率”就是线性关系为假的概率,显然 1-P 便是线性关系为真的概率。可见,P 值 越小,置信度也就越高。借助 F 分布函数 fdist,可以将 F 值转换为 Sig.值。在回归结果工 作表的任意单元格中输入公式“=FDIST(E12,B12,B13)”,立即得到 P 值(5.42E-08)。反过 来,借助 F 值查询函数 finv,可以将 P 值转换为 F 值。在任意单元格输入公式 “=FINV(F12,B12,B13)”,立即得到 F 值(371.945)。 第三部分,回归系数表 回归系数表包括回归模型的截距、斜率及其有关的检验参数等(图 1-3-5)。 图 1-3-5 回归系数表 第一列 Coefficients 对应的模型的回归系数,包括常数项即截距 a=2.356438 和斜率
研究生地理数学方法(实习) Part1电子表格 Excel b=1.812921,由此可以建立回归模型 y1=23564+1.8129x 或 y1=23564+1.8129x1+e1 式中e1表示残差的估计值 第二列为回归系数的标准误差(用S或Sb表示),误差值越小,表明参数的精确度越高。 这个参数较少使用,只是在一些特别的场合出现。例如L. benguigui等人在“ When and where is a city fracta”一文中将斜率对应的标准误差值作为分形演化的标准,建议采用0.04作为 分维判定的统计指标。 不常使用标准误差的原因在于:其统计信息已经包含在后述的t检验中。 第三列 t Stat对应的是统计量t值,用于对模型参数的检验,需要査表才能决定。t值是 回归系数与其标准误差的比值,即有 根据图1-3-5中的数据容易算出: 2.356438 1.812921 289167,tb =1928588 1827876 0.094002 对于一元线性回归,t值可用相关系数或F值计算,公式前面已经给出。因此,F值与 t值都与相关系数R等价,当然F值与t值也等价。如前所述,F=,即有 F=3719453=19285882=t2 可见,相关系数检验就已包含了F值和t值的信息,一元线性回归分析也就无需作F检验和 t检验。但是,对于多元线性回归,F检验和t检验都不可缺省。 第四列 P value对应的是参数的P值(双侧)。当P<005时,可以认为模型参数在a=0.05 的水平上显著,或者置信度达到95%以上;当P<0.01时,可以认为模型参数在a=001的水 平上显著,或者置信度至少达到9%g……。P值检验与t值检验是等价的,但P值不用查表 故要方便得多。 借助t分布函数 tdist可以将t值全部转换为P值。如图1-3-1所示,在J17单元格输入 公式“=TDST(D17,SB$13,2)”,回车,立即得到截距对应的P值0.233:抓住J17单元格右 下角下拉至J18单元格,立即得到斜率对应的P值“5420E08”。反过来,利用t值查询函 数tinv可以将P值转换为t值。在K17单元格输入公式“=TINV(E17B$13)”,回车,立即 得到截距对应的r值1289;双击K17单元格右下角,立即得到斜率对应的t值“19286”。 第五一六列给出置信度为95%的回归系数的误差上限和下限(误差界限)。参数置信区 间的计算公式为 s(b,), 式中b,表示回归系数,j为回归系数的编号,s(b)为回归系数对应的标准误差,tam!为1 检验的临界值。对于一元线性回归,截距的置信区间为 a±t
研究生地理数学方法(实习) Part1 电子表格 Excel 14 b=1.812921,由此可以建立回归模型 i i yˆ = 2.3564 +1.8129x , 或 i i i y = 2.3564 +1.8129x + e . 式中 ei 表示残差的估计值。 第二列为回归系数的标准误差(用 a s 或 b s 表示),误差值越小,表明参数的精确度越高。 这个参数较少使用,只是在一些特别的场合出现。例如 L. Benguigui 等人在“When and where is a city fractal?”一文中将斜率对应的标准误差值作为分形演化的标准,建议采用 0.04 作为 分维判定的统计指标。 不常使用标准误差的原因在于:其统计信息已经包含在后述的 t 检验中。 第三列 t Stat 对应的是统计量 t 值,用于对模型参数的检验,需要查表才能决定。t 值是 回归系数与其标准误差的比值,即有 a a s a t ˆ = , b b s b t ˆ = . 根据图 1-3-5 中的数据容易算出: 1.289167 1.827876 2.356438 ta = = , 19.28588 0.094002 1.812921 tb = = . 对于一元线性回归,t 值可用相关系数或 F 值计算,公式前面已经给出。因此,F 值与 t 值都与相关系数 R 等价,当然 F 值与 t 值也等价。如前所述,F=t 2 ,即有 2 2 F = 371.9453 = 19.28588 = t . 可见,相关系数检验就已包含了 F 值和 t 值的信息,一元线性回归分析也就无需作 F 检验和 t 检验。但是,对于多元线性回归,F 检验和 t 检验都不可缺省。 第四列 P value 对应的是参数的 P 值(双侧)。当 P<0.05 时,可以认为模型参数在 α=0.05 的水平上显著,或者置信度达到 95%以上;当 P<0.01 时,可以认为模型参数在 α=0.01 的水 平上显著,或者置信度至少达到 99%……。P 值检验与 t 值检验是等价的,但 P 值不用查表, 故要方便得多。 借助 t 分布函数 tdist 可以将 t 值全部转换为 P 值。如图 1-3-1 所示,在 J17 单元格输入 公式“=TDIST(D17,$B$13,2)”,回车,立即得到截距对应的 P 值 0.233;抓住 J17 单元格右 下角下拉至 J18 单元格,立即得到斜率对应的 P 值“5.420E-08”。反过来,利用 t 值查询函 数 tinv 可以将 P 值转换为 t 值。在 K17 单元格输入公式“=TINV(E17,$B$13)”,回车,立即 得到截距对应的 t 值 1.289;双击 K17 单元格右下角,立即得到斜率对应的 t 值“19.286”。 第五-六列给出置信度为 95%的回归系数的误差上限和下限(误差界限)。参数置信区 间的计算公式为 ( ) ˆ j ,n m 1 j b t s b ± α − − , 式中 j b ˆ 表示回归系数,j 为回归系数的编号,s(bj)为回归系数对应的标准误差,tα, n-m-1 为 t 检验的临界值。对于一元线性回归,截距的置信区间为 n m a a t s , 1 ˆ ± α − −
地理数学方法(实习) Part1电子表格 Excel 斜率的置信区间为 b土tamm-1Sb 在我们的例子中,a=2.356438,b=1.812921,s=1.827876,Sb=0.094002,只要从 表中查出临界值tanm1,就可以计算参数的置信区间。借助函数tnv(an-m-1)在 Excel中可 以方便计算临界值。键入“=tinv(005,10-1-1)”,回车,立即得到tas=2.306006。容易验算: 185865.a+t tanm-1Sb=1.59615,b+tamm1Sb=2.02969 可以看出,在a=005的显著水平上,截距的变化上限和下限为1.85865和657153,即有 1.85865≤a≤6.57153 斜率的变化极限则为1.59615和202969,即有 1.59615≤b≤2.02969 第七一八列将根据图1-2-4设定的置信度给出回归系数的误差界限。我们在进行回归运 算的时候,默认系统的置信度为1-∝=95%。假定在图1-2-4中将置信度设为99%,即取显著 性水平为a=001,则回归结果给出两套参数估计值的上下界。第一套标志为英文(五、六 列),对应于仍然是95%的置信度:第二套标志为中文(七、八列),对应的则是99%的置 信度。 第四部分,残差输出结果 这一部分为选择输出内容,如果在“回归”分析选项框中没有选中有关内容,则输出结 果不会给出这部分结果。 残差输出中包括观测值序号(第一列,用i表示),因变量的预测值(第二列,用y表 示),残差(第三列,用e表示)以及标准残差(图1-3-6) RESIDUALOUTPUT PROBABILITY OUTPUT 观测值溉面积(残差。标准残差 百分比排仁面积(千 129.91284-1.31284-0.98136 221.21082-1.91082-1.42836 1528.6 340.79036-0.29036-0.21705 2529 436.076770.47677-0.35639 3534.1 550.21755-1.31755-0.98489 45 35.6 644.778790.2212090.165356 5537 726.830872.3691281.770947 65 832.632221.467781.097181 945.866540.839570.62301 8546.7 1036.983230.416770.31154 48 图1-3-6残差输出和概率输出结果
研究生地理数学方法(实习) Part1 电子表格 Excel 15 斜率的置信区间为 n m b b t s , 1 ˆ ± α − − . 在我们的例子中, aˆ = 2.356438 , 1.812921 ˆ b = , sa = 1.827876 , sb = 0.094002,只要从 表中查出临界值 ,n−m−1 tα ,就可以计算参数的置信区间。借助函数 tinv(α, n-m-1)在 Excel 中可 以方便计算临界值。键入“=tinv(0.05, 10-1-1)”,回车,立即得到 0.05,8 t =2.306006。容易验算: n m a a t s , 1 ˆ − α − − =-1.85865, n m a a t s , 1 ˆ + α − − =6.57153; n m b b t s , 1 ˆ − α − − =1.59615, n m b b t s , 1 ˆ + α − − =2.02969. 可以看出,在 α=0.05 的显著水平上,截距的变化上限和下限为-1.85865 和 6.57153,即有 −1.85865 ≤ a ≤ 6.57153, 斜率的变化极限则为 1.59615 和 2.02969,即有 1.59615 ≤ b ≤ 2.02969 . 第七-八列将根据图 1-2-4 设定的置信度给出回归系数的误差界限。我们在进行回归运 算的时候,默认系统的置信度为 1-α=95%。假定在图 1-2-4 中将置信度设为 99%,即取显著 性水平为 α=0.01,则回归结果给出两套参数估计值的上下界。第一套标志为英文(五、六 列),对应于仍然是 95%的置信度;第二套标志为中文(七、八列),对应的则是 99%的置 信度。 第四部分,残差输出结果 这一部分为选择输出内容,如果在“回归”分析选项框中没有选中有关内容,则输出结 果不会给出这部分结果。 残差输出中包括观测值序号(第一列,用 i 表示),因变量的预测值(第二列,用 i yˆ 表 示),残差(第三列,用 ei 表示)以及标准残差(图 1-3-6)。 图 1-3-6 残差输出和概率输出结果
研究生地理数学方法(实习) Part1电子表格 Excel 预测值是用回归模型 2.3564+1.8129 计算的结果,式中x即原始数据的中的自变量。从图1-1-1可见,x=152,代入上式,得 y1=23564+1.8129x1=2.3564+1.8129*15.2=2991284。 其余依此类推。 残差e的计算公式为 ei=yi-yi 从图1-1-1可见,y=286,代入上式,得到 e1=y-y1=286-2991284=-1.31284 其余依此类推 如果显著性水平定位005,原则上要求95%的残差点列落入2倍的正负标准误差带内, 标准差为1337714,残差点列应该在±2*1.33774之间,本例的残差数据满足这个要求。残 差的分布规律通过标准残差更容易直观地看出。标准残差标准差为1,二倍的标准差当然就 是2了,标准残差的数值原则要求处于2~2之间。 标准残差即残差的数据标准化结果,借助均值命令 average和标准差命令 stdev容易验 证,残差的算术平均值为0,标准差为1.337774。利用求平均值命令 standardize(残差的单 元格范围,均值,标准差)立即算出图1-3-6中的结果。当然,也可以利用数据标准化公式 逐一计算。 将残差平方再求和,便得到残差平方和即剩余平方和: =∑e2=∑(-j)2=16106576 利用Excl的求平方和命令 sumsq容易验证上述结果。 第五部分,概率输出结果 在选项输出中,还有一个概率输出( Probability Output)表(图1-3-6)。第六列是按等 差数列设计的百分比排位( percentile),这个序列的计算公式是 百分比排位= 2k-1 *100=100 式中k=1,2,…,n为自然数构成的样品位序,n为样品数目。对于我们的例子,n=10, k=1,2…,10。因此,百分比位序为5,15,…,95。 第七列则是因变量原始数据的自下而上排序(即从小到大)结果——选中图1-1-1中的 第三列(C列)数据,用鼠标点击自下而上排序按钮2,立即得到图1-3-6中的第七列数值。 当然,也可以沿着主菜单的“数据(D)→排序(S”路径,打开数据排序选项框,进行数据 排序 概率输出表需要借助图形才能进行有效分析
研究生地理数学方法(实习) Part1 电子表格 Excel 16 预测值是用回归模型 i i yˆ = 2.3564 +1.8129x 计算的结果,式中 xi 即原始数据的中的自变量。从图 1-1-1 可见,x1=15.2,代入上式,得 1 8129 1 yˆ = 2.3564 +1. x = 2.3564 +1.8129*15.2 = 29.91284 。 其余依此类推。 残差 ei 的计算公式为 i i i e = y − yˆ . 从图 1-1-1 可见,y1=28.6,代入上式,得到 e1 = y1 − yˆ1 = 28.6 − 29.91284 = −1.31284 . 其余依此类推。 如果显著性水平定位 0.05,原则上要求 95%的残差点列落入 2 倍的正负标准误差带内, 标准差为 1.337774,残差点列应该在±2*1.337774 之间,本例的残差数据满足这个要求。残 差的分布规律通过标准残差更容易直观地看出。标准残差标准差为 1,二倍的标准差当然就 是 2 了,标准残差的数值原则要求处于-2~2 之间。 标准残差即残差的数据标准化结果,借助均值命令 average 和标准差命令 stdev 容易验 证,残差的算术平均值为 0,标准差为 1.337774。利用求平均值命令 standardize(残差的单 元格范围,均值,标准差)立即算出图 1-3-6 中的结果。当然,也可以利用数据标准化公式 var( ) * i i i z z z z − = i i z z σ − = 逐一计算。 将残差平方再求和,便得到残差平方和即剩余平方和: ( ˆ ) 16.10676 1 2 1 2 = ∑ = ∑ − = = = n i i i n i i SSe e y y . 利用 Excel 的求平方和命令 sumsq 容易验证上述结果。 第五部分,概率输出结果 在选项输出中,还有一个概率输出(Probability Output)表(图 1-3-6)。第六列是按等 差数列设计的百分比排位(percentile),这个序列的计算公式是 ) 2 1 *100 100( 2 2 1 n n k n k = − − 百分比排位= , 式中 k=1,2,…, n 为自然数构成的样品位序,n 为样品数目。对于我们的例子,n=10, k=1,2,…,10。因此,百分比位序为 5, 15, …, 95。 第七列则是因变量原始数据的自下而上排序(即从小到大)结果——选中图 1-1-1 中的 第三列(C 列)数据,用鼠标点击自下而上排序按钮 ,立即得到图 1-3-6 中的第七列数值。 当然,也可以沿着主菜单的“数据(D)→ 排序(S)”路径,打开数据排序选项框,进行数据 排序。 概率输出表需要借助图形才能进行有效分析