含护会病-驴+宫x-5 (2.55) 其中,之(y-称为总平方和,简记为SST或Sa或Lw·ST表示Sum of Squares for Total. 之(-P称为回归平方和,简记为SSR或S图,R表示Regrcssio。 之(y-5)P称为残差平方和,简记为SSE或S,E表示Emor。 因而平方和分解式可以简写为 SST=SSR+SSE 请读者根据(2.27)式白己证明平方和分解式。 总平方和反映因变量y的波动程度或称不确定性,在建立了y对x的线性回 归后,总平方和SST就分解成画归平方和SSR与残差平方和SSE这两个组成部 分,其中SR是由回归方程确定的,也就是由自变量x的波动起的,SSE是不能 用白变量解释的波动,是由x之外的未加控制的因素引起的。这样,总平方和 SST中,能够由自变量解释的部分为SSR,不能由自变量解释的部分为SSE。这 样,回归平方和SS℉越大,回归的效果就越好,以据此构造F检验统计量如下 (2.56) 在正态假设下,当原假设Io:A,=0成立时,F服从自由度为(1,n-2)的F分 布。当F值大于临界值F(1,n~2)时,拒绝H,说明回归方程显著,x与y有 显著的线性关系。也可以根据P值作检验,具体检验过程可以放在方差分析表 中进行,如表2.3所示。 表2.3 一元线性回归方整分析表 ,方差来源工自由度平方和 均方 P值 D SSR/1 P(F>F值) n-2 SSE/(n-2) SSE/(n-2) =P值 总和 对例2.1题的数据,Exl软件计算的结果见输出结果2.1的方差分析表 由表中看到F=156.8862,P值=1.25×108。SPSS软件的输出结果2.2中 ANOVA即为方差分析表,ANOVA表示Analysis of Variance。两个软件的结果 是一致的。 36 PDF created with pdfFactory Pro trial version www.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com
四、相关系数的显著性检验 出于一元线性回归方程讨论的是变量x与变量y之间的线性关系,所以我 们可以用变量x与y之间的相关系数来检验回归方程的显著性。设(x:,y),:= 1,2,…,n是(x,y)的n组样本观测值,我们称 1 r= L (2.57) 为x与y的简单相关系数,简称相关系数。其中,L,L,L,与前边定义相 同。相关系数,表示x和y的线性关系的密切程度。相关系数的取值范围为 |,≤i。相关系数的直观意义如图2.4所示。 r=t (6) (d 0< <0 (e) 图2.4 图2.4中的(a)、(b)和(c)、(d)是四种极端情祝,即当x与y有精确的线性 37 PDF created with pdfFactory Pro trial version www.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com
关系时,r=1或r=-1。r=1表示x与y之间完全正相关,所有的对应点都 在一条直线上;r=-1表示x与y之间完全负相关,对应点也都在一条直线上。 这实际上就是一种确定的线性函数关系,它并不是统计学中研究的主要内容。图 中()这种极端情况,说明所有的样本点分布杂乱无章,变量x与y之间没有相 关关系,即r=0。在实际中r=0的情况很少,往往我们拿来毫不相干的两个变 量序列,计算相关系数绝对值都会大于零。图中()这种情况,表明x与y有确 定的非线性函数关系,或称曲线函数关系。此时|r<1,并不等于1,这是因为 简单相关系数只是反映两个变量问的线性关系,并不能反映变量间的非线性关 系。因而,即使r=0也并不能说明x与y无任何关系。 当变量x与y之间有线性统计关系时,0<lr|<1,如图2.4中()、()所示。 统计学中主要研究这种非确定性的统计关系。()图表示x与y是正的线性相关, ()图表示x与y是负的线性相关。我们在实际问题中经常碰到的是这两种情况。 由(2.57)式和回归系数月,的表达式可得 (2.58) 由上式可以看到一个很有用的结论,即一元线性回归的回归系数月的符号 与相关系数r的符号相同。 这里需要指出的是,相关系数有个明显的缺点,就是它接近于1的程度与数 据组数n有关,这样容易给人一种假象。因为,当较小时,相关系数的绝对 值容易接近于1;当n较大时,相关系数的绝对值容易偏小。特别是当n=2 时,相关系数的绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较 大就说变量x与y之间有密切的线性关系,就显得匆忙。在第三章的多元线性 回归中,我们还将进一步讨论这个问题。 本书附录中有相关系数的检验表,表中是相关系数绝对值的临界值。当我们 计算变量x与y的相关系数绝对值大于表中之值时,才可以认为x与y有线性 关系。通常当|r|大于表中α=5%相应的值,但小于表中a=1%相应的值时, 称x与y有显著的线性关系;如果|r|大于表中a=1%相应的值时,称x与y 有十分显若的线性关系;如果|r小于表中α=5%相应的值时,就认为x与y没 有明显的线性关系。 相关系数的计算也可以用软件完成,在Ex©l软件的数据分析对话框中,选 择相关系数即可算出例2.1数据的相关系数为r=0.960978。 例2.1中n=15,表中a=5%(n-2=13)相应的值为0.514,a=1%相应 PDF created with pdfFactory Pro trial version www.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com
的值为0.641.而,=0.961>0.641。因此说明火灾地点与最近消防站的距离同 损失之间有十分显著的线性依赖关系。 用SPSS软件计算相关系数有两种方法,笋一种方法是点选Statistics→ Correlate→Bivariate进人相关系数对话框,点选Pearson计算出x与y的简单相 关系数,其中Bivariate是二项的含义,表示计算两个变量的相关系数,Pearson 相关系数就是(2.57)式定义的简单相关系数。另外对话框中还有选项Two-tail与 One-tail,,代表对相关系数作双侧检验与单侧检验,检验的统计量为 t=n2r (2.59) y1-r 当引t|>ta(n一2)时,认为y与x的简单回归系数显著不为零,软件中设有给 出1值,而是直接给出了P值(Sg),对例2.1火灾损失的数据,计算出y与x 的相关系数输出结果见输出结果2.3。同样得到y与x的相关系数r=0.951,由 P值近似为零,可知y与x的简单相关系数是显着不为零的。 用SPSS软件对简单相关系数的另外一种检验方法是直接在线性回归对话框 内完成,点选线性回归对话框下面的Statistics(统计量)选项,进入统计量选项 对话框,可以看到默认选项为Estimates和Model fit两项,再点选Discriptive, 点选右边的Continue.,回到线性回归对话框,计算的输出结果就增加了y与.x的 简单回归系数,及单侧检验的P值。对于对称分布的统计量,单侧检验的P值 的2倍就是双侧检验的P值。 输出结果2.3 1.000 15 1.000 15 五、三种检验的关系 前面介绍了回归系数显著性的t检验、回归方程显著性的F检验、相关系 数显著性的:检验这三种检验。那么这三种检验之间是否存在一定的关系?回答 是肯定的。对一元线性回归这三种检验的结果是完全一致的。可以证明,回归系 数显著性的t检验与相关系数显著性的t检验是完全等价的,(2.52)式与(2.59) 式是相等的,而(2.56)式的F统计量则是这两个t统计量的平方。因而对一元 线性回归实际只需要作其中的一种检验即可。然而对多元线性回归这三种检验所 39 PDF created with pdfFactory Pro trial version www.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com
考虑的阿题已有不同,所以并不等价,是三种不同的检验 六、样本决定系数 由回归平方和与残差平方和的意义我们知道,如果在总的离差平方和中回归 平方和所占的比重越大,则线性回归效果就越好,这说明回归直线与样本现测值 拟合优度就越好:如果残差平方和所占的比重大,则回归直线与样本观测值拟合 得就不理想。这里把回归平方和与总离差平方和之比定义为样本决定系数,记为 2,即 器 之8-那 (2.60) 2(%-驴 由关系式 之(-=朗2(x- (2.61) 可以证明(2.60)式的2正好是(2.57)式中相关系数r的平方。即 -器 L到=(r户 (2.62) 决定系数2是一个回归直线与样本观测值拟合优度的相对指标,反映了因变 量的波动中能用自变量解释的比例。r2的值总是在0和1之间,也可以用百分数 表示。一个线性回归模型如果充分利用了x的信息,因变量不确定性的绝大部分 能由回归方程解释,则2越接近于1,拟合优度就越好。反之,如,2不大,说明从 模型中给出的x对y的信息还不充分,回归方程的效果不好,应进行修改,使x与 y的信息得到充分利用。 一般而言,回归方程的显著性检验与2值的大小是一致的,即检验越显著(P 值超小),2就越大,但是这种关系并不是完全确定的,在样本容量很大时,对高 度显著的检验结果仍然可能得到一个小的2。导致2小的可能原因有两个,第 一是线性回归不成立,y与x之间是曲线关系,这时应该用曲线回归。第二是y与 x之间的确符合(2.1)式的线性模型,只是误差项方差2大,导致r2小,这时 在样本容量n很大时,检验结果仍然可能得出线性回归显著的结论。正确区分 以上两种不同情况是重要的,在对自变量有重复观测时可以通过检验正确区分以 上两种不同情况,而经济数据建摸通常不能得到重复观测,这时可以通过下面 节介绍的残差分析方法来正确区分以上两种不同情况。 40 PDF created with pdfFactory Pro trial version www.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com