生产总值与老年比例的共同影响。由于这两个自变量作用方向相反,所以简单回 归系数将反映以上两种影响相互抵消后所剩余的有较大作用的那个部分的作用方 向。从以上结果便可以看出,老年人口比例的简单回归系数实际上反映的是经济 水平借助老年人口比例传递的粗死亡率的降低作用①。 3.一般回归模型 一般线性回归模型可写成如下形式 G=Bo+B1U1tb2u BLUk +E (11) 其中G是Y的函数,G=G(Y);U1,U2,…,Uk是X1,X2,…,Xk的一般函数,即 U,=U(X),=1 k。一个模型写成式(11)的形式,就可以用前述方法求 解出参数估计b0,b1,b2,…,b2。下面是几个变量变换的例子。 乘法模型 Y=B01X3…Xe 两边取自然对数,得到: In( Y)=In( Bo)+ Biln(X1)+ B2In(X2)++B: In(X, )+In(e)(12) 指数模型 B,1+B,NY,+…+B.N 两边取自然对数,有: (Y)=B0+B1X1+B2X2+…+BX (13) 指数模型2 BE YA 两边取倒数,减去1,再取自然对数 Bn+B1X1+B2X2+…+BX6 (14) 多项式模型(以两个自变量为例): 阶模型 Y=Bo+BIXI+B 二阶模型 Y= Bo+B,X1+ B,X2+B3X1+ BX2+ B5X,X2+E D参见郭志刚、郝虹生、杜亚军、曲海波:《社会调查研究的量化方法》,361页。 参见王学仁、温宗嶙编译:《应用回归分析》.88
式(12)至(15)均是式(11)的特例。在变量变换后,求解出的参数B0 B1,B2,…,Bk,作为G与U1,U2,…,Uk平面的斜率,意义与前面一致。 而作为Y与X1,X2,…,Xk曲面的斜率,解释则不再与前面相同。例如,式 (15)中含有X1,X2的二次项和它们的交可项X1X2,当X2不变时,X1变化 个单位,Y的平均变化为 B1+B3(2X1+1)+BsX2 这时Y的变化的大小不仅依赖于B1,还与B3和B5以及X1,X2的水平有关。 对X2而言,也是一样。因此X1的变化对Y的影响不再是常数B1,而是随X1, X2的变化而变化的。 4.多元回归模型估计的统计推断 多元回归当中,当式(7)中的ε满足所有最小二乘法假设条件时,最小二 乘估计b,b1,…,分别是B0,B1,…,B的最佳无偏估计。可以证明在 多元回归情形下y,y,bo,b,和y均是服从正态分布的随机变量。且样本回归 误差的期望值等于总体回归误差的方差,即 E[:]=E|2e ∑(y;-y (16) 这就是说,当总体方差a2未知时,可以通过样本统计量s2对σ2进行估计。其 中,s为样本误差的标准误,又称为估计标准误或误差标准误,用s代替a,可 以计算b0,b和y的估计标准误s0,s,和s,如表25所示。 表2-5 多元回归模型估计的统计推断 未知总体参数样本统计量 估计标准误 30 C =s×√C Y 注:c∞为式(9)中的矩阵C=(XX)中左上角第一个元素,cn为矩阵C对角线上第;个元素 c为矩阵C中第i行第,列的元素。SPSS回归程序不提供矩阵C,但是直接提供s和s,所以无需再讨论 co和cn的取得。但是进行预测时必须要用c值计算估计标准误,附录中5.介绍如何根据SPS输出信息 计算出
四、方程的解释能力 1.确定系数 我们想知道,一个解释性或者预测性的方程的效率如何,也就是说,所得到 的回归方程在多大程度上解释了因变量的变化,或者说方程对观察值的拟合程度 如何。如果没有回归方程,对y的估计只能采用平均值y估计。比如例1中,食 品支出的均值y=(130)∑y=793,用它估计任何一个地区的食品支出,比如 第10个样本,则误差为 852-793 如果应用人均收入信息并借助回归方程估计食品支出,根据x10=2101,由回归 方程式(3),有 y10=-53.09+0.42×2101=829.33 于是用y估计y的误差为 e10=y10-y0=852-829.3 y解释y变化的部分为: y10-y 829.33-793=36.33 因此增加了解释变量后,减少了对y的预测误差。上面三式可写为: 对n个观察值言,记TSS=∑(y-y)2为y与y的总平方和( total sum of squares),RSs=Σ(y-y)2为y解释y变化的回归平方和( regression sum of squares,),ESS=∑(y-y)2为y未能解释y变化的余差平方和( error sum of quires)。可以证明有 即总平方和可以分解为两部分,一部分是余差平方和,它是由于观察值没有落在 回归线(面)而引起的,是除了x1,x2,…,xk对y的线性影响之外的一切因 素(包括x1,x2,…,xk对y的非线性影响)对y总平方和的作用。另一部分 是回归平方和,它是由于x的变化而引起的,反映了由于x与y的线性关系而 产生的y的变化,是回归方程所能解释的部分。我们希望回归平方和越大越好。 用一个指标来表示回归平方和占总平方和的比例,记为R2 R2=(25y3 (17)
R2称为方程的确定系数( coefficient of determination),它取值在[0,1 之间。R2越接近1,表明方程中的变量对y的解释能力越强。通常将R2乘以 100%表示回归方程解释y变化的直分比 R2是SPSs回归程序的默认输出项目,它的输出标题是“ R Square”。本章 附录2.中用SPSS对例3回归的R2为0.88429,表示人均收入和价格共解释了 食品支出88%的变化 当采用曲线拟合数据时,R2可以作为选择不同模型的标准。读者可用表 2-2提供的数据自己试做例2回归方程,用总和生育率TFR对经过对数变换的 人均国民生产总值 LNPCGNP进行回归,得到的曲线回归方程的R2为0.76471 但是如果对原变量 PCGNP回归则R2为043793,因此表明前者对数据拟合好得 多 当模型中的变量是线性关系时,R2是方程拟合优度的度量。R2越大,说明 回归方程拟合数据越好,或者说x与y线性关系越强,即回归方程中的自变量 对y的解释能力越强。当R2等于1时,所有的观察值都落在拟合平面上。R2 越小.说明x与y的线性关系越弱,它们之间的独立性越强,或者说对x的了 解无助于对y的预测。当R2接近于0时,说明x与y几乎不存在线性关系,但 可能存在很强的非线性关系。 在有多个回归的情况下,我们采用下标来具体标注某一特定回归的R2。比 如,R12用来表示因变量y对自变量x1,x2,x3,x4回归时得到的R2。 图2-4的a、b、c和d显示了不同的数据分布情况①,它们的R2都近似等 于66%;但是它们的线性关系是不同的。图2-4a表示了一个规范的回归。 图24-b中可以看出散点呈曲线分布,所以通过变量转换可以更好地拟合数 据。图2-4-c表示,由于一个特异案例的存在(即回归线上方的一个点)造成 回归线偏离了绝大多数案例。在这种情况下,应该从数据中删除这个特异案例, 然后重新回归得到的方程估计更能代表绝大多数案例。图2-4-d则反映出对大 多数案例的情况来说,x对y并没有作用,但是由于一个特异案例的存在便求得 个R2值看起来相当不错的回归线。从以上图示可以得知,R2高并不表示模 型选择是否正确。从而在建立回归方程之前,通常应先观察散点图以确定合适的 模型,这时的R2才是有意义的。 ①这个例子由 Anscombe1973年构造,参见陈希孺、王松桂:《近代实用回归分析》,36 页
121y 8 6 15 图2-4—a 图 141y 8 6 15 005101520 图2-↓ 图2 2.调整的确定系数R2 随着自变量个数的增加,余差平方和逐渐减少,R2随之增大,尽管有的自 变量与y线性关系不显著,将其引入方程后,也会使R2增加。所以,R2是一 个受自变量个数与样本规模之比(k:n)影响的系数,一般的常规是1:10以上 为好。当这个比值小于1:5时,R2倾向于高估实际的拟合优度。为了避免这种 情形,常用调整的R减代替R Rad=r (1-R2)=1 k (1-R2) (18) 当k增加时 的增加的影响可能会大于(1-R2)= ESS/TSS的减少的 影响,从而使R2变得更小;因此R动可以识别自变量个数对R2的影响。当k 接近n时,R2将比R2小许多,当n远大于k时,R2≈R2 Rd也是SPSS回归程序的默认输出项目,它的输出标题是“ Adjusted R Square”本章附录2.中SPSS对例3的回归方程的R3为0.87572 3.多元相关系数R 对R2开方,就得到多元相关系数( multiple correlation)R