样本量的增加,其和ε将渐近于正态分布。因此在大多数情况下,假设ε服从正 态分布是合理的。此外,由于模型参数的检验以t分布为基础,ε如果稍微偏 离正态分布对参数检验的影响也不会很大①。因此多元线性回归大都采用 正态分布的标准假设,从而可以应用上述结论进行参数的区间估计和显著性检 验 在满足所有假设条件的情况下,样本误差e,的方差的数学期望值等于总体 方程的随机误差项的方差a2,用公式表达为: ∑(e=E/(y-y21= 其中n-2称为样本拟合误差的均方和,用表示。通常a2是未知的,因此 可以用s2对a2进行估计。记s为拟合误差均方和的平方根,它称为样本误差 的标准误,简称误差标准误或估计标准误。用。代替σ,即能根据相应公式得到 A,B和Y的标准差aA,B和y的估计s,sb,sy,它们分别简称为a、b和 的标准误,通过它们可以完成对总体参数的区间估计。总体参数及其对应的样本 估计在表2-4中提供。 表2 一元回归模型估计的统计推断 未知总体参数 样本统计量 估计标准误 1 Sh- se /1(x0-x)2 ∑(x-x)2 注:估计标准误即统计量抽样分布的标准差,这一抽样分布以总体参数为平均值。 可以证明,在满足所有假设条件下,最小二乘估计a,b,y在所有可能的 参见王学仁、温宗嶙编译:《应用回归分析》,11页;[美]约翰·内特、威廉·沃塞 曼、迈克尔H库特纳:《应用线性回归模型》,49页
无偏线性估计量中具有最小方差①,即最小二乘估计的a,b,y比别的关于Y 的线性无偏估计量更精确。我们称满足正态假设条件的一般线性回归模型的估计 为最佳无偏估计( Best Linear Unbiased Estimator,简略标志为BLUE) 但是,必须强调表2-4中所列的样本统计量在用于总体推断时,必须在满 足高斯假设条件和正态分布假设的情况下才成立,如果实际情况不符合这些假设 条件,便不能保证总体推断的正确性。 违反假设条件时应用最小二乘法估计对总体推断可能产生不好的影响≌,简 略概括如下 (a)如果零均值性假设被违反,比如总体误差项的条件平均值不等于0,而 等于一个常数C的情况下,可以证明,对抽样样本以最小二乘法所得到的a的 条件期望不等于总体的A,而等于A+C。也就是说,高斯假设条件(a)违反 的情况下,最小二乘法对于回归方程常数项的估计不再是无偏估计,由此导致样 本估计值y=a+bx对于总体Y的估计也是有偏的,偏差(bias)为C。 (b)如果等方差性假设条件被违反,最小二乘估计虽然仍是无偏的(unbi ase、即所有可能样本的估计的平均值等于总体参数真值)和一致的 ( consistent,即随着样本规模的不断扩大时,有样本统计量依概率收敛于总体参 数真值),但不再是有效的( efficient,指同类估计中方差最小)。最佳无偏估计 必须包含无偏、一致、有效三方面性质,违反等方差性假设将使最小二乘估计的 推断损失精度( precision),因而不再是最佳估计。此外,在等方差性假没违反 的情况下,估计的抽样方差将不能再根据最小二乘估计计算,即不能再用介绍统 计推断的表2-4(以及后面介绍多元回归统计推断的表2-5)中的样本估计公 式来计算。因为实际上的抽样标准误大于这些估计标准误。再用这些公式计算, 便会低估标准误.夸大了样本回归推断总体的效率,导致错误的推断结论。 (c)如果误差项相互独立的假设条件被违反,即案例按X观察值列出的序列 中,前项的误差与后项的误差之间出现序列相关。这种情况多发生于时间序列数 据。在发生序列相关的情况下,其后果与等方差性假设条件被违反的后果相同, 即虽然最小二乘估计仍保持无偏性和一致性,但它不再是有效的,所以按常规方 法进行的统计推断会得出严重错误的结论。 (d)如果违反误差项与自变量之间相互独立的假设条件对于一般单方程的回 ⑩高斯马可夫定理证明参见,陈希孺、王松桂:《近代实用回归分析》,1版,41-42 页.南宁,广西人民出版社,984 ②参见[美」D.格杰雷蒂:《计量经济学概论》,183~266页
归影响不大,因为我们假设ⅹ不是随机变量,而是一般变量(非随机变量)。所 以很多关于回归分析的教材并不提及此项假设。但是如果研究模型不是一个回归 方程,而是一个联立回归方程组时①,一个方程的自变量会在另一个方程中成为 因变量,于是这个变量便不能再假设为一般变量。一个回归方程的误差项可能会 与本方程的自变量相关,便会严重损害最小二乘估计的统计性质。在这种情况 下,这一假设条件的违反会使最小二乘估计丧失无偏性和一致性。但是,如果 X不是随机变量,同时高斯假设条件(a)成立,那么假设条件(d)也自然满 足。并且即使X是一个随机变量,只要X和ε无关,建立在最小二乘法基础上 的回归仍然有效。 e)如果违反总体误差项为正态分布的假设条件,最小二乘估计不再是最佳 无偏线性估计,另外由正态假设所推导的一系列总体推断公式便失去了合理性 以上我们讨论了一元回归分析的假设条件和违反假设条件时的后果。尽管有 时一些假设在违反不太严重的情况下,最小二乘估计仍然可以取得可接受的结 果,但是研究人员应当对此保持谨慎。 由于总体情况经常是未知的,如何检验上述有关总体误差项的假设呢?对ε 的假设检验,可以通过观察样本误差e的散点图来进行。在变量变换中,如果对 因变量y做了变换,要检验变换后模型是否满足误差独立且服从Nor(O,σ2) 的假设条件;如果仅对自变量进行变换,因为假设它们是一般变量,则与误差无 关。目前,已经有一些通过样本数据的统计指标来反映上述假设是否违反。 SPSS软件的回归程序能够提供其中的一些,对此将在附录3.中进行介绍。 三、多元线性回归模型 在本节中,我们要将一元回归推广到多元回归。在具体介绍有关分析之前 需要说明,以上讨论的所有一元回归的假设条件都适用于多元线性回归 1.多元线性回方程 现在来看有多个自变量的线性回归问题。实际工作中,往往影响Y的因素 不只一个。一般地,设因变量Y与k个自变量X,X2,…,线性相关: Y= B0+B,X1+B2X2+.+ BkX&+E (7) ①本书第五章的通径分析便是关于这种联立回归方程组模型的介绍
其中Y为可观察的随机变量,X1,X2,…,X为可观察的一般变量,B B1,…,B为待定模型参数,其中B0为截距,相当于简单回归中的a。式(7) 中的c仍然定义为是不可观测的随机误差。由n组独立观察的样本数据(y;, n,代入方程(7)中,有 y=b+b1x+b2x12+…+bx决+e; 其中n个随机变量e,相互独立且服从同一正态分布Nor(0,a2)。根据最小二乘 原则,求B0,B1,…,B的估计值b,b1,…,b,使上式的误差平方和 (e1)2=Σ[y2-(bo+b1x1+b2x;2+…+bx 最小,为此将上式分别对b0,b b求偏导数,令其等于0,当x1,x2, xk相互独立时,由极值原理,可求出总体回归系数矩阵B总体=[B0B B]7的估计值矩阵B样本=[bob1…bk]T0 B样本=(XTX)Xy (9) x11 其中,X= 1x21x2x和Y=为观察数据矩阵。 1 Inl 于是得到回归方程 b 2.回归平面和回系数的意义 回归方程(10)称为回归平面,它拟合(y,x1,x2,…,xk)形成的k+ 1维空间的散点(y,x1,x12,…,x),1=1,2, 使观察值沿y轴 的方向到平面距离(即y与拟合值y;之差)的平方和最小:使误差之和∑e;= ∑y2-y;]等于0;并通过(y,x1,x2,…,xk)点和(b0,0,0 点;平面上的点y是在x1=x1,x2=x2,…,xk=xk条件下y的平均值的估 计。 b,b1,…,b称为回归平面的系数。b0=y-b1x1-b1x2-…-bx,为 平面在y轴上的截距。b,j=1,2,…,k,表示其他变量x;在i=1,2 (i≠)固定时,x1每变化一个单位,y的平均变化。这时x的变化对y的影 ①证明请参见有关多元线性回归的著作
响,无论其他变量在什么水平上,都是相等的;而y的取值则与各个变量的当 前水平有关。 例3.前面例1一元线性回归中讨论了食品支出与收入的关系,但是消费水 平往往还与物价有关,物价高的地区消费水平也高。为此将价格因素考虑进去, 设食品支出y与人均收入x1、粮食价格x2满足下面的线性关系式 y= 60+ bIr1+622+e 用表2-1的数据做回归,求解得b=-87.38,b1=0.35,b2=20654,于是得到 回归方程 87.38+0.35x1+206.54x2 它表示回归平面在Y轴上的截距为-87.38。当价格固定时,收入每上升1元, 食品支出上升0.35元,或者说收入的每1元对食品支出的贡献为0.35元。而当 人均收人固定时,价格每上升1元,食品支出上升206.54元,或者价格的每一 元对食品支出的贡献是206.54元。 由此可见,考虑了物价因素以后,收入对食品支出的作用有所减少。这是因 为收入高的地区,往往物价高、支出大;所以多元回归系数b是去除x;与其他 自变量对y的共同影响后,x对y的边际影响,因此又称b为偏( partia)回归 系数。而一元回归系数则是x及未包括进方程中的其他与x有关的一切因素对 的总影响。 应用SPSS回归程序分析此例题的操作和输出结果见附录中2.。 例4.用1988年世界若干国家的粗死亡率(y)对其65岁以上人日占总人口 的比例(x1)和人均国民生产总值(x2)做回归(此例数据未提供,仅讨论回 归结果),得到 y=11.932+0.152x1-0.00043x2 即老年人口比例增加对粗死亡率有提高的作用,人均国民生产总值增加对粗死亡 率有降低的作用。但是,如果仅用老年人口比例x1与粗死亡率y做回归,则有 y=12.45-0.204x 即老年人口比例越高,粗死亡率越低。这一结果正好与多元回归结果相反。为什 么会出现这种情况呢?这是因为经济发达的国家医疗保健设施完善,人口平均寿 命延长,所以老年人口比例很高。这就是说,数据中老年人口比例与人均国民生 产总值之间存在高度相关,如果仅用老年人口比例与粗死亡率做回归,则它的简 单回归系数反映的是两部分影响之和。一部分影响是老年人口比例独立的影响, 另一部分是因为与人均国民生产总值相关部分的影响。后者可以认为是人均国民