多重共线性“多重共线性”一词由R.Frisch1934年提出,它原指模型的解释变量间存在线性关系。1.非多重共线性假定rk(X'X)=rk (X)= k解释变量不是完全线性相关的或接近完全线性相关的。[rxg|1,1rxx|不近似等于1。就模型中解释变量的关系而言,有三种可能。(1)rxix=0,解释变量间非线性相关,变量间相互正交。这时已不需要多重回归,每个参数β都可以通过y对x的一元回归来估计。(2)1rxx|=1,解释变量间完全共线性。此时模型参数将无法确定。直观地看,当两变量按同一方式变化时,要区别每个解释变量对被解释变量的影响程度就非常困难。(3)0<|rxixl<1,解释变量间存在一定程度的线性相关。实际中常遇到的是这种情形。随着共线性程度的加强,对参数估计值的准确性、稳定性带来影响。因此我们关心的不是有无多重共线性,而是多重共线性的程度。2.多重共线性的经济解释(1)经济变量在时间上有共同变化的趋势。如在经济上升时期,收入、消费、就业率等都增长,当经济收缩期,收入、消费、就业率等又都下降。当这些变量同时进入模型后就会带来多重共线性问题。4.E+114.E+11GDP-.CONSGDPof HongKongW3.E+11 3.E+112.E+11..2.E+111.E+111.E+11*7CONS0.E+000.E+008082848688909294969800020.0E+005.0E+101.0E+111.5E+112.0E+112.5E+1(2)解释变量与其滞后变量同作解释变量。4.E+114.E+11GDPGDPMw.r3.E+113.E+11..:.n2.E+11.2.E+11..A1.E+111.E+11wets'GDP(-1)0.E+000.E+008082848688909294969800021.E+113.E+110.E+002.E+114.E+13.多重共线性的后果(1)当Irxx/=1,X为降秩矩阵,则(X'X)"不存在,β=(X'X)"X'Y不可计算。1
多重共线性 “多重共线性”一词由 R. Frisch 1934 年提出,它原指模型的解释变量间存在线性关系。 1.非多重共线性假定 rk (X 'X ) = rk (X ) = k 解释变量不是完全线性相关的或接近完全线性相关的。 | rxi xj | ≠1, | rxi xj | 不近似等于 1。 就模型中解释变量的关系而言,有三种可能。 (1)rxi xj = 0,解释变量间非线性相关,变量间相互正交。这时已不需要多重回归,每个 参数βj 都可以通过 y 对 xj 的一元回归来估计。 (2)| rxi xj | = 1,解释变量间完全共线性。此时模型参数将无法确定。直观地看,当两变 量按同一方式变化时,要区别每个解释变量对被解释变量的影响程度就非常困难。 (3)0 < | rxi xj | < 1,解释变量间存在一定程度的线性相关。实际中常遇到的是这种情形。 随着共线性程度的加强,对参数估计值的准确性、稳定性带来影响。因此我们关心的不是有 无多重共线性,而是多重共线性的程度。 2.多重共线性的经济解释 (1)经济变量在时间上有共同变化的趋势。如在经济上升时期,收入、消费、就业率等 都增长,当经济收缩期,收入、消费、就业率等又都下降。当这些变量同时进入模型后就会 带来多重共线性问题。 0.E+00 1.E+11 2.E+11 3.E+11 4.E+11 80 82 84 86 88 90 92 94 96 98 00 02 GDP CONS 0.E+00 1.E+11 2.E+11 3.E+11 4.E+11 0.0E+005.0E+101.0E+111.5E+112.0E+112.5E+1 CONS GDP of HongKong (2)解释变量与其滞后变量同作解释变量。 0.E+00 1.E+11 2.E+11 3.E+11 4.E+11 80 82 84 86 88 90 92 94 96 98 00 02 GDP 0.E+00 1.E+11 2.E+11 3.E+11 4.E+11 0.E+00 1.E+11 2.E+11 3.E+11 4.E+11 GDP(-1) GDP 3.多重共线性的后果 (1)当 | rxi xj | = 1,X 为降秩矩阵,则 (X 'X) -1 不存在, β ˆ = (X 'X) -1 X 'Y 不可计算。 1
(2)若「rxx|+1,即使|rxx|→1,β仍具有无偏性。E(β)=E[(X'X)'x'Y]=E[(X'X)-x(Xβ + u))=β +(X'X)'xE(u)= β(3)当|rxix|→1时,X"X接近降秩矩阵,即/XX|→0,Var(β)=α(X"X)"变得很大。所以β丧失有效性。以二解释变量线性模型为例,当rxix=0.8时,Var(β)为rxix=0时的Var(β)的2.78倍。当rxix=0.95时,Var(β)为rxig=0时的Var(β)的10.26倍。4.多重共线性的检验(1)初步观察。当模型的拟合优度(R2)很高,F值很高,而每个回归参数估计值的方差Var(B)又非常大(即1值很低)时,说明解释变量间可能存在多重共线性。(2)Klein判别法。计算多重可决系数R及解释变量间的简单相关系数rxij°若有某个Irx|>R2,则xi,x,间的多重共线性是有害的。(3)回归参数估计值的符号如果不符合经济理论,模型有可能存在多重共线性。(4)增加或减少解释变量个数时,回归参数估计值变化很大,说明模型有可能存在多重共线性。(5)此外还有其他一些检验方法,如主成分分析法等,很复杂。5.多重共线性的克服方法5.1直接合并解释变量当模型中存在多重共线性时,在不失去实际意义的前提下,可以把有关的解释变量直接合并,从而降低或消除多重共线性。如果研究的目的是预测全国货运量,那么可以把重工业总产值和轻工业总产值合并为工业总产值,从而使模型中的解释变量个数减少到两个以消除多重共线性。甚至还可以与农业总产值合并,变为工农业总产值。解释变量变成了一个,自然消除了多重共线性。5.2利用已知信息合并解释变量通过经济理论及对实际问题的深刻理解,对发生多重共线性的解释变量引入附加条件从而减弱或消除多重共线性。比如有二元回归模型(7.20)y=Bo+Bix+Bx+ux与x2间存在多重共线性。如果依据经济理论或对实际问题的深入调查研究,能给出回归系数β与β的某种关系,例如β=βi(7.21)其中入为常数。把上式代入模型(7.20),得(7,22)y=Bo+βix +BiX+u=Bo+B(x+x2)+ u令X,=X+1x得(7.23)i=B+βx+u模型(7.23)是一元线性回归模型,所以不再有多重共线性问题。用普通最小二乘法估计模型(7.23),得到B,然后再利用(7.21)式求出β,。下面以道格拉斯(Douglass)生产函数为例,做进一步说明。Y,=KLaCPe"(7.24)其中Y,表示产出量,L表示劳动力投入量,C表示资本投入量。两侧取自然对数后,(7.25)LnY,=LnK,+ αLnL, + βLnC,+u2
(2)若 | rxi xj | ≠1,即使 | rxi xj | →1, 仍具有无偏性。 β ˆ E( β ) = E[(X 'X) -1 X ' Y ] = E[(X 'X) -1X ' (Xβ + u)] = β + (X 'X) -1X ' E(u) = β. ˆ (3)当 | rxi xj | →1 时,X 'X 接近降秩矩阵,即 | X 'X | →0,Var( ) = σ 2 (X 'X) -1 变得很大。 所以 丧失有效性。以二解释变量线性模型为例,当 rxi xj = 0.8 时,Var( )为 rxi xj = 0 时的 Var( )的 2.78 倍。当 rxi xj = 0.95 时,Var( )为 rxi xj = 0 时的 Var( )的 10.26 倍。 β ˆ β ˆ β ˆ β ˆ β ˆ β ˆ 4.多重共线性的检验 (1)初步观察。当模型的拟合优度(R 2 )很高,F 值很高,而每个回归参数估计值的方 差 Var(βj) 又非常大(即 t 值很低)时,说明解释变量间可能存在多重共线性。 (2)Klein 判别法。计算多重可决系数 R2 及解释变量间的简单相关系数 rxi xj。若有某个 | rxi xj | > R2 ,则 xi,xj 间的多重共线性是有害的。 (3)回归参数估计值的符号如果不符合经济理论,模型有可能存在多重共线性。 (4)增加或减少解释变量个数时,回归参数估计值变化很大,说明模型有可能存在多重 共线性。 (5)此外还有其他一些检验方法,如主成分分析法等,很复杂。 5.多重共线性的克服方法 5.1 直接合并解释变量 当模型中存在多重共线性时,在不失去实际意义的前提下,可以把有关的解释变量直接 合并,从而降低或消除多重共线性。 如果研究的目的是预测全国货运量,那么可以把重工业总产值和轻工业总产值合并为工 业总产值,从而使模型中的解释变量个数减少到两个以消除多重共线性。甚至还可以与农业 总产值合并,变为工农业总产值。解释变量变成了一个,自然消除了多重共线性。 5.2 利用已知信息合并解释变量 通过经济理论及对实际问题的深刻理解,对发生多重共线性的解释变量引入附加条件从 而减弱或消除多重共线性。比如有二元回归模型 yt = β0+ β1 xt1 + β2 xt2 + ut (7.20) x1 与 x2 间存在多重共线性。如果依据经济理论或对实际问题的深入调查研究,能给出回归 系数β1 与β2的某种关系,例如 β2 = λβ1 (7.21) 其中 λ 为常数。把上式代入模型(7.20),得 yt = β0+ β1 xt1 + λβ1 xt2 + ut = β0 + β1 (xt1 + λ xt2) + ut (7.22) 令 xt = xt1 + λ xt2 得 yt = β0+ β1 xt + ut (7.23) 模型(7.23)是一元线性回归模型,所以不再有多重共线性问题。用普通最小二乘法估 计模型(7.23),得到 ,然后再利用( β ˆ 1 7.21)式求出 。2 ˆ β 下面以道格拉斯(Douglass)生产函数为例,做进一步说明。 Yt = K Lt α Ct β e ut (7.24) 其中 Yt 表示产出量,Lt 表示劳动力投入量,Ct表示资本投入量。两侧取自然对数后, LnYt = LnKt + αLnLt + βLnCt + ut (7.25) 2
因为劳动力(L)与资本(C)常常是高度相关的,所以LnL与LnC,也高度相关,致使无法求出α,的精确估计值。假如已知所研究的对象属于规模报酬不变型,即得到一个条件α+β= 1利用这一关系把模型(7.25)变为LnY,= LnK, + α LnL,+(1- α) LnC,+ u整理后,Y(L)+uLn()=Ln K,+αLn((7.26)CtCt变成了Ln(Y,IC)对Ln(L,/C)的一元线性回归模型,自然消除了多重共线性。估计出α后,再利用关系式α+β=1,估计β。5.3增加样本容量或重新抽取样本这种方法主要适用于那些由测量误差而引起的多重共线性。当重新抽取样本时,克服了测量误差,自然也消除了多重共线性。另外,增加样本容量也可以减弱多重共线性的程度。5.4合并截面数据与时间序列数据这种方法属于约束最小二乘法(RLS)。其基本思想是,先由截面数据求出一个或多个回归系数的估计值,再把它们代入原模型中,通过用因变量与上述估计值所对应的解释变量相减从而得到新的因变量,然后建立新因变量对那些保留解释变量的回归模型,并利用时间序列样本估计回归系数。下面通过一个例子具体介绍合并数据法。设有某种商品的销售量Y,模型如下,Ln Y,=βo+βLnP,+βLnI,+ut(7.29)其中Y,表示销售量,P,表示平均价格,I表示消费者收入,下标t表示时间。在时间序列数据中,价格P,与收入I,一般高度相关,所以当用普通最小二乘法估计模型(7.29)的回归系数时,会遇到多重共线性问题。首先利用截面数据估计收入弹性系数β。因为在截面数据中,平均价格是一个常量,所以不存在对β的估计问题。把用截面数据得到的收入弹性系数估计值β,代入原模型(7.29)。得LnY,= βo+ β Ln P, + β, Ln I,+ u移项整理LnY- β, Ln I,= β+ βr LnP, + u变换后的因变量(LnY,-β,Lnl)用Z表示,则Z,= β+ β LnP,+ ut(7.30)这时已排除收入变量的影响。模型已变换为一元线性回归模型。利用时间序列数据对模型(7.30)作普通最小二乘(OLS)估计,求出β,β。这样便求到相对于模型(7.29)的估计式,Lny,=Bo+β, Ln P,+B, Ln I其中β,是用截面数据估计的,βo,β是由时间序列数据估计的。由于把估计过程分作两步,从而避免了多重共线性问题。显然这种估计方法默认了一种假设,即相对于时间序列数据各个时期截面数据所对应的收入弹性系数估计值都与第一步求到的β相同。当这种假设不成立时,这种估计方法会带来估计误差。3
因为劳动力(Lt)与资本(Ct)常常是高度相关的,所以 LnLt 与 LnCt 也高度相关,致 使无法求出α,β的精确估计值。假如已知所研究的对象属于规模报酬不变型,即得到一个 条件 α + β = 1 利用这一关系把模型(7.25)变为 LnYt = LnKt + α LnLt + (1- α) LnCt + ut 整理后, Ln ( t t C Y ) = Ln Kt + α Ln ( t t C L ) + ut (7.26) 变成了 Ln (Yt /Ct) 对 Ln (Lt /Ct) 的一元线性回归模型,自然消除了多重共线性。估计出α后, 再利用关系式α + β = 1,估计β。 5.3 增加样本容量或重新抽取样本 这种方法主要适用于那些由测量误差而引起的多重共线性。当重新抽取样本时,克服了 测量误差,自然也消除了多重共线性。另外,增加样本容量也可以减弱多重共线性的程度。 5.4 合并截面数据与时间序列数据 这种方法属于约束最小二乘法(RLS)。其基本思想是,先由截面数据求出一个或多个 回归系数的估计值,再把它们代入原模型中,通过用因变量与上述估计值所对应的解释变量 相减从而得到新的因变量,然后建立新因变量对那些保留解释变量的回归模型,并利用时间 序列样本估计回归系数。下面通过一个例子具体介绍合并数据法。 设有某种商品的销售量 Yt 模型如下, Ln Yt = β0+ β1 Ln Pt + β2 Ln It + ut (7.29) 其中 Yt 表示销售量,Pt表示平均价格,It 表示消费者收入,下标 t 表示时间。 在时间序列数据中,价格 Pt 与收入 It 一般高度相关,所以当用普通最小二乘法估计模 型(7.29)的回归系数时,会遇到多重共线性问题。 首先利用截面数据估计收入弹性系数β2。因为在截面数据中,平均价格是一个常量,所 以不存在对β1 的估计问题。 把用截面数据得到的收入弹性系数估计值 代入原模型( β ˆ 2 7.29)。得 LnYt = β0+ β1 Ln Pt + 2 Ln It + ut ˆ β 移项整理 LnYt - Ln It = β0+ β1 LnPt 2 + ut ˆ β 变换后的因变量(LnYt - β ˆ 2 Ln It)用 Zt表示,则 Zt = β0+ β1 LnPt + ut (7.30) 这时已排除收入变量的影响。模型已变换为一元线性回归模型。利用时间序列数据对模型 (7.30)作普通最小二乘(OLS)估计,求出 , 。这样便求到相对于模型(7.29)的估 计式, 0 ˆ β 1 ˆ β = + Ln Pt + Ln It ∧ LnYt 0 ˆ β 1 ˆ β 2 ˆ β 其中 是用截面数据估计的, β ˆ 2 β ˆ 0 , β ˆ 1 是由时间序列数据估计的。 由于把估计过程分作两步,从而避免了多重共线性问题。显然这种估计方法默认了一种 假设,即相对于时间序列数据各个时期截面数据所对应的收入弹性系数估计值都与第一步求 到的 相同。当这种假设不成立时,这种估计方法会带来估计误差。 2 ˆ β 3
5.5逐步回归法(1)用被解释变量对每一个所考虑的解释变量做简单回归。并给解释变量的重要性按可决系数大小排序。(2)以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按解释变量重要性大小为顺序逐个引入其余的解释变量。这个过程会出现3种情形。①若新变量的引入改进了R?,且回归参数的1检验在统计上也是显著的,则该变量在模型中予以保留。②若新变量的引入未能改进R,且对其他回归参数估计值的1检验也未带来什么影响,则认为该变量是多余的,应该舍弃。③若新变量的引入未能改进R,且显著地影响了其他回归参数估计值的符号与数值,同时本身的回归参数也通不过1检验,这说明出现了严重的多重共线性。舍弃该变量。案例1:关于中国电信业务总量的计量经济模型(file:coline2)经初步分析,认为影响中国电信业务总量变化的主要因素是邮政业务总量、中国人口数、市镇人口占总人口的比重、人均GDP、全国居民人均消费水平。用1991-1999年数据建立中国电信业务总量计量经济模型如下,Ln y= 24.94 + 2.16 xi 3.03 x2 + 33.7 x3 + 1.29 x4 - 2.03 xs(0.7)(1.6)(-0.8)(1.0)(1.5)(-1.2)R =0.9944, F=106.3, DW= 3.4, T=9, (1991-1999),to.05(3)=3.18,R=0.99,而每个回归参数的1检验在统计上都不显著,这说明模型中存在严重的多重共线性。Dependent Variable:LOG(Y)Method: Least SquaresDate:04/18/04Time:07:58Sample:19911999Includedobservations:9VariableCoeficientStd.Errort-StatisticProb.c0.562924.9366038.452070.648511X12.1636311.3523221.5999380.2079X2-3.0345513.986712-0.7611660.5019X30.381433.7133332.939431.023495X40.22001.2888600.8340691.545267X5-2.0271911.664341-1.2180140.31030.9943852.013502R-squaredMean dependent varAdjusted R-squared0.985027S.D. dependent var1.018022-1.093179S.E.of regression0.124570Akaikeinfocriterion0.046553-0.961696Sum squared residSchwarz criterion10.91930F-statistic106.2583Log likelihoodDurbin-Watson stat3.408677Prob(F-statistic)0.0014214
5.5 逐步回归法 (1)用被解释变量对每一个所考虑的解释变量做简单回归。并给解释变量的重要性按可 决系数大小排序。 (2)以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按解释变量重要性 大小为顺序逐个引入其余的解释变量。这个过程会出现 3 种情形。①若新变量的引入改进了 R2 ,且回归参数的 t 检验在统计上也是显著的,则该变量在模型中予以保留。②若新变量的 引入未能改进 R2 ,且对其他回归参数估计值的 t 检验也未带来什么影响,则认为该变量是多 余的,应该舍弃。③若新变量的引入未能改进 R2 ,且显著地影响了其他回归参数估计值的 符号与数值,同时本身的回归参数也通不过 t 检验,这说明出现了严重的多重共线性。舍弃 该变量。 案例 1:关于中国电信业务总量的计量经济模型(file:coline2) 经初步分析,认为影响中国电信业务总量变化的主要因素是邮政业务总量、中国人口数、 市镇人口占总人口的比重、人均 GDP、全国居民人均消费水平。用 1991-1999 年数据建立 中国电信业务总量计量经济模型如下, Ln y = 24.94 + 2.16 x1 – 3.03 x2 + 33.7 x3 + 1.29 x4 - 2.03 x5 (0.7) (1.6) (-0.8) (1.0) (1.5) (-1.2) R2 = 0.9944, F = 106.3, DW = 3.4, T = 9, (1991-1999), t0.05(3) = 3.18, R2 = 0.99,而每个回归参数的 t 检验在统计上都不显著,这说明模型中存在严重的多重 共线性。 4
LOG(Y)2010X1X1.01.52.00.51.01.52.0LOG(Y)30202100011.611411.612.012611.411.812:212.611.812.2122.040LOG(Y)3020210X3X30.310.260.270.280.290.300.260.270.280.290.300.31afLOG(M)3002101.X4oLOG(Y)320210X5X5001.03.01.02.03.00.54.52.02130.51.52.53.5下面用Klein判别法进行分析。首先给出解释变量间的简单相关系数矩阵。因为其中有一个简单相关系数大于R2=0.9944,所以根据Klein判别法,模型中存在严重的多重共线性。5
0 10 20 30 40 0.5 1.0 1.5 2.0 X1 Y 0 1 2 3 4 0.5 1.0 1.5 2.0 X1 LOG(Y) 0 10 20 30 40 11.4 11.6 11.8 12.0 12.2 12.4 12.6 X2 Y 0 1 2 3 4 11.4 11.6 11.8 12.0 12.2 12.4 12.6 X2 LOG(Y) 0 10 20 30 40 0.26 0.27 0.28 0.29 0.30 0.31 X3 Y 0 1 2 3 4 0.26 0.27 0.28 0.29 0.30 0.31 X3 LOG(Y) 0 10 20 30 40 1 2 3 4 5 6 7 X4 Y 0 1 2 3 4 1 2 3 4 5 6 7 X4 LOG(Y) 0 10 20 30 40 0.5 1.0 1.5 2.0 2.5 3.0 3.5 X5 Y 0 1 2 3 4 0.5 1.0 1.5 2.0 2.5 3.0 3.5 X5 LOG(Y) 下面用 Klein 判别法进行分析。首先给出解释变量间的简单相关系数矩阵。因为其中有 一个简单相关系数大于 R 2 = 0.9944,所以根据 Klein 判别法,模型中存在严重的多重共线性。 5