1.3多元线性回归与最小二乘估计1.假定条件、最小二乘估计量和高斯一马尔可夫定理多元线性回归模型:(1.1)y,=B+Bix+Bax+...+B-ixrk-I+u其中y是被解释变量(因变量),xj是解释变量(自变量),u是随机误差项,β,i=0,1,…,k-1是回归参数(通常未知)。对经济问题的实际意义:y与x,存在线性关系,Xj,j=0,1,…,k-1,是y的重要解释变量。u代表众多影响y变化的微小因素。使y的变化偏离了E(y)=β+βixa+βxe+.+1X1k-1决定的k维空间平面。当给定一个样本(yt,x,xexk-1),t=1,2,,T时,上述模型表示为yi=β+Bxn+Bx12+.+ik-1+ut,经济意义:xu,是y的重要解释变量。y2=B+βix21+Bax22+.+B-1X2k-1+u2,代数意义:y与xt,存在线性关系。几何意义:y表示一个多维平面。(1.2)y =B+BixTI+βx T2 +...+-iX Tk-I+uT此时y与xt已知,β与u未知。1[y]βoXjXI k=IuyβIy21uX21X2 k-X2j(1.3)::..1XTTLβk-I J(kxl)Lyr J(Tx)XTXT k-l[ur J(Tx1)Y=Xβ+u(1.4)为保证得到最优估计量,回归模型(1.4)应满足如下假定条件。假定(1)随机误差项u是非自相关的,每一误差项都满足均值为零,方差相同且为有限值,即[10000.0Var(u)=E(a")== 2E(u)=0[001[o]假定(2)解释变量与误差项相互独立,即E(X'u)= 0假定(3)解释变量之间不存在完全线性关系,即X或X'X是满秩的矩阵。rk(X'X) = rk(X) = k其中rk()表示矩阵的秩。假定(4)解释变量是非随机的,且当T→α时T'xX-Q其中Q是一个有限值的非退化矩阵。最小二乘(OLS)法的原理是求残差(误差项的估计值)平方和最小。代数上是求极值问题。1
1.3 多元线性回归与最小二乘估计 1.假定条件、最小二乘估计量和高斯—马尔可夫定理 多元线性回归模型: yt = β0 +β1xt1 + β2xt2 +.+ βk- 1xt k -1 + ut (1.1) 其中 yt 是被解释变量(因变量),xt j 是解释变量(自变量),ut 是随机误差项,βi, i = 0, 1, . , k - 1 是回归参数(通常未知)。 对经济问题的实际意义:yt 与 xt j 存在线性关系,xt j, j = 0, 1, . , k - 1, 是 yt 的重要解释 变量。ut 代表众多影响 yt变化的微小因素。使 yt 的变化偏离了 E( yt) = β0 +β1xt1 + β2xt2 +.+ βk- 1xt k -1 决定的 k 维空间平面。 当给定一个样本(yt , xt1, xt2 ,., xt k -1), t = 1, 2, ., T 时, 上述模型表示为 y1 = β0 +β1x11 + β2x12 +.+ βk- 1x1 k -1 + u1, 经济意义:xt j 是 yt 的重要解释变量。 y2 = β0 +β1x21 + β2x22 +.+ βk- 1x2 k -1 + u2, 代数意义:yt与 xt j 存在线性关系。 . 几何意义:yt 表示一个多维平面。 yT = β0 +β1x T 1 + β2x T 2 +.+ βk- 1x T k -1 + uT (1.2) 此时 yt 与 x t i已知,βj 与 ut 未知。 )1( 2 1 1 )1( 1 0 )( 1 1 21 2 12 11 1 11 )1( 2 1 1 1 1 × − × × − − − × ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ + ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ kT k k T T T Tj kT j k j k T T u u u xxx xxx xxx y y y # # " " """""" " " " " # β β β (1.3) Y = X β + u , (1.4) 为保证得到最优估计量,回归模型(1.4)应满足如下假定条件。 假定 ⑴ 随机误差项 ut 是非自相关的,每一误差项都满足均值为零,方差 σ 2 相同且 为有限值,即 E(u) = 0 = , Var (u) = E( ' ) = σ 2 I = σ 2 ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ 0 0 # uˆ uˆ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ 100 00 001 % 假定 ⑵ 解释变量与误差项相互独立,即 E(X 'u) = 0 假定 ⑶ 解释变量之间不存在完全线性关系,即 X 或 X 'X 是满秩的矩阵。 rk(X 'X) = rk(X) = k 其中 rk(⋅)表示矩阵的秩。 假定⑷ 解释变量是非随机的,且当 T → ∞ 时 T– 1X 'X → Q 其中 Q 是一个有限值的非退化矩阵。 最小二乘 (OLS) 法的原理是求残差(误差项的估计值)平方和最小。代数上是求极值 问题。 1
minS=(Y-Xβ)(Y-xp)=Y'Y-β'X'Y-Y"xβ+β'X'Xβ=Y'Y-2B'X'Y+B'X'XB(1.5)因为Y'Xβ是一个标量,所以有Y"Xβ=βX'Y。(1.5)的一阶条件为S= -2X'Y+2XXβ=0(1.6)ap化简得X'Y=X'XB因为(X'X)是一个非退化矩阵(见假定(3)),所以有β=(X'X)" X"Y(1.7)因为X的元素是非随机的,(X'X)-X是一个常数矩阵,则B是Y的线性组合,为线性估计量。求出β,估计的回归模型写为Y=x+a(1.9)其中β=(β。β:βk-I)是β的估计值列向量,a=(Y-Xβ)称为残差列向量。因为a=Y-Xβ= Y-X(X'X)'x'Y=[I-X(X'X)"X'JY(1.10)所以也是Y的线性组合。β的期望和方差是E(β)=E[(X'X)"x'Y]= E[(X'X)'X'(Xβ +u)]=β +(X'X)"'X'E(u)=β(1.11)Var(β)=E[(β-β(β-β)]=E[(X'X)"x'uux(X"X)"-E[(X"X)"X"IX(X"X)"] = ?(X"X)(1.12)高斯一马尔可夫定理:若前述假定条件成立,OLS估计量是最佳线性无偏估计量。β具有无偏性。β具有最小方差特性。β具有一致性,渐近无偏性和渐近有效性。2.残差的方差s=a'a/(T-k)(1.13)2是。2的无偏估计量,E(s2)=2。β的估计的方差协方差矩阵是Var(B)=$ (XX)l(1.14)3.多重确定系数(多重可决系数)Y=XB+a-Y+a(1.15)总平方和2
minS = (Y - X )' (Y - X ) = Y ' Y - X 'Y - Y ' X + β ˆ β ˆ β ˆ β ˆ ' β ˆ 'X 'X β ˆ = Y 'Y - 2 'X ' β Y + X 'X (1.5) ˆ β ˆ ' β ˆ 因为 Y 'X β 是一个标量,所以有 Y 'X = X 'Y。(1.5) 的一阶条件为: ˆ β ˆ β ˆ ' β ˆ ∂ ∂S = - 2X 'Y + 2X 'X β = 0 (1.6) ˆ 化简得 X 'Y = X 'X β ˆ 因为 (X 'X) 是一个非退化矩阵(见假定⑶),所以有 β ˆ = (X 'X) -1 X 'Y (1.7) 因为 X 的元素是非随机的,(X 'X) -1X 是一个常数矩阵,则 是 Y 的线性组合,为线性 估计量。 β ˆ 求出 ,估计的回归模型写为 β ˆ Y = X β + u (1.9) ˆ ˆ 其中 β = ( . )' 是 β 的估计值列向量, = (Y - X ) 称为残差列向量。因为 ˆ 0 ˆ β 1 ˆ β 1 ˆ β k− uˆ β ˆ uˆ = Y - X = Y - X (X 'X) -1X 'Y = [I - X (X 'X) -1 β X ' ]Y (1.10) ˆ 所以 也是 uˆ Y 的线性组合。 的期望和方差是 β ˆ E( ) = E[(X 'X) -1 X ' Y ] = E[(X 'X) -1 β X '(Xβ + u)] ˆ = β + (X 'X) -1X ' E(u) = β (1.11) Var( ) = E[( –β) ( –β)']= E[(X 'X) -1X ' u u' X (X 'X) -1 β ] ˆ β ˆ β ˆ = E[(X 'X) -1X ' σ 2 I X (X 'X) -1] = σ 2 (X 'X) -1 (1.12) 高斯—马尔可夫定理:若前述假定条件成立,OLS 估计量是最佳线性无偏估计量。 具 有无偏性。 具有最小方差特性。 具有一致性,渐近无偏性和渐近有效性。 β ˆ β ˆ β ˆ 2. 残差的方差 s 2 = uˆ ' uˆ / (T - k) (1.13) s 2 是σ 2 的无偏估计量,E(s 2 ) =σ 2 。 的估计的方差协方差矩阵是 β ˆ ∧ Var ( ) = s 2 (X 'X) -1 β (1.14) ˆ 3. 多重确定系数(多重可决系数) Y = X β + u = ˆ ˆ Yˆ + uˆ (1.15) 总平方和 2
SST-2L(0 -?-EL/3?-EL, 2,3+EL33-E?-2EJ,+?=YY-T2,(1.16)其中』是的样本平均数,定义为=()/T。同理,回归平方和为SSR=TO,-D)?= PP-T?(1.17)其中立的定义同上。残差平方和为SSE= (,-)?= ZLa?= a'a(1.18)则有如下关系存在,SST= SSR + SSE(1.19)SSR_Y-Ty?R2=(1.20)SST"YY-Ty?显然有0≤R2≤1。R2→1,拟合优度越好。4.调整的多重确定系数当解释变量的个数增加时,通常R?不下降,而是上升。为调整因自由度减小带来的损失,又定义调整的多重确定系数R?如下:SSE I(T -k)T-1SST-SSRT-1R2 =1-(1 R)(1.21)=1T-kSSTT-kSST I(T-1)5.OLS估计量的分布若u~N(O,。1),则每个u都服从正态分布。于是有Y~N(XB,)(1.22)因B也是u的线性组合(见公式1.7),依据(1.11)和(1.12)有β~N(β(X'X)")(1.23)6.方差分析与F检验与SST相对应,自由度T-1也被分解为两部分(T-1) =(k-1)+(T- k)(1.24)SSRSSE回归均方定义为MSR=误差均方定义为MSE=k-1T-k表1.1方差分析表平方和自由度均方方差来源回归k-1MSR = SSR / (k-1)SSR=yy-Ty?误差SSE=a'aT-kMSE = SSE / (T-k)SST= YY-Tj?T-1总和3
SST =∑ = − T t t yy 1 2 )( =∑ ∑ = = ∑ = − + T t T t T t t t y yyy 1 2 1 1 2 2 = 2 1 1 2 2 yTyyy T t T t ∑ ∑ t − t + = = = Y 'Y - T 2 y , (1.16) 其中 y 是 yt 的样本平均数,定义为 y = Ty 。同理,回归平方和为 T t t /)(∑ =1 SSR = ∑ = − T t t yy 1 2 ( ˆ ) = Yˆ 'Yˆ - T 2 y (1.17) 其中 y 的定义同上。残差平方和为 SSE = ∑ = = ' (1.18) = − T t tt yy 1 2 ( ˆ ) ∑ = T t t u 1 2 ˆ uˆ uˆ 则有如下关系存在, SST = SSR + SSE (1.19) R2 = 2 ˆˆ 2 yT yT SST SSR -YY Y'Y ′ − = (1.20) 显然有 0 ≤ R 2 ≤ 1。R 2 →1,拟合优度越好。 4. 调整的多重确定系数 当解释变量的个数增加时,通常 R2 不下降,而是上升。为调整因自由度减小带来的损 失,又定义调整的多重确定系数 2 R 如下: 2 R = 1 - )( ) 1 (1 )1/( )/( SST SSRSST kT T TSST kTSSE − − − −= − − = 1 - )1( 1 2 R kT T − − − (1.21) 5. OLS 估计量的分布 若 u ∼ N (0, σ 2 I ) ,则每个 ut 都服从正态分布。于是有 Y ∼ N (Xβ, σ 2 I ) (1.22) 因 也是 β ˆ u 的线性组合(见公式 1.7),依据(1.11)和(1.12)有 β ˆ ∼ N ( β, σ 2 (X 'X) -1 ) (1.23) 6. 方差分析与 F 检验 与 SST 相对应,自由度 T-1 也被分解为两部分, (T-1)= (k -1) + (T- k) (1.24) 回归均方定义为 MSR = k −1 SSR ,误差均方定义为 MSE = kT SSE − 表 1.1 方差分析表 方差来源 平方和 自由度 均方 回归 SSR =Y 'Y -T ˆ ˆ y 2 k-1 MSR = SSR / (k-1) 误差 SSE = uˆ ' uˆ T-k MSE = SSE / (T-k) 总和 SST= Y 'Y - T y 2 T-1 3
Ho: β=β=..=β-I =0;Hi:β不全为零MSR-SSR/(k-1)F=~ F(&-1,T-k)(1.25)MSESSE/(T-k)设检验水平为α,则检验规则是,若F≤Fα(k-1,T-k),接受Ho;若F>Fα(k-1,T-k),拒绝Ho。a/2a2a/2Fa(k-1,T-k)-ta(Fi)ta(T-k)0图3.1F检验示意图图3.21检验示意图7. 1 检验Ho: β,=0, (i=1,2,,k-1), Hi: β +0Bβ, / Jvar(β) j++ =β, / /s(X"X)-j1 ~ (T-k)(1.26)s(βB,)判别规则:若|<t(T-k)接受Ho;若|t>la(7-k)拒绝Ho。8.B的置信区间(1)全部β的联合置信区间接受F=(β-β)(X)(β-β)/ 2~Fa(,Tk)(1.27)(β-β)(XX)(β-β)≤skFα(hT-k),它是一个k维椭球。(1.28)(2)单个B的置信区间β= β,+ /vj s tan(T-k) :(1.29)9. 预测(1)点预测(1.30)C=(1 X7+11 XT+12 ... XT+1k-1 )则T+1期被解释变量yT+1的点预测式是,JT+=cp-βo+βi x+11+.. +β kI X+1k!(1.31)(2)E(yT+1)的置信区间预测首先求点预测式cβ的抽样分布E(jT+1)=E(Cβ) =Cβ(1.32)Var(jT+1) = Var(Cβ) =E[(Cβ-Cβ)(Cβ-Cβ)')=E[C(β-β)[C(β-β)]'}-CE[(β-β)(β-β)"JC4
H0: β1= β2 = . = βk-1 = 0; H1: βj 不全为零 F = MSE MSR = )/( )1/( kTSSE kSSR − − ∼ F(k-1,T-k) (1.25) 设检验水平为α,则检验规则是,若 F ≤ Fα(k-1,T-k),接受 H0;若 F > Fα(k-1,T-k) , 拒绝 H0。 图 3.1 F 检验示意图 图 3.2 t 检验示意图 7.t 检验 H 0:βj = 0, (j = 1, 2, ., k-1), H 1:βj ≠ 0 t = ) ˆ ( ˆ j j s β β = 1 2 1 1 )'( ˆ )ˆ ( ˆ + − + = j j jj β Var β β s XX ∼ t(T-k) (1.26) 判别规则:若⏐ t ⏐≤ tα(Τ−k) 接受 H 0;若⏐ t ⏐> tα(Τ−k) 拒绝 H 0。 8.βi 的置信区间 (1) 全部βi 的联合置信区间接受 F = k 1 (β - )' (X 'X) (β - ) / s 2 ∼ Fα (k, T-k) β (1.27) ˆ β ˆ ( β - )' (X 'X ) ( β - ) ≤ s 2 β k Fα (k, T-k),它是一个 k 维椭球。 (1.28) ˆ β ˆ (2) 单个βi 的置信区间 βi = β i ± ˆ j+1 v s tα/2(Τ−k) . (1.29) 9.预测 (1)点预测 C = (1 xT+1 1 xT+1 2 . xT+1 k-1 ) (1.30) 则 T + 1 期被解释变量 yT+1 的点预测式是, 1 ˆT + y = C β = 0 + 1 xT+1 1 + . + k-1 xT+1 k-1 (1.31) ˆ β ˆ β ˆ β ˆ (2)E(yT+1) 的置信区间预测 首先求点预测式 C β 的抽样分布 ˆ E( ) yˆT +1 = E(C β ) = Cβ (1.32) ˆ Var( ) = Var(C ) = E[(C - Cβ ) (C - Cβ ) ' ] 1 ˆT + y β ˆ β ˆ β ˆ = E[C ( β - β ) [C ( - β )] ' ]= C E[( - β ) ( - β ) ' ]C ' ˆ β ˆ β ˆ β ˆ 4
=CVar(β)C'=C (X'X)'c"=C(X'X)'c(1.33)因为β服从多元正态分布,所以Cβ也是一个多元正态分布变量,即JT+I=Cβ~N(CB C(XX)"C)(1.34)构成1分布统计量如下C-Cβ1=JT+I-E(T+L) _-(1.35)I(T-R)sc(Xx)'csc(x'x)-'cCβ± ta2(, T-k) s c(x'x)-c置信区间(1.36)(3)单个yT+1的置信区间预测yT+I值与点预测值>T+有以下关系(1.37)yT+I= T+I+ U7+1其中ut+1是随机误差项。因为(1.38)E(yT+1)=E(yT+I+ UT+1)=CβVar( yT+1)= Var(J+I) + Var(uT+1) = α? C(XX)'C'+ ?= α? (C(X'X)'C"+ 1)(1.39)因为β服从多元正态分布,所以yT+I也是一个多元正态分布变量,即yT+1 ~ N (Cβ, αC(X'X)'C'+ 1)与上相仿,单个yT+1的置信区间是Cβ ± tal2(T-k) S /c(X'X)-'C'+1(1.40)计算举例:(见《计量经济分析》第19-27页,熟悉矩阵运算)(file:ble1)10.预测的评价指标注意,以下6个公式中的e表示的是预测误差,不是残差。可以在样本内、外预测。(1)预测误差。预测误差定义为e, = J,-y, 1=T+1, T+2, ..是对单点预测误差大小的测量。(2)相对误差PE(PercentageError)。-y,= T+1, T+2, ..PE=yt是对单点预测相对误差大小的测量。(3)误差均方根rmserror(RootMeanSquaredError)Z(,-y,)?rmserrorVTt=l通过若干个预测值对预测效果进行综合评价。5
= C Var( )C '= C σ 2 (X 'X ) -1C ' = σ 2 C (X 'X ) -1 β C ' , (1.33) ˆ 因为 服从多元正态分布,所以 β C 也是一个多元正态分布变量,即 ˆ β ˆ 1 ˆT + y = C ∼ N (Cβ, σ 2 C (X 'X ) -1 β C ') (1.34) ˆ 构成 t 分布统计量如下 t = ')'( ˆ ( ˆ ) 1 1 1 CXXC − + − + s yEyT T = ')'( ˆ 1 CXXC CC − − s ββ ∼ t (T-k) (1.35) 置信区间 C β ± tα/2 (1, T-k) s ˆ ')'( 1 CXXC − (1.36) (3) 单个 yT+1 的置信区间预测 yT+1 值与点预测值 有以下关系 1 ˆT + y yT+1 = + uT+1 (1.37) 1 ˆT + y 其中 uT+1 是随机误差项。因为 E( yT+1) = E( + uT+1) = Cβ (1.38) 1 ˆT + y Var( yT+1) = Var( ) + Var(uT+1) = σ 2 C (X 'X) -1C ' + σ 2 1 ˆT + y = σ 2 (C (X 'X) -1C ' + 1) (1.39) 因为 服从多元正态分布,所以 β yT+1也是一个多元正态分布变量,即 ˆ yT+1 ∼ N (Cβ, σ 2 C (X 'X ) -1C '+ 1) 与上相仿,单个 yT+1 的置信区间是 C β ± tα/2 (T-k) s ˆ 1')'( 1 + − CXXC (1.40) 计算举例:(见《计量经济分析》第 19-27 页,熟悉矩阵运算)(file:b1e1) 10. 预测的评价指标 注意,以下 6 个公式中的 et 表示的是预测误差,不是残差。可以在样本内、外预测。 (1) 预测误差。预测误差定义为 et = - yt, t = T+1, T+2, . t yˆ 是对单点预测误差大小的测量。 (2) 相对误差 PE (Percentage Error)。 PE = t tt y ˆ − yy , t = T+1, T+2, . 是对单点预测相对误差大小的测量。 (3) 误差均方根 rms error (Root Mean Squared Error) rms error = ∑= − T t tt yy T 1 2 ( ˆ ) 1 通过若干个预测值对预测效果进行综合评价。 5