一元线性回归模型1.一元线性回归模型有一元线性回归模型(统计模型)如下,y=+βix+ur上式表示变量y和x之间的真实关系。其中y称被解释变量(因变量),x称解释变量(自变量),u称随机误差项,β称常数项,β称回归系数(通常未知)。上模型可以分为两部分。(1)回归函数部分,E(y)=β+βix,(2)随机部分,ut。284?242016.J=80+81X12X10203040506070图2.1真实的回归直线这种模型可以赋予各种实际意义,收入与支出的关系;如脉搏与血压的关系:商品价格与供给量的关系:文件容量与保存时间的关系;林区木材采伐量与木材剩余物的关系;身高与体重的关系等。以收入与支出的关系为例。假设固定对一个家庭进行观察,随着收入水平的不同,与支出呈线性函数关系。但实际上数据来自各个家庭,来自各个不同收入水平,使其他条件不变成为不可能,所以由数据得到的散点图不在一条直线上(不呈函数关系),而是散在直线周围,服从统计关系。随机误差项u中可能包括家庭人口数不同,消费习惯不同,不同地域的消费指数不同,不同家庭的外来收入不同等因素。所以在经济问题上“控制其他因素不变”是不可能的。回归模型的随机误差项中一般包括如下几项内容,(1)非重要解释变量的省略,(2)人的随机行为,(3)数学模型形式欠妥,(4)归并误差(粮食的归并)(5)测量误差等。回归模型存在两个特点。(1)建立在某些假定条件不变前提下抽象出来的回归函数不能百分之百地再现所研究的经济过程。(2)也正是由于这些假定与抽象,才使我们能够透过复杂的经济现象,深刻认识到该经济过程的本质。通常线性回归函数E(y)=β+βix,是观察不到的,利用样本得到的只是对E(y)=β+βx,的估计,即对阝和β的估计。在对回归函数进行估计之前应该对随机误差项u做出如下假定。(1)u是一个随机变量,u的取值服从概率分布。(2) E(u) = 0。(3)D(u)=E[u-E(u)}=E(u)=α。称ui具有同方差性。(4)u为正态分布(根据中心极限定理)。以上四个假定可作如下表达。u~N(0,)。(5)Cov(ui,u)=E[(ui-E(u))(uj-E(u)))=E(ui,u)=0,(ij)。含义是不同观测值所对应的随机项相互独立。称为u的非自相关性。(6)x是非随机的。1
一元线性回归模型 1.一元线性回归模型 有一元线性回归模型(统计模型)如下, yt = β0 + β1 xt + ut 上式表示变量 yt 和 xt 之间的真实关系。其中 yt 称被解释变量(因变量),xt 称解释变量(自 变量),ut 称随机误差项,β0 称常数项,β1 称回归系数(通常未知)。上模型可以分为两部分。 (1)回归函数部分,E(yt) = β0 + β1 xt,(2)随机部分,ut 。 图 2.1 真实的回归直线 这种模型可以赋予各种实际意义,收入与支出的关系;如脉搏与血压的关系;商品价格 与供给量的关系;文件容量与保存时间的关系;林区木材采伐量与木材剩余物的关系;身高 与体重的关系等。 以收入与支出的关系为例。假设固定对一个家庭进行观察,随着收入水平的不同,与支 出呈线性函数关系。但实际上数据来自各个家庭,来自各个不同收入水平,使其他条件不变 成为不可能,所以由数据得到的散点图不在一条直线上(不呈函数关系),而是散在直线周 围,服从统计关系。随机误差项 ut 中可能包括家庭人口数不同,消费习惯不同,不同地域 的消费指数不同,不同家庭的外来收入不同等因素。所以在经济问题上“控制其他因素不变” 是不可能的。 回归模型的随机误差项中一般包括如下几项内容,(1)非重要解释变量的省略,(2)人 的随机行为,(3)数学模型形式欠妥,(4)归并误差(粮食的归并)(5)测量误差等。 回归模型存在两个特点。(1)建立在某些假定条件不变前提下抽象出来的回归函数不能 百分之百地再现所研究的经济过程。(2)也正是由于这些假定与抽象,才使我们能够透过复 杂的经济现象,深刻认识到该经济过程的本质。 通常线性回归函数E(yt) = β0 + β1 xt 是观察不到的,利用样本得到的只是对E(yt) = β0 + β1 xt 的估计,即对β0 和β1的估计。 在对回归函数进行估计之前应该对随机误差项 ut 做出如下假定。 (1) ut 是一个随机变量,ut 的取值服从概率分布。 (2) E(ut) = 0。 (3) D(ut) = E[ut - E(ut) ]2 = E(ut) 2 = σ 2 。称 ui 具有同方差性。 (4) ut 为正态分布(根据中心极限定理)。 以上四个假定可作如下表达。ut ∼ N (0, σ 2 )。 (5) Cov(ui, uj) = E[(ui - E(ui) ) ( uj - E(uj) )] = E(ui, uj) = 0, (i ≠ j )。含义是不同观测值所对 应的随机项相互独立。称为 ui 的非自相关性。 (6) xi 是非随机的。 1
(7)Cov(ui,x)=E[(u;-E(u)) (xi-E(x))]=E[ui (xi-E(x)]=E[uix-u,E(x)]=E(uxi)=0ui与x相互独立。否则,分不清是谁对y的贡献。(8)对于多元线性回归模型,解释变量之间不能完全相关或高度相关(非多重共线性)。在假定(1),(2)成立条件下有E(y)=E(β+βx,+u,)=β+βx。2.最小二乘估计(OLS)对于所研究的经济问题,通常真实的回归直线是观测不到的。收集样本的且的就是要对这条真实的回归直线做出估计。28.24文20 16.=po+ p xt12oX?10203040506070怎样估计这条直线呢?显然综合起来看,这条直线处于样本数据的中心位置最合理。怎样用数学语言描述“处于样本数据的中心位置”?设估计的直线用j,=βo+ βi x表示。其中j,称y的拟合值(fittedvalue)),β和β,分别是B和β的估计量。观测值到这条直线的纵向距离用,表示,称为残差。y=j,+i,=βo+, x,+it称为估计的模型。假定样本容量为T。(1)用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。(2)用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。(3)最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。(这种方法对异常值非常敏感)设残差平方和用Q表示,7a-含0-)-2-o-m),O=imli=li=l则通过Q最小确定这条直线,即确定β和β,的估计值。以β和β,为变量,把Q看作是β和β的函数,这是一个求极值的问题。求Q对β和β的偏导数并令其为零,得正规方程,只=22(y,-β-βx,)(-1)=0(1)apo=l器-2之(0,-β-x,)(-x)=0(2)下面用代数和矩阵两种形式推导计算结果。首先用代数形式推导。由(1)、(2)式得,2
(7) Cov(ui, xi) = E[(ui - E(ui) ) (xi - E(xi) )] = E[ui (xi - E(xi) ] = E[ui xi - ui E(xi) ] = E(ui xi) = 0. ui 与 xi 相互独立。否则,分不清是谁对 yt 的贡献。 (8) 对于多元线性回归模型,解释变量之间不能完全相关或高度相关(非多重共线性)。 在假定(1),(2)成立条件下有 E(yt) = E(β0 + β1 xt + ut ) = β0 + β1 xt 。 2.最小二乘估计(OLS) 对于所研究的经济问题,通常真实的回归直线是观测不到的。收集样本的目的就是要对 这条真实的回归直线做出估计。 怎样估计这条直线呢?显然综合起来看,这条直线处于样本数据的中心位置最合理。怎 样用数学语言描述“处于样本数据的中心位置”?设估计的直线用 yt = + xt ˆ 0 ˆ β 1 ˆ β 表示。其中 称 yt 的拟合值(fitted value), 和 分别是 β0 和β1 的估计量。观测值到这 条直线的纵向距离用 表示,称为残差。 t yˆ 0 ˆ β 1 ˆ β ut ˆ yt = + = + xt + t yˆ ut ˆ 0 ˆ β 1 ˆ β ut ˆ 称为估计的模型。假定样本容量为 T。(1)用“残差和最小”确定直线位置是一个途径。但 很快发现计算“残差和”存在相互抵消的问题。(2)用“残差绝对值和最小”确定直线位置 也是一个途径。但绝对值的计算比较麻烦。(3)最小二乘法的原则是以“残差平方和最小” 确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。(这种 方法对异常值非常敏感)设残差平方和用 Q 表示, Q = ∑ = = , = T i ut 1 2 ˆ ∑= − T i tt yy 1 2 ( ˆ ) ∑= −− T i t t y x 1 2 10 ) ˆˆ ( ββ 则通过 Q 最小确定这条直线,即确定 和 的估计值。以 和 为变量,把 Q 看作是 和 的函数,这是一个求极值的问题。求 Q 对 和 的偏导数并令其为零,得正规方程, 0 ˆ β 1 ˆ β 0 ˆ β 1 ˆ β 0 ˆ β 1 ˆ β 0 ˆ β 1 ˆ β 0 ˆ ∂β ∂Q = 2∑ (-1) = 0 (1) = −− T i t t y x 1 10 ) ˆˆ ( ββ 1 ˆ ∂β ∂Q = 2∑ (- xt) = 0 (2) = −− T i t t y x 1 10 ) ˆˆ ( ββ 下面用代数和矩阵两种形式推导计算结果。首先用代数形式推导。由(1)、(2)式得, 2
(3)Z(y,-β -βix)=0i=lE(yt-Bo -βix,)x=0(4)-(3)式两侧用T除,并整理得,o= J-Bix(5)把上式代入(4)式并整理,得,210 -( -)4-0(6)i=l含0 -)-含(0-),-0(7)isli=lEx,(y, -)β,=(8)E(x, -X)xTTT(x,-X)=0,分别在(8)式的分子和分母上减(y;-)和因为x(y,-)=0,i=lisli=l≥(, -3) 得,islZx(,-)-x(y,-)B=(9)(x, -x)x -Ex(x -x)Z(x, -)(y, -)(10)(x, - x)2下面用矩阵形式推导yBT+B(Zx)=i=li=l.2++(2+)=2)=-Zx,yi=li=li=l[2, [到][][到][区,到[区]-2[[]3
∑ = 0 (3) = −− T i t t y x 1 10 ) ˆˆ ( ββ ∑ xt = 0 (4) = −− T i t t y x 1 10 ) ˆˆ ( ββ (3)式两侧用 T 除,并整理得, 0 ˆ β = xy 1 ˆ − β (5) 把上式代入(4)式并整理,得, ])( ˆ )[( 1 ∑ 1 = −−− T i t t β xxyy xt = 0 (6) ∑ ∑ = = −− − T i tt T i tt xxxxyy 1 1 1 )( ˆ )( β = 0 (7) 1 ˆ β = ∑ ∑ − − tt tt xxx yyx )( )( (8) 因为∑= − T i t yyx 1 )( = 0,∑= − T i t xxx 1 )( = 0,分别在(8)式的分子和分母上减 ∑= − T i t yyx 1 )( 和 ∑= − T i t xxx 1 )( 得, 1 ˆ β = ∑ ∑ ∑ ∑ −−− −−− )()( )()( xxxxxx yyxyyx tt t tt t (9) = ∑ ∑ − −− 2 )( ))(( xx yyxx t t t (10) 下面用矩阵形式推导 T + (∑ ) = 0 ˆ β 1 ˆ β = T i t x 1 ∑= T i t y 1 + ( ) = 0 ˆ β ∑= T i t x 1 1 ˆ β ∑= T i t x 1 2 ∑= T i tt yx 1 = ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ ∑∑ ∑ 2 tt t xx xT ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ 1 0 ˆ ˆ β β ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ ∑ ∑ tt t yx y = ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ 1 0 ˆ ˆ β β 1 2 − ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ ∑∑ ∑ tt t xx xT ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ ∑ ∑ tt t yx y = 2 2 )( 1 t − ∑∑ t xxT ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ − − ∑ ∑∑ Tx xx t t t 2 ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ ∑ ∑ tt t yx y 3
这种形式在单位根检验的理论分析中非常有用。3.最小二乘估计量β和β,的特性(1)线性特性这里指β和β分别是y的线性函数。(x, -)(/-)_(x, -),-(x, -)_(x, -)yB=E(x, -x)2Z(x, -x)Z(x, -x)2(x, -x)令k=(,-,代入上式得,-Zkiy可见β是y的线性函数,是β的线性估计量。同理β也具有线性特性。(2)无偏性利用上式E(β)=E(Zky)=EZk(β+βx,+u)=E(βZk,+βZk,x+Zkut=E[βZk(xrx)+Zkiu]=β+E(Zkiu)=βi(3)有效性B,β的OLS估计量的方差比其他估计量的方差小。Gauss-Marcov定理:若u满足E(u)=0,D(u)=2,那么用OLS法得到的估计量就具有最佳线性无偏性。估计量称最佳线性无偏估计量。最佳线性无偏估计特性保证估计值最大限度的集中在真值周围,估计值的置信区间最小。上面的评价是对有限样本而言,下面讨论估计量的渐近特性。渐近无偏性,一致性和渐近有效性。先给出渐近分布的概念。渐近分布。用T<T<<T表示连续递增样本容量。设在每个样本容量T下重复抽样。则每个xn都应有自己的均值E(xn)与方差Var(xn)。利用递增样本可以求得随机变量序列,XT= [XTI, XT2, --,XTN)其中每个元素都是相应样本容量下的一个随机变量。当T趋于无穷大时,这些分布收敛于某一分布。则称该分布为渐近分布或极限分布。渐近期望。对于期望值序列,E(xT) = (E(x), E(x2), .., E(xTN) )如随着T→80,期望值E(x)收敛于某一常数u,则称μ为x的渐近期望。记为(与期望概念不同)LimE(x)=μ与期望值序列相对应,也可以写出方差序列。Var(x7) =E(x-E(x)=E[xT1 - E(x) , E[xT2 - E(x2) ,..., E[xN - E(XN) )但在许多情形下,LimE(xr-E(xr)=0,即xr的分布退化为一点。例如,已知x的分布是x~4
这种形式在单位根检验的理论分析中非常有用。 3.最小二乘估计量 和 的特性 0 ˆ β 1 ˆ β (1) 线性特性 这里指 和 分别是 β ˆ 0 β ˆ 1 yt的线性函数。 1= ˆ β ∑ ∑ − −− 2 )( ))(( xx yyxx t t t = ∑ ∑ ∑ − −−− 2 )( )()( xx xxyyxx t tt t = ∑ ∑ − − 2 )( )( xx yxx t tt 令 kt = ∑ − − 2 )( )( xx xx t t ,代入上式得 1= ∑ kt yt ˆ β 可见 是β ˆ 1 yt 的线性函数,是β1 的线性估计量。同理β0 也具有线性特性。 (2) 无偏性 利用上式 E( ) = E(∑ kt yt) = E[ ∑ kt (β0 + β1 xt + ut) ] = E ( β0 ∑ kt + β1 ∑ kt xt + ∑ kt ut) 1 ˆ β = E[β1 ∑ kt (xt- x ) + ∑ kt ut ] = β1 + E(∑ kt ut ) = β1 (3) 有效性 β0, β1 的 OLS 估计量的方差比其他估计量的方差小。 Gauss-Marcov 定理: 若 ut 满足 E(ut) = 0,D(ut) = σ 2 ,那么用 OLS 法得到的估计量就具有最佳线性无偏性。 估计量称最佳线性无偏估计量。最佳线性无偏估计特性保证估计值最大限度的集中在真值周 围,估计值的置信区间最小。 上面的评价是对有限样本而言,下面讨论估计量的渐近特性。渐近无偏性,一致性和渐 近有效性。先给出渐近分布的概念。 渐近分布。用 T1 < T2 < .< TN 表示连续递增样本容量。设在每个样本容量 Ti 下重复抽 样。则每个 xTi 都应有自己的均值 E(xTi) 与方差 Var (xTi)。利用递增样本可以求得随机变量 序列, xT = {xT1, xT2, ., xTN} 其中每个元素都是相应样本容量下的一个随机变量。当 TN 趋于无穷大时,这些分布收敛于 某一分布。则称该分布为渐近分布或极限分布。 渐近期望。对于期望值序列, E(xT ) = {E(xT1), E(xT2), ., E(xTN) } 如随着 T → ∞,期望值 E(xT )收敛于某一常数μ,则称μ 为 xT的渐近期望。记为 T )( = μ (与期望概念不同) T xELim∞→ 与期望值序列相对应,也可以写出方差序列。 Var(xT) = E(xT -E(xT))2 ={E[xT1 - E(xT1) ]2 , E[xT2 - E(xT2) ]2 ,., E[xTN - E(xTN ) ]2 } 但在许多情形下, (xT -E(xT))2 E = 0,即 xT的分布退化为一点。例如,已知 T ∞→ Lim x 的分布是 x ∼ 4
N(H)。当T→80,Var(x)>0。为防止分布发生退化,可以用T乘Var()。当T→0T Var(x)>α?。渐近方差。若上述随机变量序列有渐近期望,同时有新序列,E[T(XT - E())] = {E(T[X1 - E(X)}), E(T[X2 - E(X2)1., E(T[XN- E(XN) )满足Lim E [T (xr-E(x7)"]=v则定义x的渐近方差为Lim E[(a-E(x)IT T→渐近无偏性。若β的渐近期望为β,则β为β的渐近无偏估计量,即Lim E(β)=β致性若β满足(1)渐近无偏性,(2)LimVar(β)=0,则β具有一致性,β为β的一致估计量。渐近有效性。若β满足(1)具有一致性,(2)与其他估计量的方差相比,β的渐进方差较小,Var(βVar(β),则称β具有渐近有效性。OLS估计量都能满足上述渐近特性,但满足渐近特性的估计量不见得是最佳线性无偏估计量。28Y注意:分清4个式子的关系。24(1)真实的统计模型,y=β+βix+ut20J,-po+pi xt16(2)估计的统计模型,y=β+β,x+iE(p)=o+βixt12(3)真实的回归直线,E(y)=B+Bx8.(4)估计的回归直线,,=βo+βxx2050603040704.OLS回归直线的性质(1)残差和等于零,Zi,=0由正规方程2Z(-Bo-x)(-1)=0得Z(y-Bo-x)-Z(-)=Z()=0(2)估计的回归直线,=β+βx过(x)点。正规方程Z(yr-β-βx)=0两侧同除样本容量T,得=β+x。得证。(3)y的拟合值的平均数等于其样本观测值的平均数,=J。-(o+x)=Bo+=。得证。T(4) Cov(u, x) =05
N (μ, T 2 σ )。当 T → ∞,Var( x )→0。为防止分布发生退化,可以用 T 乘 Var( x )。当 T → ∞, T Var( x )→σ 2 。 渐近方差。若上述随机变量序列有渐近期望,同时有新序列, E[T(xT - E(xT) ) 2 ] = {E{T [xT1 - E(xT1)]2 }, E{T [xT2 - E(xT2) ]2 },., E{T [xTN - E(xTN ) ]2 }} 满足 [T (xT -E(xT))2 E ] = v T ∞→ Lim 则定义 xT的渐近方差为 T 1 E T ∞→ Lim [T (xT -E(xT))2 ]= T 1 v 渐近无偏性。若 的渐近期望为 β ˆ β,则 为β ˆ β 的渐近无偏估计量,即 ) = β ˆ ( T T ELim β ∞→ 一致性 若 满足(1)渐近无偏性,(2) = 0,则 具有一致性, 为 β 的 一致估计量。 β ˆ ) ˆ (V T T arLim β ∞→ β ˆ β ˆ 渐近有效性。若 满足(1)具有一致性,(2)与其他估计量的方差相比, 的渐进方 差较小,Var( )< Var( β ˆ β ˆ β T ˆ β T ~ ),则称 具有渐近有效性。 β ˆ OLS 估计量都能满足上述渐近特性,但满足渐近特性的估计量不见得是最佳线性无偏 估计量。 注意:分清 4 个式子的关系。 (1) 真实的统计模型,yt = β0 + β1 xt + ut (2) 估计的统计模型, yt = + xt + 0 ˆ β 1 ˆ β ut ˆ (3) 真实的回归直线,E(yt) = β0 +β1 xt (4) 估计的回归直线, yt = + xt ˆ 0 ˆ β 1 ˆ β 4.OLS 回归直线的性质 (1) 残差和等于零,∑uˆt = 0 由正规方程 2∑(yt - - xt) (-1) = 0 得 ∑(yt - - xt) = ∑(yt - ) = ∑( ) = 0 0 ˆ β 1 ˆ β 0 ˆ β 1 ˆ β t yˆ ut ˆ (2) 估计的回归直线 yˆt = β ˆ 0 + β ˆ 1 xt 过( x , y )点。 正规方程 ∑(yt - β ˆ 0 - β ˆ 1 xt) = 0 两侧同除样本容量 T,得 y = 0 + ˆ β 1 ˆ β x 。得证。 (3) yt 的拟合值的平均数等于其样本观测值的平均数, t yˆ = y 。 t yˆ = T 1 ∑ = t yˆ T 1 ∑ ( 0 + xt) = + ˆ β 1 ˆ β 0 ˆ β 1 ˆ β x = y 。得证。 (4) Cov( , xt) = 0 ut ˆ 5