第二章多元线性回归模型的有偏估计 模型的参数估计依赖于观测样本,样本是随机的(至少Y是随机的),因此估计量也是随机 的,不一定恰好等于被估计参数的真值。但是我们希望多次估计的结果的期望值接近或等于真 E(B)=B,E(G2)=G2 这就叫无偏估计。无偏估计被认为是一个估计量应有的优良性质。 但是在一些场合,满足无偏性的估计量却不具备其它应有的优良性,比如说稳定性、容 许性。统计学家提出了一些新的估计方法,它们往往不具备无偏性,但在特定场合综合起来考 虑还是解决问题较好的。本章就分别介绍这些特定场合下的有偏估计。 第一节设计矩阵列复共线与岭回归 、设计矩阵列复共线的影响 上一章最后一节讲的是设计矩阵列向量完全线性相关,′X=0的情况。实际工作中常遇 到的是,设计矩阵的列向量存在近似线性相关(称为复共线 multicollinearity),W′Ⅺ≈0。此 时一般最小二乘方法尽管可以进行,但估计的性质变坏,主要是对观测误差的稳定性变差, 重时估计量可能变得面目全非 例如我们建立二元线性回归模型 Y=X+X2+E (2.1.1) 有关资料在下面运算过程可以看到。看一看原始资料,它近似满足Y=X+Xx,应该估计出 β=0,B1=L,β2=1。可是我们调用普通最小二乘回归程序,运算结果却是 Y=00033+0.4330X1+1.566X2+E (2.1.2) 对现有数据拟合的还挺好,两条曲线几乎成了一条曲线(图2.1.1.1),F值为303744,但是代 入X=0,X2=10,预测值却为1566,这与原模型应有的预测值10相距甚远 岭回归与岭迹图计算程序,例2.1.4 例214D数据文件中,n=8,M=2 要显示原始资料吗?0=不显示,1=显示 2.0100 9900 1.0100
1 第二章 多元线性回归模型的有偏估计 模型的参数估计依赖于观测样本,样本是随机的(至少 Y 是随机的),因此估计量也是随机 的,不一定恰好等于被估计参数的真值。但是我们希望多次估计的结果的期望值接近或等于真 值,即 2 2 ) , ( ˆ ) ˆ E( = E = 这就叫无偏估计。无偏估计被认为是一个估计量应有的优良性质。 但是在一些场合,满足无偏性的估计量却不具备其它应有的优良性,比如说稳定性、容 许性。统计学家提出了一些新的估计方法,它们往往不具备无偏性,但在特定场合综合起来考 虑还是解决问题较好的。本章就分别介绍这些特定场合下的有偏估计。 第一节 设计矩阵列复共线与岭回归 一、设计矩阵列复共线的影响 上一章最后一节讲的是设计矩阵列向量完全线性相关,|X′X|=0 的情况。实际工作中常遇 到的是,设计矩阵的列向量存在近似线性相关(称为复共线(multicollinearity)),|X′X|≈0。此 时一般最小二乘方法尽管可以进行,但估计的性质变坏,主要是对观测误差的稳定性变差,严 重时估计量可能变得面目全非。 例如我们建立二元线性回归模型 = + + Y X1 X2 (2.1.1) 有关资料在下面运算过程可以看到。看一看原始资料,它近似满足 Yi=X1i+X2i, 应该估计出 1 ˆ 1, ˆ 0, ˆ 0 = 1 = 2 = 。可是我们调用普通最小二乘回归程序,运算结果却是 = + + + 1 566 2 Y 0.0033 0.4330X 1. X (2.1.2) 对现有数据拟合的还挺好,两条曲线几乎成了一条曲线 (图 2.1.1.1),F 值为 303744,但是代 入 X1=0, X2=10,预测值却为 15.66,这与原模型应有的预测值 10 相距甚远。 ------------------------------------------------------------------------------------------------------------------------- 岭回归与岭迹图计算程序, 例 2.1.4 例 214.D 数据文件中, n=8, M=2 要显示原始资料吗? 0=不显示, 1=显示 2.0100 .9900 1.0100
19900 10200 4.0100 2.0300 5.9900 2.9700 3.0100 8.0100 3.9600 4.0100 3.9900 10.010 5.0400 4.9900 119900 6.0500 5.9900 正规方程系数矩阵的行列式的值是 2.12162 请输入工作参数,0=普通回归,1=岭回归,2=计算岭迹(0) 现在作线性回归显著性检验,计算tF,R统计量 请输入显著性水平a,通常取a=0.01,0.05,0.10,a=?(0.05) 线性回归分析计算结果 样本总数8 自变量个数2 回归方程Y=b0+bl*X1+.+b2*X2 0033+ 4330X1+ 15660X2 回归系数b0,b1,b2,.b2 0033 15660 残差平方和 00回归平方和 9392 误差方差的估计 0001标准差=0098 线性回归显着性检验显著性水平:050 回归方程整体显著性F检验,H0bO=b1=.=b2=0 F统计量:3037445000F临界值F(2,5)5.786 全相关系数R 回归系数逐一显著性t检验,HO:bi=0,i=1,2 t临界值t(5)2015 回归系数b1-b2的t值 01060382 要作回归预测吗?键入0=不预测,1=要预测(1) 现在作回归预测,请输入自变量,X1-X2 X(1)= X(2)=10 线性回归预测:Y的预测值= 156633 给定X1-X2= 10.0000
2 1.9900 1.0200 .9900 4.0100 2.0300 1.9900 5.9900 2.9700 3.0100 8.0100 3.9600 4.0100 7.9900 4.0100 3.9900 10.0100 5.0400 4.9900 11.9900 6.0500 5.9900 正规方程系数矩阵的行列式的值是 2.12162 请输入工作参数, 0=普通回归, 1=岭回归, 2=计算岭迹 (0) 现在作线性回归显著性检验, 计算 t,F,R 统计量 请输入显著性水平 a, 通常取 a=0.01, 0.05, 0.10, a=? (0.05) ----------------------------------------------------- 线 性 回 归 分 析 计 算 结 果 样本总数 8 自变量个数 2 ----------------------------------------------------- 回归方程 Y = b0+b1*X1+...+b2*X2 Y = .0033 + .4330 X1 + 1.5660 X2 回归系数 b0, b1, b2, ..., b2 .0033 .4330 1.5660 ----------------------------------------------------- 残差平方和: .00 回归平方和: 93.92 误差方差的估计 : .0001 标准差 = .0098 ----------------------------------------------------- 线 性 回 归 显 着 性 检 验 显著性水平 : .050 ----------------------------------------------------- 回归方程整体显著性 F 检验, H0:b0=b1=...=b2=0 F 统计量: 303744.5000 F 临界值 F(2, 5) 5.786 全相关系数 R : 1.0000 ----------------------------------------------------- 回归系数逐一显著性 t 检验, H0:bi=0, i=1,...,2 t 临界值 t( 5) 2.015 回归系数 b1-b 2 的 t 值: .0106 .0382 ----------------------------------------------------- 要作回归预测吗? 键入 0=不预测, 1=要预测 (1) 现在作回归预测, 请输入自变量, X1-X 2 X( 1)= 0 X( 2)= 10 ----------------------------------------------------- 线 性 回 归 预 测: Y 的预测值= 15.6633 给定 X1-X 2= .0000 10.0000 -----------------------------------------------------
要作回归预测吗?键入0=不预测,1=要预测(0) 要打印拟合数据吗?0=不打印,1=打印(1) Y的观测值 Y的拟合值 差值 2.0136 0036 1.9900 1.9953 0053 4.0100 3.9987 01l3 5.9900 6.0030 0130 8.0100 7.9977 0123 7.9900 7.9881 10.0001 99 12.0035 计算结束 下面显示拟合图像 图2 42086420 原始数据 合数据 5 6 对此我们可以作如下理论分析。B作为P的估计是否优良,应该考察它与B的接近程度, 这可以用B的均方误差( Mean Square Error))来度量 MSE(B)=E(B-B2)=EkB-B)'(B-B) (2.13) 我们来计算线性模型 Y=XB+8, E(a=0, Var(a)=o-l (2.14) 的MSE(B) 由于 B-B=(XY-XY-B=(YX)-X(B+8)-B=(XY)-X's (2.1.5)
3 要作回归预测吗? 键入 0=不预测, 1=要预测 (0) 要打印拟合数据吗? 0=不打印, 1=打印 (1) Y 的观测值 Y 的拟合值 差值 2.0100 2.0136 -.0036 1.9900 1.9953 -.0053 4.0100 3.9987 .0113 5.9900 6.0030 -.0130 8.0100 7.9977 .0123 7.9900 7.9881 .0019 10.0100 10.0001 .0099 11.9900 12.0035 -.0135 计算结束。 --------------------------------------------------------------------------------- 下面显示拟合图像。 图2.1.1.1 0 2 4 6 8 1 0 1 2 1 4 1 2 3 4 5 6 7 8 原始数据 拟合数据 对此我们可以作如下理论分析。 ˆ 作为β的估计是否优良,应该考察它与β的接近程度, 这可以用 ˆ 的均方误差 (Mean Square Error)来度量: ) ˆ ) ( ˆ || ) ( ˆ ) (|| ˆ ( 2 MSE = E − = E − − (2.1.3) 我们来计算线性模型 n Y X E Var I 2 = + , ( ) = 0, ( ) = (2.1.4) 的 MSE( ˆ )。 由于 − = X X X Y − = X X X X + − = X X X −1 −1 −1 ( ) ( ) ( ) ( ) ˆ (2.1.5)
故由公式E(y4y)=(Ey)'A(Ey)+AWar(y)得 AsE(B)=ElB-B)(B-B)]=ELa gtr(X(Xx) X)otr( x)-XX)=otr(YX) 进一步,若ε~N(0,a2,则因对于对称矩阵A有 aa&&Eier 注意到 (ai E,E1E,)={0 (2.1.8) ≠J, E(EAE)2=30 (a,am+ai+a,au) [v2+2m4] 因此 Var(s'As)=E(EA8)2-E(EAa)]2=2otrA (2.1.10 于是 Var(l B-B)=vare'x(xx)-2x'el (2.1.11) 2otrX(XX-XX(XX)X=2otr(XX) 由于X′X为正定阵,其特征根皆为正数,设为1≥2≥…≥p>0,则 (XX) (2.1.12) 代入(2.1.6)与(21.1)得 MSE(B)=E(B-Bl2) Var(IB-B 2
4 故由公式 E( y Ay) = (Ey)A(Ey) + tr[AVar( y)] 得 2 2 2 2 2 1 2 ( ( ) ) (( ) ) ( ) )] [ ( ) ] ˆ ) ( ˆ ) [( ˆ ( − − − − = = = − − = tr X X X X tr X X X X tr X X MSE E E X X X X (2.1.6) 进一步,若ε~N (0,σ2 In),则因对于对称矩阵 A 有 = = = p i j p u v A aijauv i j it v , 1 , 1 2 ( ) (2.1.7) 注意到 = = = = = = i j u i j u i u i j u E i j it 0 ,或 , , 3 ( ) 4 4 (2.1.8) 故 4 2 2 , 1 2 2 1 4 , 1 4 2 1 2 4 2 ( ) 2 2 ( ) 3 ( ) trA trA a a E A a a a a a a p i j i j p i i i p i j i j i i j j i j i j j i p i i i = + + = = + + + = = = = (2.1.9) 因此 2 2 4 2 Var(A) = E(A) −[E(A)] = 2 trA (2.1.10) 于是 4 2 2 4 2 2 2 2 [ ( ) ( ) ] 2 ( ) || ) ( ) ˆ (|| − − − − = = − = tr X X X X X X X X tr X X Var Var X X X X (2.1.11) 由于 X′X 为正定阵,其特征根皆为正数,设为λ1≥λ2≥…≥λp>0,则 = − = p i i tr X X 1 1 1 ( ) (2.1.12) 代入(2.1.6)与(2.1.11)得 || ) ˆ ) (|| ˆ ( 2 MSE = E − (2.1.13) = − = p i i Var 1 2 2 4 1 || ) 2 ˆ (|| (2.1.14)
当设计矩阵X的列向量存在复共线关系时,Ap≈0,很大,就使E(B-B2)与 amr(B-B)都很大。尽管这时按平均来说,B是B的无偏估计,但具体在每一次计算 由于均方误差太大,使得β估计值偏差很大,以致前面的数值例子变得面目全非 岭回归 统计学界由AE.Hoer在1962年提出并和RW. Kennard在197年系统发展的岭回归 ( Ridge regression)方法,可以显著改善设计矩阵列复共线时最小二乘估计的均方误差,增强估 计的稳定性。这个方法在计算数学称为阻尼最小二乘,出现得较早一些。 岭回归方法主要就是在病态的(x′X中沿主对角线人为地加进正数,从而使λp稍大一些。 我们知道模型(214)中B的最小二乘估计为 (XX)XY 则B的岭估计定义为 B(k)=(rX+kI)-XY, 0<k<+oo (2.1.16) 从式子直觉看出,当k=0时,它就是最小二乘估计;当k→+∞,β(k)→>0。于是就要 问k究竟取多大值为好?同时我们也要知道β(k)的统计性质究竟如何。 性质1.岭估计不再是无偏估计,即E(B(k))≠B。 因为 E(B(k= EICX X+kI) Xy=(XX+kI)XxB =[(Xx+k)(xx)-)-]B=[n+k(Xx)]B 无偏性一直被认为是一个好的统计量所必须具有的基本性质,但是在现在所讨论的问题场 合,我们只好牺牲无偏性,以改善估计的稳定性。 性质2.岭估计是线性函数 记S=XX,Z=(H+kS)2,则因 B(k=(S+kD" Xr=(S+kDSS Xr=(+kS)B,=ZiB (2.1.17) 可见β(k)不仅是Y的线性函数,而且是原来最小二乘估计B2的线性函数 性质3.z的特征根都在(0,1)内。 设有正交阵P与P′使
5 当设计矩阵 X 的列向量存在复共线关系时,λp≈0, p 1 很大,就使 || ) ˆ (|| 2 E − 与 || ) ˆ (|| 2 Var − 都很大。尽管这时按平均来说, ˆ是 的无偏估计,但具体在每一次计算, 由于均方误差太大,使得 ˆ 估计值偏差很大,以致前面的数值例子变得面目全非。 二、岭回归 统计学界由 A. E. Hoerl 在 1962 年提出并和 R. W. Kennard 在 1970 年系统发展的岭回归 (Ridge Regression)方法,可以显著改善设计矩阵列复共线时最小二乘估计的均方误差,增强估 计的稳定性。这个方法在计算数学称为阻尼最小二乘,出现得较早一些。 岭回归方法主要就是在病态的(X′X)中沿主对角线人为地加进正数,从而使λp 稍大一些。 我们知道模型(2.1.4)中β的最小二乘估计为 = X X X Y −1 ( ) ˆ (2.1.15) 则β的岭估计定义为 = + + − k X X kI X Y k ( ) ( p ) , 0 ˆ 1 (2.1.16) 从式子直觉看出,当 k=0 时,它就是最小二乘估计;当 k→+∞, ( ) 0 ˆ k → 。于是就要 问 k 究竟取多大值为好?同时我们也要知道 ( ) ˆ k 的统计性质究竟如何。 性质 1. 岭估计不再是无偏估计,即 E( ˆ (k)) 。 因为 1 1 1 1 1 1 1 [( ) (( ) ) ] [ ( ) ] ( )) [( ) ] ( ) ˆ ( − − − − − − − = + = + = + = + X X k I X X I k X X E k E X X k I X Y X X k I X X p p p p 无偏性一直被认为是一个好的统计量所必须具有的基本性质,但是在现在所讨论的问题场 合,我们只好牺牲无偏性,以改善估计的稳定性。 性质 2. 岭估计是线性函数。 记 S=X′X, Zk= (I+kS-1 ) -1, 则因 L Zk L k S k I X Y S k I SS X Y I k S ˆ ˆ ( ) ( ) ( ) ( ) ˆ 1 1 1 1 1 = + = + = + = − − − − − (2.1.17) 可见 ( ) ˆ k 不仅是 Y 的线性函数,而且是原来最小二乘估计 L ˆ 的线性函数。 性质 3. Zk的特征根都在(0,1)内。 设有正交阵 P 与 P′使