§5.1自变量选择对估计和预测的影响 (二)选模型正确而误用全模型的情况 如果选模型正确,从无偏性的角度看, 选模型的预测值)op=Bop+B1pX1+B2pX2…+BpXp 是因变量新值y0=Bo十BXo1+B2X2++BpX0p+£0 的无偏估计,此时全模型的预测值 夕om=B。+B1xo1+B2X2…+BmXm是y0的有偏估计
§5.1 自变量选择对估计和预测的影响 (二)选模型正确而误用全模型的情况 如果选模型正确,从无偏性的角度看, 选模型的预测值 0p 0p 1p 01 2p 02 pp x0p ˆ x ˆ x ˆ ˆ y ˆ 是因变量新值y0 =β0 +β1 x01+β2 x02+…+βp x0p+ε0 的无偏估计,此时全模型的预测值 0m 0 1 01 2 02 m x0m ˆ x ˆ x ˆ ˆ y ˆ 是y0的有偏估计
§5.1自变量选择对估计和预测的影响 (二)选模型正确而误用全模型的情况 从预测方差的角度看,根据性质4,选模型的预测方差 D(op)小于全模型的预测方差D(夕om) 从均方预测误差的角度看,全模型的均方预测误差 E (yom-yo)=D (yom)+[E (om)-E (yo) 包含预测方差与预测偏差的平方两部分 而选模型的均方预测误差E(夕py)D(夕p) 仅包含预测方差这一项,并且D(夕o。)≤D(夕m) 因而从均方预测误差的角度看,全模型的预测误差将更大
§5.1 自变量选择对估计和预测的影响 (二)选模型正确而误用全模型的情况 从预测方差的角度看,根据性质4,选模型的预测方差 D( 0p y ˆ )小于全模型的预测方差D( 0m y ˆ ) 从均方预测误差的角度看,全模型的均方预测误差 E(y0m y0 ˆ ) 2 =D( 0m y ˆ )+[E( 0m y ˆ )-E(y0)] 2 包含预测方差与预测偏差的平方两部分 而选模型的均方预测误差E( 0p y ˆ -y0) 2 =D( 0p y ˆ ) 仅包含预测方差这一项,并且D( 0p y ˆ )≤D( 0m y ˆ ) 因而从均方预测误差的角度看,全模型的预测误差将更大
§5.1自变量选择对估计和预测的影响 (二)选模型正确而误用全模型的情况 上述结论告诉我们,一个好的回归模型,并不是考虑的 自变量越多越好。在建立回归模型时,选择自变量的基本 指导思想是“少而精”。哪怕我们丢掉了一些对因变量y还 有些影响的自变量,由选模型估计的保留变量的回归系数 的方差,要比由全模型所估计的相应变量的回归系数的方 差小。而且,对于所预测的因变量的方差来说也是如此。 丢掉了一些对因变量y有影响的自变量后,所付出的代价是 估计量产生了有偏性。然而,尽管估计量是有偏的,但预 测偏差的方差会下降。另外,如果保留下来的自变量有些 对因变量无关紧要,那么,方程中包括这些变量会导致参 数估计和预测的有偏性和精度降低
§5.1 自变量选择对估计和预测的影响 (二)选模型正确而误用全模型的情况 上述结论告诉我们,一个好的回归模型,并不是考虑的 自变量越多越好。在建立回归模型时,选择自变量的基本 指导思想是“少而精”。哪怕我们丢掉了一些对因变量y还 有些影响的自变量,由选模型估计的保留变量的回归系数 的方差,要比由全模型所估计的相应变量的回归系数的方 差小。而且,对于所预测的因变量的方差来说也是如此。 丢掉了一些对因变量y有影响的自变量后,所付出的代价是 估计量产生了有偏性。然而,尽管估计量是有偏的,但预 测偏差的方差会下降。另外,如果保留下来的自变量有些 对因变量无关紧要,那么,方程中包括这些变量会导致参 数估计和预测的有偏性和精度降低
§5.2 所有子集回归 一、所有子集的数目 有m个可供选择的变量x1,x2,Xm,由于每个自变量 都有入选和不入选两种情况,这样y关于这些自变量的 所有可能的回归方程就有2m-1个。 从另一个角度看 Co+C+.+Cm=2m
§5.2 所有子集回归 一、所有子集的数目 m m Cm Cm Cm 2 0 1 有m个可供选择的变量x1 ,x2 ,…,xm,由于每个自变量 都有入选和不入选两种情况,这样y关于这些自变量的 所有可能的回归方程就有2 m-1个。 从另一个角度看
§5.2所有子集回归 二、关于自变量选择的几个准则 从数据与模型拟合优劣的直观考虑出发,认为残 差平方和SSE最小的回归方程就是最好的。还曾用复相 关系数R来衡量回归拟合的好坏。然而这两种方法都有 明显的不足,这是因为: SSEp+1≤SSEp R41≥Rg
§5.2 所有子集回归 二、关于自变量选择的几个准则 从数据与模型拟合优劣的直观考虑出发,认为残 差平方和SSE最小的回归方程就是最好的。还曾用复相 关系数R来衡量回归拟合的好坏。然而这两种方法都有 明显的不足,这是因为: SSEp+1≤SSEp 2 Rp1≥ 2 Rp