§7.1岭回归估计的定义 我们称Bx)=(XX+kI)xy(72) 为β的岭回归估计,其中k称为岭参数。 由于假设X已经标准化,所以XX就是自变量样本相 关阵,(7.2)式计算的实际是标准化岭回归估计。 (7.2)式中因变量观测向量y可以经过标准化也可以 未经标准化 显然,岭回归做为β的估计应比最小二乘估计稳定, 当k=0时的岭回归估计就是普通的最小二乘估计
§7.1 岭回归估计的定义 我们称 β = XX + I Xy -1 (k) ( k ) ˆ 为β的岭回归估计,其中k称为岭参数。 由于假设X已经标准化,所以X′X就是自变量样本相 关阵,(7.2)式计算的实际是标准化岭回归估计。 (7.2)式中因变量观测向量y可以经过标准化也可以 未经标准化。 显然,岭回归做为β的估计应比最小二乘估计稳定, 当k=0时的岭回归估计就是普通的最小二乘估计。 (7.2)
§7.1岭回归估计的定义 因为岭参数k不是唯一确定的,所以我们得到的岭回归估计β(k) 实际是回归参数β的一个估计族。 例如对例71可以算得不同k值时的β1Q),B2(k),见表72 表72 0 0.10.150.20.30.40.51.01.52 B()1.313.482.92.712.392.202.061.661.431.271.03 62()6.590.631.02.211.391.461.491.411.281.17|0.98
§7.1 岭回归估计的定义 因为岭参数k不是唯一确定的,所以我们得到的岭回归估计 β(k) ˆ 实际是回归参数β的一个估计族。 例如对例7.1可以算得不同k值时的β1 (k) ˆ ,β(k) 2 ˆ ,见表7.2 k 0 0.1 0.15 0.2 0.3 0.4 0.5 1.0 1.5 2 3 β1 (k) ˆ 11.31 3.48 2.99 2.71 2.39 2.20 2.06 1.66 1.43 1.27 1.03 β2 (k) ˆ -6.59 0.63 1.02 1.21 1.39 1.46 1.49 1.41 1.28 1.17 0.98 表7.2
§7.1岭回归估计的定义 1(k) 2(k) 2345 图7.1
§7.1 岭回归估计的定义
§7,2岭回归估计的性质 在本节岭回归估计的性质的讨论中,假定(7.2) 式中因变量观测向量y未经标准化。 性质1Bk)是回归参数β的有偏估计 证明:E[B(k)]E[X′X+kI)x′y (XX+kI)X′E(y) (X′X+kI)X′X 显然只有当k=0时,互(O)}B;当k≠0时,B(k)是β的有偏估计 要特别强调的是β(k)不再是β的无偏估计了, 有偏性是岭回归估计的一个重要特性
§7.2 岭回归估计的性质 在本节岭回归估计的性质的讨论中,假定(7.2) 式中因变量观测向量y未经标准化。 性质1 β(k) ˆ 是回归参数β 证明: E[β(k) ˆ ]=E[(X′X+kI) -1 X′y] =(X′X+kI) -1 X′E(y) =(X′X+kI) -1 X′X 显然只有当k=0时,E[ β(0) ˆ ]=β;当k≠0时, β(k) ˆ 是β的有偏估计。 要特别强调的是β(k) ˆ 不再是β的无偏估计了, 有偏性是岭回归估计的一个重要特性
§7,2岭回归估计的性质 性质2在认为岭参数k是与y无关的常数时,β(k)=(XX+kI)xy 是最小二乘估计β的一个线性变换,也是y的线性函数。 因为B(k)=(XX+kI)xy=(xX+kI)xX(xX)xy -(X'X+kI)X'XB 因此,岭估计β(k)是最小二乘估计β的一个线性变换, 根据定义式(k)=(X"x+kI)Xy知B(k)也是y的线性函数 这里需要注意的是,在实际应用中,由于岭参数k总是要通过数据来 确定,因而k也依赖于y,因此从本质上说β(k)并非β的线性变换,也不是 y的线性函数
§7.2 岭回归估计的性质 性质2 在认为岭参数k是与y 无关的常数时,β = XX + I Xy -1 (k) ( k ) ˆ 是最小二乘估计β ˆ 的一个线性变换,也是y 因为 β = XX + I Xy -1 (k) ( k ) ˆ = XX + I XX XX Xy -1 -1 ( k ) ( ) = X X I X Xβ ˆ + -1 ( k ) 因此,岭估计β(k) ˆ 是最小二乘估计β ˆ 的一个线性变换, 根据定义式β = XX + I Xy -1 (k) ( k ) ˆ 知β(k) ˆ 也是y 这里需要注意的是,在实际应用中,由于岭参数k总是要通过数据来 确定,因而k也依赖于y,因此从本质上说β(k) ˆ 并非β ˆ 的线性变换,也不是 y 的线性函数