E(B)=c(B+Bx)=B2c+B2cx 为保证无偏性,C,要满足下列限制 =0.2c=0 定义c,=k+d,其中k,是式(6)中的组合系数,d,是任意常数,则 Var(a)=a∑c=o∑好+2d+22kd 由于 a-2-心字8 经-站写 1 - 1一=0 %-x- σ2∑k= 2 -=Var(B) x- 所以 Var(a)=Var(A)+a∑d 三心的最小值为零,所以,当它-0时月的方老最小,自是,只有告d=0 时,即C=时,才有∑d=0。所以,最小二乘估计最在所有无偏估计量中具 有最小的方差。 同理,可以得出相应于点估计量的统计性质。对于一元线性正态误差回归模型 来说,最小二乘估计量B,是y,的线性组合,所以,它的抽样分布也是正态的。它是总 体参数民的无偏估计量,即 E(月)=R 同样可以证明 ar)=o22+ (8) -231-
-231- ∑ ∑ ∑ = = = = + = + n i i i n i i n i i i E c x c c x 1 1 1 0 1 1 0 1 ) ( ) ~ (β β β β β 为保证无偏性, i c 要满足下列限制 0 1 ∑ = = n i i c , 0 1 ∑ = = n i i i c x 定义 i i di c = k + ,其中 i k 是式(6)中的组合系数, di 是任意常数,则 ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ = ∑ = ∑ +∑ + ∑ = = = = n i i i n i i n i i n i i c k d k d 1 1 2 1 2 2 1 2 2 1 ) 2 ~ Var(β σ σ 由于 ∑ ∑ ∑ ∑ ∑ = = = = = − − − = − = n i n i n i i i i i n i i i i n i i i k x x x x k d k c k c 1 1 2 1 1 1 2 ( ) ( ) 0 ( ) 1 ( ) 1 ( ) 1 2 1 1 2 2 1 2 1 1 = − − − − = − − = ∑ ∑ ∑ ∑ ∑ ∑ = = = = = = n i i n i i n i n i i i n i i n i i i x x x x k x x c x x c 而 ) ˆ Var( ( ) 1 1 2 2 1 2 2 β σ σ = − = ∑ ∑ = = n i i n i i x x k 所以 ∑= = + n i di 1 2 2 1 1 ) ˆ ) Var( ~ Var(β β σ ∑= n i di 1 2 的最小值为零,所以,当∑= = n i di 1 2 0 时, 1 ~ β 的方差最小。但是,只有当di ≡ 0 时,即 i i c ≡ k 时,才有 ∑= = n i di 1 2 0 。所以,最小二乘估计量 1 β ˆ 在所有无偏估计量中具 有最小的方差。 同理,可以得出相应于点估计量 0 β ˆ 的统计性质。对于一元线性正态误差回归模型 来说,最小二乘估计量 0 β ˆ 是 i y 的线性组合,所以,它的抽样分布也是正态的。它是总 体参数 β 0 的无偏估计量,即 0 0 ) ˆ E(β = β 同样可以证明 ] ( ) 1 ) [ ˆ ( 1 2 2 2 0 ∑= − = + n i i x x x n Var β σ (8)
且。是B,的线性无偏的最小方差估计最。 1.残差和为零。 残差 -2 2e=2y-A-x)=0 9 2.拟合值戈,的平均值等于观测值y,的平均值,即 乞=2y= (10) 按照第一正规方程,有 2y-成-x)=0 所以 立-2a+x-立 3.当第次试验的残差以相应的自变量取值为权重时,其加权残差和为零,即 多g0 (11) 这个结论由第二个正规方程∑x(y一序。一月x)=0即可得出。 4.当第1次试验的残差以相应的因变量的拟合值为权重时,其加权残差和为零 即 26-0 (12) 这是因为 2(成+xg,=a2e,+2xg=0 5.最小二乘回归线总是通过观测数据的重心(任,)的。 事实上,当自变量取值为下时,由式(5) 月。=-Bx 所以 =B。+Bx=(下-Bx)+Bx= 2.3拟合效果分析 当根据一组观测数据得到最小二乘拟合方程后,必须考察一下,是否真的能由所得 -232-
-232- 且 0 β ˆ 是 β 0 的线性无偏的最小方差估计量。 2.2.3 其它性质 用最小二乘法拟合的回归方程还有一些值得注意的性质: 1.残差和为零。 残差 i i i e = y − yˆ ,i = 1,2,L, n 由第一个正规方程,得 ) 0 ˆ ˆ ( 1 0 1 1 1 ∑ = ∑ − − = = = n i i n i i e y β β x (9) 2.拟合值 i yˆ 的平均值等于观测值 i y 的平均值,即 y y n y n n i i n i ∑ i = ∑ = =1 =1 1 ˆ 1 (10) 按照第一正规方程,有 ) 0 ˆ ˆ ( 1 ∑ − 0 − 1 = = n i i i y β β x 所以 ∑ ∑ ∑ = = = = + = n i i n i i n i i y x y 1 1 0 1 1 ) ˆ ˆ ˆ (β β 3.当第i 次试验的残差以相应的自变量取值为权重时,其加权残差和为零,即 0 1 ∑ = = n i i i x e (11) 这个结论由第二个正规方程 ) 0 ˆ ˆ ( 1 ∑ − 0 − 1 = = n i i i i x y β β x 即可得出。 4.当第i 次试验的残差以相应的因变量的拟合值为权重时,其加权残差和为零, 即 ˆ 0 1 ∑ = = i n i i y e (12) 这是因为 0 ˆ ˆ ) ˆ ˆ ( 1 1 1 0 1 ∑ 0 + 1 = ∑ + ∑ = = = = n i i i n i i n i i i β β x e β e β x e 5.最小二乘回归线总是通过观测数据的重心(x, y)的。 事实上,当自变量取值为 x 时,由式(5) y x 0 1 β ˆ β ˆ = − 所以 y = + x = y − x + x = y 0 1 1 1 ˆ ) ˆ ( ˆ ˆ ˆ β β β β 2.3 拟合效果分析 当根据一组观测数据得到最小二乘拟合方程后,必须考察一下,是否真的能由所得
的模型(乃=房。+x)来较好地拟合观测值y?用戈=月。+序x,能否较好地反映 (或者说解释)y,值的取值变化?回归方程的质量如何?误差多大?对这些,都必须 予以正确的评估和分析。 2.3.1残差的样木方差 记残差 e=y-元,i=1,2.,n 残差的样本均值为 e-20-1-0 残差的样本方差为 MSE=- 2-时22w- 由于有∑e,=0和∑xe,=0的约束,所以,残差平方和有(n-2)个自由度。可 以证明,在对∑c2除以其自由度(n-2)后得到的MSE,是总体回归模壁中 c2=ar(G)的无偏估计量。记 S-=2 (13) 一个好的合方程,其残弟总和应越小越好。残差越小。拟合值与观测值越接近 各观测点在拟合直线周围聚集的紧密程度越高,也就是说,拟合方程少=。+x解 y的能力越强。 另外,当S。越小时,还说明残差值,的变异程度越小。由于残差的样本均值为零, 所以,其离散范围 拟合的模型就越为精确。 2 判定系数 (拟合优度 对应于不同的x,值,观测值y,的取值是不同的。建立一元线性回归模型的目的, 就是试图以x的线性函数(。+序x)来解释y的变异。那么,回归模型少=月。+月, 究竟能以多大的精度来解释y的变异呢?又有多大部分是无法用这个回归方程来解释 的呢? 乃,片,.,的变异程度可采用样本方差来测度,即 =20-㎡ 根据式(10),拟合值,乃,立的均值也是,其变异程度可以用下式测度 2= 2成- 下面看一下52与2之间的关系,有 -23
-233- 的模型( i i y x 0 1 ˆ ˆ ˆ = β + β )来较好地拟合观测值 i y ?用 i i y x 0 1 ˆ ˆ ˆ = β + β 能否较好地反映 (或者说解释) i y 值的取值变化?回归方程的质量如何?误差多大?对这些,都必须 予以正确的评估和分析。 2.3.1 残差的样本方差 记残差 i i i e = y − yˆ ,i =1,2,L, n 残差的样本均值为 ( ˆ ) 0 1 1 = ∑ − = = n i i i y y n e 残差的样本方差为 ∑ ∑ ∑ = = = − − = − − = − = n i i i n i i n i i y y n e n e e n MSE 1 2 1 2 1 2 ( ˆ ) 2 1 2 1 ( ) 2 1 由于有 0 1 ∑ = = n i i e 和 0 1 ∑ = = n i i i x e 的约束,所以,残差平方和有(n − 2)个自由度。可 以证明,在对 ∑= n i i e 1 2 除以其自由度 (n − 2) 后得到的 MSE ,是总体回归模型中 ( ) 2 Var i σ = ε 的无偏估计量。记 ∑ − = = = n i e i e n S MSE 1 2 2 1 (13) 一个好的拟合方程,其残差总和应越小越好。残差越小,拟合值与观测值越接近, 各观测点在拟合直线周围聚集的紧密程度越高,也就是说,拟合方程 y x 0 1 ˆ ˆ ˆ = β + β 解释 y 的能力越强。 另外,当 Se 越小时,还说明残差值 i e 的变异程度越小。由于残差的样本均值为零, 所以,其离散范围越小,拟合的模型就越为精确。 2.3.2 判定系数(拟合优度) 对应于不同的 i x 值,观测值 i y 的取值是不同的。建立一元线性回归模型的目的, 就是试图以 x 的线性函数( x 0 1 β ˆ β ˆ + )来解释 y 的变异。那么,回归模型 y x 0 1 ˆ ˆ ˆ = β + β 究竟能以多大的精度来解释 y 的变异呢?又有多大部分是无法用这个回归方程来解释 的呢? n y , y , , y 1 2 L 的变异程度可采用样本方差来测度,即 ∑= − − = n i i y y n s 1 2 2 ( ) 1 1 根据式(10),拟合值 n yˆ , yˆ , , yˆ 1 2 L 的均值也是 y ,其变异程度可以用下式测度 ∑= − − = n i i y y n s 1 2 2 ( ˆ ) 1 1 ˆ 下面看一下 2 s 与 2 sˆ 之间的关系,有
,-列=0y-+2成-列+220y-列 由于 20y-X0-列=卫0y-成-x成+-列 =A20-成-x)+20-A-x)-20-成-x)=0 因此,得到正交分解式为 20%-2-列+20-》 (14) SST-∑0,-可2,这是原始数据y的总变异平方和,其自由度为d,=n-1: SSR=立0-列,这是用拟合直线元=成+可解释的变异平方和,其自 由度为d=1: SSE=∑0-,)2,这是残差平方和,其的自由度为d:=n-2. 所以,有 SST=SSR+SSE,df=df+ 从上式可以看出,y的变异是由两方面的原因引起的:一是由于x的取值不同,而 给y带来的系统性变异;另一个是由除x以外的其它因素的影响。 注意到对于一个确定的样本(一组实现的观测值),SST是一个定值。所以,可解 释变异SSR越大,则必然有残差SSE越小。这个分解式可同时从两个方面说明拟合方 程的优良程度: (1)SS℉越大,用回归方程来解释片变异的部分越大,回归方程对原数据解释得 越好。 (2)SSE越小,观利估以绕回归直线越紧密,回归方程对原数据的拟合效果越好 判定系数是指可解释的变异占总变异的百分比,用R表示,有 R==1- (15) T T 从判定系数的定义看,R有以下简单性质: (1)0≤R2≤1: (2)当R=1时,有SSR=SST,也就是说,此时原数据的总变异完全可以由拟 合值的变异来解释,并且残差为零(SSE=0),即拟合点与原数据完全吻合: (3)当R=0时,回归方程完全不能解释原数据的总变异,y的变异完全由与x 24
-234- ∑ ∑ ∑ ∑ = = = = − = − + − + − − n i i i i n i i n i i i n i i y y y y y y y y y y 1 1 2 1 2 1 2 ( ) ( ˆ ) ( ˆ ) 2 ( ˆ )( ˆ ) 由于 ∑ ∑ = = − − = − − + − n i i i i n i i i i y y y y y x x y 1 0 1 0 1 1 ) ˆ ˆ )( ˆ ˆ ( ˆ )( ˆ ) ( β β β β ) 0 ˆ ˆ ) ( ˆ ˆ ( ˆ ) ˆ ˆ ( ˆ 1 0 1 1 1 0 1 1 = 0∑ − 0 − 1 + ∑ − − − ∑ − − = = = = n i i i n i i i i n i i i β y β β x β x y β β x y y β β x 因此,得到正交分解式为 ∑ ∑ ∑ = = = − = − + − n i i i n i i n i i y y y y y y 1 2 1 2 1 2 ( ) ( ˆ ) ( ˆ ) (14) 记 ∑= = − n i i SST y y 1 2 ( ) ,这是原始数据 i y 的总变异平方和,其自由度为 df = n −1 T ; ∑= = − n i i SSR y y 1 2 ( ˆ ) ,这是用拟合直线 i i y x 0 1 ˆ ˆ ˆ = β + β 可解释的变异平方和,其自 由度为 = 1 R df ; ∑= = − n i i i SSE y y 1 2 ( ˆ ) ,这是残差平方和,其的自由度为 df = n − 2 E 。 所以,有 SST = SSR + SSE , T R E df = df + df 从上式可以看出,y 的变异是由两方面的原因引起的;一是由于 x 的取值不同,而 给 y 带来的系统性变异;另一个是由除 x 以外的其它因素的影响。 注意到对于一个确定的样本(一组实现的观测值),SST 是一个定值。所以,可解 释变异 SSR 越大,则必然有残差 SSE 越小。这个分解式可同时从两个方面说明拟合方 程的优良程度: (1)SSR 越大,用回归方程来解释 i y 变异的部分越大,回归方程对原数据解释得 越好; (2)SSE 越小,观测值 i y 绕回归直线越紧密,回归方程对原数据的拟合效果越好。 因此,可以定义一个测量标准来说明回归方程对原始数据的拟合程度,这就是所谓 的判定系数,有些文献上也称之为拟合优度。 判定系数是指可解释的变异占总变异的百分比,用 2 R 表示,有 (1 ) 2 SST SSE SST SSR R = = − (15) 从判定系数的定义看, 2 R 有以下简单性质: (1)0 1 2 ≤ R ≤ ; (2)当 1 2 R = 时,有 SSR = SST ,也就是说,此时原数据的总变异完全可以由拟 合值的变异来解释,并且残差为零( SSE = 0 ),即拟合点与原数据完全吻合; (3)当 0 2 R = 时,回归方程完全不能解释原数据的总变异, y 的变异完全由与 x