第十二章回归分析 前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的 组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数 据拟合得最好。通常, 函数的形式可以由经验、先验知识或对数据的直观观察决定,要 小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已 决红:还有进 都是随机变量,我们根据一个样本计算出的那些 点,么数的计值是没有多大意义 假可以用方差分析 方法对模型的误差进行分析,对拟合的优劣给出评价。简单地说,回归分析就是对拟合 问题作的统计分析。 具体地说,回归分析在一组数据的基础上研究这样几个问题: (i)建立因变量y与自变量x,x2,.,xm之间的回归模型(经验公式): ()对回归模型的可信度进行检验 ()判断每个自变最x,=12,m)对y的影响是香显若: ()诊断回归模型是否适合这组数据: (v)利用回归模型对v进行预报或控制 §1数据表的基础知识 在本中 ,我们所涉及的均是样本点×变量类型的数据表 如果有m个变量 ,2,.,xm,对它们分别进行了次采样(或观测),得到n个样本点 (x1,x2,.,xm),i=1,2,.,n 则所构成的数据表X可以写成 一个n×m维的矩阵。 e X=()n= 式中e,=(x,x2,.,xm)Y∈Rm,i=1,2,.,n,e,被称为第i个样本点。 样本的均值为 样本协方差矩阵及样本相关系数矩阵分别为 S=(Sy)m= 2e.-e:- R=()m 其中 -226-
-226- 第十二章 回归分析 前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的 一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数 据拟合得最好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要 作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已 经完全解决了,还有进一步研究的必要吗? 从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些 系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间 太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也可以用方差分析 方法对模型的误差进行分析,对拟合的优劣给出评价。简单地说,回归分析就是对拟合 问题作的统计分析。 具体地说,回归分析在一组数据的基础上研究这样几个问题: (i)建立因变量 y 与自变量 m x , x , , x 1 2 L 之间的回归模型(经验公式); (ii)对回归模型的可信度进行检验; (iii)判断每个自变量 x (i 1,2, ,m) i = L 对 y 的影响是否显著; (iv)诊断回归模型是否适合这组数据; (v)利用回归模型对 y 进行预报或控制。 §1 数据表的基础知识 1.1 样本空间 在本章中,我们所涉及的均是样本点×变量类型的数据表。如果有 m 个变量 m x , x , , x 1 2 L ,对它们分别进行了 n 次采样(或观测),得到n 个样本点 ( , , , ) i1 i2 im x x L x ,i =1,2,L, n 则所构成的数据表 X 可以写成一个 n× m 维的矩阵。 ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ = × = T n T ij n m e e X x M 1 ( ) 式中 T m ei = (xi1, xi2 ,L, xim ) ∈ R ,i = 1,2,L, n , i e 被称为第i 个样本点。 样本的均值为 ( , , , ) 1 2 m x = x x L x , ∑= = n i j ij x n x 1 1 , j = 1,2,L,m 样本协方差矩阵及样本相关系数矩阵分别为 T k n k ij m m k e x e x n S s ( )( ) 1 1 ( ) 1 − − − = = ∑= × ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ = × = ii jj ij ij m m s s s R (r ) 其中
12(。-) n- 数据的中心化处理是指平移变换,即 x=xm-x,i=1,2,.,n:j=l,2,.,m 该变换可以使样本的均值变为0,而这样的变换既不改变样本点间的相互位置,也 不改变变量间的相关性。但变换后,却常常有许多技术上的便利。 (2)数据的无量纲化处理 在实际问题中,不同变量的测量单位往往是不一样的。为了消除变量的量纲效应 使每个变最都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进 行所谓的压缩处理,即使每个变量的方差均变成1,即 x =x/s x,-, 其中s,=n-1 还可以有其它消量纲的方法,如 xy=x/max(xo),x=xy/minx) x=x/,x=x /(maxtx)-mintx) (3)标准化处理 所谓对数据的标准化处理,是指对数据同时进行中心化一压缩处理,即 =-王,i=12,j=2,m 5 2 8 无程的型为 Y=B+Bx+E (1) 式中,B。,B为回归系数,是随机误差项,总是假设~N(0,σ2),则随机变量 y-N(B。+Bx,o2). 若对y和x分别进行了n次独立观测,得到以下n对观测值 (0y,x),i=1,2,.,n (2) 这n对观测值之间的关系符合模型 y=B。+Bx+s,i=l,2,.,n 3) 这里,x,是自变量在第1次观测时的取值,它是一个非随机变量,并且没有测量误差。 对应于x,y,是一个随机变量,它的随机性是由,造成的。6,~N(0,G),对于不同 的观测,当i≠广时,6,与6,是相互独立的。 2.2最小二乘估计方法 -227
-227- ∑= − − − = n k ij ki i kj j x x x x n s 1 ( )( ) 1 1 1.2 数据的标准化处理 (1)数据的中心化处理 数据的中心化处理是指平移变换,即 ij ij j x = x − x * ,i = 1,2,L, n ; j = 1,2,L,m 该变换可以使样本的均值变为 0,而这样的变换既不改变样本点间的相互位置,也 不改变变量间的相关性。但变换后,却常常有许多技术上的便利。 (2)数据的无量纲化处理 在实际问题中,不同变量的测量单位往往是不一样的。为了消除变量的量纲效应, 使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进 行所谓的压缩处理,即使每个变量的方差均变成 1,即 ij ij j x x / s * = 其中 ∑= − − = n i j ij j x x n s 1 2 ( ) 1 1 。 还可以有其它消量纲的方法,如 / max{ } * ij i ij ij x = x x , / min{ } * ij i ij ij x = x x ij ij j x x / x * = , /(max{ } min{ }) * ij i ij i ij ij x = x x − x (3)标准化处理 所谓对数据的标准化处理,是指对数据同时进行中心化-压缩处理,即 j ij j ij s x x x − =* ,i = 1,2,L, n , j = 1,2,L,m。 §2 一元线性回归 2.1 模型 一元线性回归的模型为 y = β + β x + ε 0 1 , (1) 式中, 0 1 β ,β 为回归系数, ε 是随机误差项,总是假设 ~ (0, ) 2 ε N σ ,则随机变量 ~ ( , ) 2 y N β 0 + β1x σ 。 若对 y 和 x 分别进行了n 次独立观测,得到以下 n 对观测值 ( , ) i i y x ,i = 1,2,L, n (2) 这n 对观测值之间的关系符合模型 i i y = β + β x + ε 0 1 ,i = 1,2,L, n (3) 这里, i x 是自变量在第i 次观测时的取值,它是一个非随机变量,并且没有测量误差。 对应于 i x , i y 是一个随机变量,它的随机性是由 i ε 造成的。 ~ (0, ) 2 ε i N σ ,对于不同 的观测,当i ≠ j 时, i ε 与 j ε 是相互独立的。 2.2 最小二乘估计方法
2.2.1最小二乘法 用最小二乘法估计B。,B的值,即取B,B的一组估计值B。,B,使y与 立=B。+尼x的误差平方和达到最小。若记 QR,R)=20y-R-Rx)月 )=min(B)=x) 显然Q(B。,B)≥0,且关于B,B可微,则由多元函数存在极值的必要条件得 景-空-40 器-吃-A-40-0 整理后,得到下面的方程组 明+B2-立 (4) B2+B2-2 此方程组称为正规方程组,求解可以得到 至4-X,-列 ∑(x,-) (5) 月。=-月 称月,月为B,B的最小二乘估计,其中,元,分别是x与y的样本均值,即 关于B的计算公式还有一个更直观的表示方法,即 x-0y-列 三。- -28
-228- 2.2.1 最小二乘法 用最小二乘法估计 0 1 β , β 的值,即取 0 1 β , β 的一组估计值 0 1 ˆ , ˆ β β ,使 i y 与 y x i 0 1 ˆ ˆ ˆ = β + β 的误差平方和达到最小。若记 ∑= = − − n i i i Q y x 1 2 0 1 0 1 (β , β ) ( β β ) 则 ∑= = = − − n i i i Q Q y x 1 2 0 1 0 1 , 0 1 ) ˆ ˆ ) min ( , ) ( ˆ , ˆ ( 0 1 β β β β β β β β 显然Q(β 0 , β1) ≥ 0 ,且关于 0 1 β , β 可微,则由多元函数存在极值的必要条件得 2 ( ) 0 1 0 1 0 = − − − = ∂ ∂ ∑= n i i i y x Q β β β 2 ( ) 0 1 0 1 1 = − − − = ∂ ∂ ∑= n i i i i x y x Q β β β 整理后,得到下面的方程组 ⎪ ⎪ ⎩ ⎪ ⎪ ⎨ ⎧ + = + = ∑ ∑ ∑ ∑ ∑ = = = = = n i i i n i i n i i n i i n i i x x x y n x y 1 1 2 1 1 0 1 1 0 1 β β β β (4) 此方程组称为正规方程组,求解可以得到 ⎪ ⎪ ⎪ ⎩ ⎪ ⎪ ⎪ ⎨ ⎧ = − − − − = ∑ ∑ = = y x x x x x y y n i i n i i i 0 1 1 2 1 1 ˆ ˆ ( ) ( )( ) ˆ β β β (5) 称 0 1 ˆ , β ˆ β 为 0 1 β , β 的最小二乘估计,其中, x, y 分别是 i x 与 i y 的样本均值,即 ∑= = n i i x n x 1 1 , ∑= = n i i y n y 1 1 关于 β1 的计算公式还有一个更直观的表示方法,即 ∑ ∑ = = − − − = n i i n i i i x x x x y y 1 2 1 1 ( ) ( )( ) ˆ β
2y- 2属-0-列 2-、 式中=2化-矿,0-那,与是x与的本关系数 n-1 显然,当x,y都是标准化数据时,则有x=0,=0,S,=1,S,=1。所以, 月。=0,月= 回归方程为 少=rnx 由上可知,对标准化数据,户可以表示y与x的相关程度, 2.2.2B,月的性质 作为一个随机变量,户有以下性质。 1.月是y,的线性组合,它可以写成 戊-立y 式中,店是因定的常量,飞。一无 传-切 证明事实上 A0月-%-空4司 Su-n x- 由于 2化-)=成-m)=0 所以 月= 2.因为月是随机变量y,=1,2,n)的线性组合,而y是相互独立、且服从正 态分布的,所以,月的抽样分布也服从正态分布。 3.点估计量B是总体参数B的无偏估计,有 -229
-229- ∑ ∑ ∑ ∑ ∑ = = = = = − − − − ⋅ − − = n i i n i i n i i i n i i n i i x x y y x x y y x x y y 1 2 1 2 1 1 2 1 2 ( ) ( ) ( )( ) ( ) ( ) xy x y r s s = 式中 ∑= − − = n i x i x x n s 1 2 2 ( ) 1 1 , ∑= − − = n i y i y y n s 1 2 2 ( ) 1 1 , xy r 是 x 与 y 的样本相关系数。 显然,当 i i x , y 都是标准化数据时,则有 x = 0 , y = 0 , sx = 1, s y =1。所以, 有 0 ˆ β 0 = , xy = r 1 β ˆ 回归方程为 y r x = xy ˆ 由上可知,对标准化数据, 1 β ˆ 可以表示 y 与 x 的相关程度。 2.2.2 0 1 ˆ , β ˆ β 的性质 作为一个随机变量, 1 β ˆ 有以下性质。 1. 1 β ˆ 是 i y 的线性组合,它可以写成 ∑= = n i i i k y 1 1 β ˆ (6) 式中, i k 是固定的常量, ∑= − − = n i i i i x x x x k 1 2 ( ) 。 证明 事实上 ∑ ∑ ∑ ∑ ∑ = = = = = − − − − = − − − = n i i n i n i i i i n i i n i i i x x x x y y x x x x x x y y 1 2 1 1 1 2 1 1 ( ) ( ) ( ) ( ) ( )( ) β ˆ 由于 ( ) ( ) 0 1 ∑ − = − = = y x x y nx nx n i i 所以 i n i n i i i y x x x x ∑ ∑= = − − = 1 1 2 1 ( ) β ˆ 2.因为 1 β ˆ 是随机变量 y (i 1,2, , n) i = L 的线性组合,而 i y 是相互独立、且服从正 态分布的,所以, 1 β ˆ 的抽样分布也服从正态分布。 3.点估计量 1 β ˆ 是总体参数 β1 的无偏估计,有
Ba=4空小-26B -kE(B+B)=B+B 由于 含. x-空 属-x- 4 -=l 云2- 所以 E(B)=B 4.估计量月的方差为 Var(B)= 02 (7) 2- 这是因为 Var()-VarVar(. 由于 - 1 x-= 1 2:-白 - 因此,式(7)得证。 5.对于总体模型中的参数B,在它的所有线性无偏估计量中,最小二乘估计最房 其有最小的方差。 记任意一个线性估计量 店-2x 式中C是任意常数,C不全为零,i=1,2,n。要求月,是B的无偏估计量,即 E(a)=∑c,EOy,)=B 另一方面,由于Ey,)=B。+Bx,所以又可以写成 -230-
-230- ∑ ∑ = = ⎟ = ⎠ ⎞ ⎜ ⎝ ⎛ = n i i i n i i i E E k y k E y 1 1 1 ) ( ) ˆ (β ∑ ∑ ∑ = = = = + = + n i i i n i i i n i i k E x k k x 1 1 1 0 1 0 1 (β β ) β β 由于 0 ( ) 1 1 1 2 = − − = ∑ ∑ ∑ = = = n i n i i i n i i x x x x k 1 ( ) ( )( ) ( ) 1 2 1 1 1 1 2 = − − − = − − = ∑ ∑ ∑ ∑ ∑ = = = = = n i i n i i i i n i n i i i i n i i x x x x x x x x x x x k x 所以 1 1 ) ˆ E(β = β 4.估计量 1 β ˆ 的方差为 ∑= − = n i i x x 1 2 2 1 ( ) ) ˆ Var( σ β (7) 这是因为 ∑ ∑ ∑ ∑ = = = = ⎟ = = = ⎠ ⎞ ⎜ ⎝ ⎛ = n i i n i i n i i i n i i i k y k y k k 1 2 2 1 2 2 1 2 1 1 ) Var Var( ) ˆ Var(β σ σ 由于 ∑ ∑ ∑ ∑ ∑ ∑ = = = = = = − − = ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ − = − − = n i i n i i n i i n i n i i i n i i x x x x x x x x x x k 1 1 2 2 2 1 2 1 2 1 1 2 2 ( ) 1 ( ) ( ) 1 ) ( ) ( 因此,式(7)得证。 5.对于总体模型中的参数 β1 ,在它的所有线性无偏估计量中,最小二乘估计量 1 β ˆ 具有最小的方差。 记任意一个线性估计量 ∑= = n i i i c y 1 1 ~ β 式中 i c 是任意常数, i c 不全为零,i = 1,2,L, n 。要求 1 ~ β 是 β1 的无偏估计量,即 1 1 1 ) ( ) ~ (β = ∑ = β = n i i i E c E y 另一方面,由于 i i E y x 0 1 ( ) = β + β ,所以又可以写成