第十二章回归分析 前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的 组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数 据拟合得最好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要 作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已 经完全解决了,还有进一步研究的必要吗? 从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些 系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间 太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也可以用方差分析 方法对模型的误差进行分析,对拟合的优劣给出评价。简单地说,回归分析就是对拟合 问题作的统计分析。 具体地说,回归分析在一组数据的基础上研究这样几个问题 (i)建立因变量y与自变量x1,x2…,xm之间的回归模型(经验公式); (ⅱi)对回归模型的可信度进行检验 (i)判断每个自变量x,(=1,2,…,m)对y的影响是否显著 (ⅳ)诊断回归模型是否适合这组数据; (v)利用回归模型对y进行预报或控制 §1数据表的基础知识 1.1样本空间 在本章中,我们所涉及的均是样本点×变量类型的数据表。如果有m个变量 x,x2,…xm,对它们分别进行了n次样(或观测),得到n个样本点 则所构成的数据表X可以写成一个nxm维的矩阵。 X=(x) 式中e1=(x1,x2…,x)∈Rm,i=1,2…,n,e被称为第i个样本点。 样本的均值为 X=(x1,x2,…,xm),x 1,2…,m 样本协方差矩阵及样本相关系数矩阵分别为 S=(S) (e4-x)(e-x) n一 R=(n) 其中
-226- 第十二章 回归分析 前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的 一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数 据拟合得最好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要 作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已 经完全解决了,还有进一步研究的必要吗? 从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些 系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间 太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也可以用方差分析 方法对模型的误差进行分析,对拟合的优劣给出评价。简单地说,回归分析就是对拟合 问题作的统计分析。 具体地说,回归分析在一组数据的基础上研究这样几个问题: (i)建立因变量 y 与自变量 m x , x , , x 1 2 L 之间的回归模型(经验公式); (ii)对回归模型的可信度进行检验; (iii)判断每个自变量 x (i 1,2, ,m) i = L 对 y 的影响是否显著; (iv)诊断回归模型是否适合这组数据; (v)利用回归模型对 y 进行预报或控制。 §1 数据表的基础知识 1.1 样本空间 在本章中,我们所涉及的均是样本点×变量类型的数据表。如果有 m 个变量 m x , x , , x 1 2 L ,对它们分别进行了 n 次采样(或观测),得到n 个样本点 ( , , , ) i1 i2 im x x L x ,i =1,2,L, n 则所构成的数据表 X 可以写成一个 n× m 维的矩阵。 ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ = × = T n T ij n m e e X x M 1 ( ) 式中 T m ei = (xi1, xi2 ,L, xim ) ∈ R ,i = 1,2,L, n , i e 被称为第i 个样本点。 样本的均值为 ( , , , ) 1 2 m x = x x L x , ∑= = n i j ij x n x 1 1 , j = 1,2,L,m 样本协方差矩阵及样本相关系数矩阵分别为 T k n k ij m m k e x e x n S s ( )( ) 1 1 ( ) 1 − − − = = ∑= × ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ = × = ii jj ij ij m m s s s R (r ) 其中
∑ X. -x 12数据的标准化处理 (1)数据的中心化处理 数据的中心化处理是指平移变换,即 x=x-x,1=1,2,…,n:j=12,…,m 该变换可以使样本的均值变为0,而这样的变换既不改变样本点间的相互位置,也 不改变变量间的相关性。但变换后,却常常有许多技术上的便利。 (2)数据的无量纲化处理 在实际问题中,不同变量的测量单位往往是不一样的。为了消除变量的量纲效应, 使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进 行所谓的压缩处理,即使每个变量的方差均变成1,即 二 其中s Vhm-12(x-x)2。 还可以有其它消量纲的方法,如 x i=xi, /max(x, ),xy=xi; /min(xy, j xi=xy /,,xi=xi / max(x; ) -min( x; )) (3)标准化处理 所谓对数据的标准化处理,是指对数据同时进行中心化一压缩处理,即 x §2一元线性回归 2.1模型 元线性回归的模型为 y=Po+P 式中,B月为回归系数,E是随机误差项,总是假设E~N(0,σ2),则随机变量 y~N(B0+Bx,02) 若对y和x分别进行了n次独立观测,得到以下n对观测值 (2) 这n对观测值之间的关系符合模型 y1=B+Bx+E1,i=1,2,…,n 这里,x是自变量在第i次观测时的取值,它是一个非随机变量,并且没有测量误差。 对应于x,y是一个随机变量,它的随机性是由E1造成的。E1~N(0,a2),对于不同 的观测,当i≠j时,6与是相互独立的。 22最小二乘估计方法
-227- ∑= − − − = n k ij ki i kj j x x x x n s 1 ( )( ) 1 1 1.2 数据的标准化处理 (1)数据的中心化处理 数据的中心化处理是指平移变换,即 ij ij j x = x − x * ,i = 1,2,L, n ; j = 1,2,L,m 该变换可以使样本的均值变为 0,而这样的变换既不改变样本点间的相互位置,也 不改变变量间的相关性。但变换后,却常常有许多技术上的便利。 (2)数据的无量纲化处理 在实际问题中,不同变量的测量单位往往是不一样的。为了消除变量的量纲效应, 使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进 行所谓的压缩处理,即使每个变量的方差均变成 1,即 ij ij j x x / s * = 其中 ∑= − − = n i j ij j x x n s 1 2 ( ) 1 1 。 还可以有其它消量纲的方法,如 / max{ } * ij i ij ij x = x x , / min{ } * ij i ij ij x = x x ij ij j x x / x * = , /(max{ } min{ }) * ij i ij i ij ij x = x x − x (3)标准化处理 所谓对数据的标准化处理,是指对数据同时进行中心化-压缩处理,即 j ij j ij s x x x − =* ,i = 1,2,L, n , j = 1,2,L,m。 §2 一元线性回归 2.1 模型 一元线性回归的模型为 y = β + β x + ε 0 1 , (1) 式中, 0 1 β ,β 为回归系数, ε 是随机误差项,总是假设 ~ (0, ) 2 ε N σ ,则随机变量 ~ ( , ) 2 y N β 0 + β1x σ 。 若对 y 和 x 分别进行了n 次独立观测,得到以下 n 对观测值 ( , ) i i y x ,i = 1,2,L, n (2) 这n 对观测值之间的关系符合模型 i i y = β + β x + ε 0 1 ,i = 1,2,L, n (3) 这里, i x 是自变量在第i 次观测时的取值,它是一个非随机变量,并且没有测量误差。 对应于 i x , i y 是一个随机变量,它的随机性是由 i ε 造成的。 ~ (0, ) 2 ε i N σ ,对于不同 的观测,当i ≠ j 时, i ε 与 j ε 是相互独立的。 2.2 最小二乘估计方法
2.2.1最小二乘法 用最小二乘法估计B0,B1的值,即取B,月的一组估计值B0,B1,使y与 j=B0+B1x的误差平方和达到最小。若记 QA0,B)=∑(y-B-x)2 则 Q(Bo, B,)=min @(Bo,B)=2(,-Bo-B,x,) 显然Q(0B1)≥0,且关于B0,B可微,则由多元函数存在极值的必要条件得 aBo 2∑ (y-B6-Bx)=0 9=-2∑(--Bx)=0 整理后,得到下面的方程组 10+B∑x=∑y +A空 此方程组称为正规方程组,求解可以得到 ∑( (x1-x)(y-y) 凤=-Bx 称B0,B1为B0,B1的最小二乘估计,其中,x,y分别是x与y的样本均值,即 xi, J y n 关于B1的计算公式还有一个更直观的表示方法,即 (x1-x)(y- P (x1-x)2
-228- 2.2.1 最小二乘法 用最小二乘法估计 0 1 β , β 的值,即取 0 1 β , β 的一组估计值 0 1 ˆ , ˆ β β ,使 i y 与 y x i 0 1 ˆ ˆ ˆ = β + β 的误差平方和达到最小。若记 ∑= = − − n i i i Q y x 1 2 0 1 0 1 (β , β ) ( β β ) 则 ∑= = = − − n i i i Q Q y x 1 2 0 1 0 1 , 0 1 ) ˆ ˆ ) min ( , ) ( ˆ , ˆ ( 0 1 β β β β β β β β 显然Q(β 0 , β1) ≥ 0 ,且关于 0 1 β , β 可微,则由多元函数存在极值的必要条件得 2 ( ) 0 1 0 1 0 = − − − = ∂ ∂ ∑= n i i i y x Q β β β 2 ( ) 0 1 0 1 1 = − − − = ∂ ∂ ∑= n i i i i x y x Q β β β 整理后,得到下面的方程组 ⎪ ⎪ ⎩ ⎪ ⎪ ⎨ ⎧ + = + = ∑ ∑ ∑ ∑ ∑ = = = = = n i i i n i i n i i n i i n i i x x x y n x y 1 1 2 1 1 0 1 1 0 1 β β β β (4) 此方程组称为正规方程组,求解可以得到 ⎪ ⎪ ⎪ ⎩ ⎪ ⎪ ⎪ ⎨ ⎧ = − − − − = ∑ ∑ = = y x x x x x y y n i i n i i i 0 1 1 2 1 1 ˆ ˆ ( ) ( )( ) ˆ β β β (5) 称 0 1 ˆ , β ˆ β 为 0 1 β , β 的最小二乘估计,其中, x, y 分别是 i x 与 i y 的样本均值,即 ∑= = n i i x n x 1 1 , ∑= = n i i y n y 1 1 关于 β1 的计算公式还有一个更直观的表示方法,即 ∑ ∑ = = − − − = n i i n i i i x x x x y y 1 2 1 1 ( ) ( )( ) ˆ β
(y-y)∑(x-x)0-y 式中s2=_1 n-1(x-x)2,2=1S(-P),r是x与y的样本相关系数。 n 显然,当x,y都是标准化数据时,则有x=0,j=0,S2=1,s,=1。所以, 有 B=0,B1 回归方程为 由上可知,对标准化数据,B1可以表示y与x的相关程度 222B0,B1的性质 作为一个随机变量,B1有以下性质 1.B1是y的线性组合,它可以写成 B=∑k 式中,k是固定的常量,k=x x 证明事实上 (x-x)(y1-y)∑(x-x)y (x2-x) A (x2-x) (x2-x) 由于 y∑(x1-x)=y(nx-nx)=0 所以 B=∑ x -x y 2.因为B1是随机变量y(=1,2,…,m)的线性组合,而y是相互独立、且服从正 态分布的,所以,B的抽样分布也服从正态分布。 3.点估计量B是总体参数B1的无偏估计,有
-229- ∑ ∑ ∑ ∑ ∑ = = = = = − − − − ⋅ − − = n i i n i i n i i i n i i n i i x x y y x x y y x x y y 1 2 1 2 1 1 2 1 2 ( ) ( ) ( )( ) ( ) ( ) xy x y r s s = 式中 ∑= − − = n i x i x x n s 1 2 2 ( ) 1 1 , ∑= − − = n i y i y y n s 1 2 2 ( ) 1 1 , xy r 是 x 与 y 的样本相关系数。 显然,当 i i x , y 都是标准化数据时,则有 x = 0 , y = 0 , sx = 1, s y =1。所以, 有 0 ˆ β 0 = , xy = r 1 β ˆ 回归方程为 y r x = xy ˆ 由上可知,对标准化数据, 1 β ˆ 可以表示 y 与 x 的相关程度。 2.2.2 0 1 ˆ , β ˆ β 的性质 作为一个随机变量, 1 β ˆ 有以下性质。 1. 1 β ˆ 是 i y 的线性组合,它可以写成 ∑= = n i i i k y 1 1 β ˆ (6) 式中, i k 是固定的常量, ∑= − − = n i i i i x x x x k 1 2 ( ) 。 证明 事实上 ∑ ∑ ∑ ∑ ∑ = = = = = − − − − = − − − = n i i n i n i i i i n i i n i i i x x x x y y x x x x x x y y 1 2 1 1 1 2 1 1 ( ) ( ) ( ) ( ) ( )( ) β ˆ 由于 ( ) ( ) 0 1 ∑ − = − = = y x x y nx nx n i i 所以 i n i n i i i y x x x x ∑ ∑= = − − = 1 1 2 1 ( ) β ˆ 2.因为 1 β ˆ 是随机变量 y (i 1,2, , n) i = L 的线性组合,而 i y 是相互独立、且服从正 态分布的,所以, 1 β ˆ 的抽样分布也服从正态分布。 3.点估计量 1 β ˆ 是总体参数 β1 的无偏估计,有
E(B)=E∑ky ∑ k,,E) ∑kE(B0+Ax)=B∑k+B∑kx 由于 x -x k 0 x -x ∑(x-x (x2-x) 所以 E(B1)=B1 4.估计量B的方差为 Va()= ∑(x1-x) 这是因为 va(B)=Va∑ky|=∑kva()=∑ka2=a2∑k2 由于 ∑k2=∑(xx一) ∑(x1-x) (x2-x) ∑(x-x) 因此,式(7)得证 5.对于总体模型中的参数B1,在它的所有线性无偏估计量中,最小二乘估计量B1 具有最小的方差。 记任意一个线性估计量 =∑cy 式中c1是任意常数,c不全为零,i=1,2,…n。要求B1是B1的无偏估计量,即 E(B)=∑cE()=月 另一方面,由于E(v)=B+B1x1,所以又可以写成 230
-230- ∑ ∑ = = ⎟ = ⎠ ⎞ ⎜ ⎝ ⎛ = n i i i n i i i E E k y k E y 1 1 1 ) ( ) ˆ (β ∑ ∑ ∑ = = = = + = + n i i i n i i i n i i k E x k k x 1 1 1 0 1 0 1 (β β ) β β 由于 0 ( ) 1 1 1 2 = − − = ∑ ∑ ∑ = = = n i n i i i n i i x x x x k 1 ( ) ( )( ) ( ) 1 2 1 1 1 1 2 = − − − = − − = ∑ ∑ ∑ ∑ ∑ = = = = = n i i n i i i i n i n i i i i n i i x x x x x x x x x x x k x 所以 1 1 ) ˆ E(β = β 4.估计量 1 β ˆ 的方差为 ∑= − = n i i x x 1 2 2 1 ( ) ) ˆ Var( σ β (7) 这是因为 ∑ ∑ ∑ ∑ = = = = ⎟ = = = ⎠ ⎞ ⎜ ⎝ ⎛ = n i i n i i n i i i n i i i k y k y k k 1 2 2 1 2 2 1 2 1 1 ) Var Var( ) ˆ Var(β σ σ 由于 ∑ ∑ ∑ ∑ ∑ ∑ = = = = = = − − = ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ − = − − = n i i n i i n i i n i n i i i n i i x x x x x x x x x x k 1 1 2 2 2 1 2 1 2 1 1 2 2 ( ) 1 ( ) ( ) 1 ) ( ) ( 因此,式(7)得证。 5.对于总体模型中的参数 β1 ,在它的所有线性无偏估计量中,最小二乘估计量 1 β ˆ 具有最小的方差。 记任意一个线性估计量 ∑= = n i i i c y 1 1 ~ β 式中 i c 是任意常数, i c 不全为零,i = 1,2,L, n 。要求 1 ~ β 是 β1 的无偏估计量,即 1 1 1 ) ( ) ~ (β = ∑ = β = n i i i E c E y 另一方面,由于 i i E y x 0 1 ( ) = β + β ,所以又可以写成