于x的变化引起y线性变化的部分,即3+31x:另一部分是由其他一切随机因 素引起的,记为。(21)式确切地表达了经济变量x与y之间密切相关,但密 切的程度又没有到由x惟一确定y的地步的这种特殊关系。 (2.1)式称为变量y对x的一元线性理论回归模型。一般我们称y为被解释 变量(因变量),x为解释变量(自变量)。式中风和月:是未知参数,称为回 归常数,用为回归系数。c表示其他随机因素的影响。在(2.1)式中我们-一般假 定ε是不可观测的随机误差,它是一个随机变盘,通常假定€满足 E(e)=0 (2.2) var(e)=a 这里E(e)表示e的数学期望,ar(e)表示e的方差。对2.I)式两端求期望,得 E(y)=+1x (2.3) 称(2.3)式为回归方程。 一般情况下,对我所研究的某个实际问题,获得的n组样本观测值(1, y),(x22),…,(xa,y)来说,如果它们符合模型(21)式,则 y=+月1x,+e,i=1,2,…,n (2.4) 由(2.2)式有 E(e:)=0 i=1,2,…,n (2.5) var(e)=02 通常我们还假定n组数据是独立观测的,因而y1,y2,“,ym与e1, e2,…,en都是相互独立的随机变量。而x,(i=1,2,…,n)是确定性变量,其值 是可以精确测量和控制的。我们称(2,4)式为一元线性样本回归模型。 (2.1)式的理论回归模型与(2.4)式的样本回归棋型是等价的,因而我们常不 加区分地将两者统称为一元线性回归模型。 对(2.4)式两边分别求数学期望和方差,得 E(y)=+月1x,var(y)=a2,i=1,2,…,n (2.6) (2.6)式表明随机变量y1,2,…,.的期望不等,方差相等,因而y 2,…,是独立的随机变量,但并不同分布。而1,e2,",en是独立同分 布的随机变量。 E(y)=+月1x:从平均意义上表达了变量y与x的统计规律性。关于这一 点,在应用上非常重要,因为我们经常关心的正是这个平均值。例如,在消费y 与收入x的研究中,我们所关心的正是当国民收入达到某个水平时,人均消费能 达到多少:在小麦亩产y与施肥量x的关系中,我们所关心的也正是当施肥量x PDF created with pdfFactory Pro trial version www.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com
确定后,小麦的平均产量是多少。 回归分析的主要任务就是通过n组样本观测值(x,,),i=1,2,…,n,对30, 品进行估计。一般用高,月分别表示民,月的估计值,则称 y=30+31x (2.7) 为y关于x的一元线性经验回归方程。 通常高表示经验回归直线在纵轴上的截距。如果模型范围里包括x=0,则 是x0时y概率分布的均值:如果不包括x=0,只是作为回归方程中的 分开项,没有别的具体意义。户:表示经验直线回归方程的斜率,1在实际应用 中表示自变量x每增加一个单位时因变量y的平均增如数量。 在实际问题的研究中,为了方便地对参数作区间估计和假设检验,我们还假 定模型(2.1)式中误差项€遵从正态分布,即 e-N(0,a2) (2.8) 由于,E2,…,n是e的独立同分布的样本,因而有 ~N0,g2),i=1,2,,n (2.9) 在避从正态分布的假定下,进一步有随机变量丝也遵从正态分布 y~N(%+月x,a2),i=1,2,…,n (2.10) 为了在今后的讨论中充分利用矩阵这个处理线性关系的有力工其,我们这里 将一元线性回归的-般形式(2.1)式用矩阵表示。令 「1x1 x= 1x2 「e17 8= 肉 (2.11) 于是模型(2.1)式表示为 y=明+8 {E(e)=0 (2.12) (var(e)=a2In PDF created with pdfFactory Pro trial version www.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com
其中【n为n阶单位矩阵。 2.2参数P0,B的估计 一、普通最小二乘估计 为了由样本数据得到回归参数和A的理想估计值,我们将使用普通最小 二乘估计(Ordinary Le2 st Square Estimation,OLSE)。对每一个样本观测值(x, ),最小二乘法考虑观测值y与其回归值E()=6+A的离差越小起好, 综合地考虑”个离差值,定义离差平方和为 Q(,)=之(-E()2 = 含(%-属-5 (2.13) 所谓最小二乘法,就是寻找参数,A1的估计值,,使(2.13)式定义 的离差平方和达到极小,即寻找,户1,满足 Q(a,)=之(%-角-角x2 =1 =2(y-房2 (2.14) 依照(2.14)式求出的0,31就称为回归参数,月1的最小二乘估计。称 :=B0+月1x (2.15) 为y(i=1,2,…,n)的回归拟合值,简称回归值或拟合值。称 e:=4-4 (2.16) 为y(i=1,2,…,n)的残差。 从几何关系上看,用一元线性回归方程拟合n个样本观测点(x:,),i=1, 2,",n,就是要求回归直线文=+月x:位于这n个样本点中间,或者说这n 个样本点能最靠近这条回归直线。由图23可以直观地看到这种思想。 残差平方和 空-会-高-加 (2.17) 23 PDF created with pdfFactory Pro trial version www.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com
( r+ e=y乎 图2.3 从整体上刻画了n个样本观测点(x,为),i=1,2,…,n,到回归直线=0十 月1x距离的大小。 从(2.14)式中求出和3是一个求极值问题。由于Q是关于,月,的非 负二次函数,因而它的最小值总是存在的。根据微积分中求极值的原理,, 应满足下列方程组 最44-22x--A)=0 aQ (2.18) 3l-宫-高-A=0 i=1 经整理后,得正规方程组 +(空a=字* (2.19) l(它o+(它a,-之w 求解以上正规方程组得品,月,的最小二乘估计(OLSE)为 (高=9-月元 a。心动 (2.20) -驴 其中 容=会 24 PDF created with pdfFactory Pro trial version www.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com
L如=出-护=空好-m( (2.21) b切=含(-为-刃空w-两 (2.22) 则(2.20)式可简写为 〔=y-31 (2.23) a=L5儿a 易知,可以等价地表示为 (x-)y 习。为 (2.24) 或 月王 (2.25) 之x-n(x - 由g=夕-31x可知 =3%十31王 (2.26) 可见回归直线y=+:x是通过点(元,)的,这对回归直线的作图很有帮助。 从物理学的角度看,(x,)是n个样本值(x,y)的重心,也就是说回归直线通 过样本的重心。 利用上述公式就可以具体计算回归方程的参数。下面以例2.1数据为例,建 立火灾损失与住户到最近的消防站的距离之间的回归方程。很据表2.1数据计算 得 2=器2=3.28,3=902=264 La=之x子-n(z} =196.16-15×(3.28)2=34.784 身w脑 子 PDF created with pdfFactory Pro trial version ww.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com