1、几个概念 条件分布( Conditional distribution):以X取定值为条件的Y的条件分布 条件概率( Conditional probability):给定X的Y的概率,记为P(YX)。 例如,P(Y=55X=80)=15;P(Y=150X=260)=1/7。( 条件期望( conditional Expectation):给定X的Y的期望值,记为E(YX) 例如,E(YX-80=55×1/5+60×1/5+65×1/5+70×1/5+75×1/5=65 总体回归曲线( Popular Regression Curve)(总体回归曲线的几何意义) 当解释变量给定值时因变量的条件期望值的轨迹。 2、总体回归函数( Popular regression Function,PRF E(YXi=f(Xi 当PRF的函数形式为线性函数,则有, E(YX=β1+β2X1 其中β1和β2为未知而固定的参数,称为回归系数。β1和β2也分别称为截 距和斜率系数。 上述方程也称为线性总体回归函数 3、“线性”的含义 “线性”可作两种解释:对变量为线性,对参数为线性。一般“线性回 归”一词总是指对参数β为线性的一种回归(即参数只以它的1次方 现)
16 1、几个概念 条件分布(Conditional distribution):以X取定值为条件的Y的条件分布 条件概率(Conditional probability):给定X的Y的概率,记为P(Y|X)。 例如,P(Y=55|X=80)=1/5;P(Y=150|X=260)=1/7。(表) 条件期望(conditional Expectation):给定X的Y的期望值,记为E(Y|X)。 例如,E(Y|X=80)=55×1/5+60×1/5+65×1/5+70×1/5+75×1/5=65 总体回归曲线(Popular Regression Curve)(总体回归曲线的几何意义): 当解释变量给定值时因变量的条件期望值的轨迹。 2、总体回归函数(Popular Regression Function,PRF E(Y|Xi )=f(Xi ) 当PRF的函数形式为线性函数,则有, E(Y|Xi )=1+2Xi 其中1和2为未知而固定的参数,称为回归系数。1和2也分别称为截 距和斜率系数。 上述方程也称为线性总体回归函数。 3、“线性”的含义 “线性”可作两种解释:对变量为线性,对参数为线性。一般“线性回 归”一词总是指对参数为线性的一种回归(即参数只以它的1次方出 现)
4、PRF的随机设定 将个别的Y围绕其期望值的离差( Deviation)表述如下 u=YE(YXi 或 YFE(YX +u 其中u为随机误差项( Stochastic error)或随机干扰项( Stochastic disturbance)。线性总体回归函数: PRF: YFP+B,X +uFE(YX +u 5、随机干扰项的意义 随机扰动项是从模型中省略下来的而又集体地影响着Y的全部变量的 替代物。显然的问题是:为什么不把这些变量明显地引进到模型中来, 而以随即扰动项来替代?理由是多方面的: (1)理论的含糊性:理论不能完全说明影响因变量的所有影响因素 (2)数据的欠缺:无法获得有关数据。 (3)核心变量与周边变量:希望能找到与有较大影响的核心变量的关系。 (4)内在随机性:因变量具有内在的随机性。 (5)替代变量:用来代替不可观测变量的替代变量选择,造成一定误差。 (6)省略原则:研究中尽可能使回归式简单。 (7)错误的函数形式:回归式的的选择是主观的。 17
17 4、PRF的随机设定 将个别的Yi围绕其期望值的离差(Deviation)表述如下: ui=Yi -E(Y|Xi ) 或 Yi=E(Y|Xi )+ui 其中ui为随机误差项(Stochastic error)或随机干扰项(Stochastic disturbance)。线性总体回归函数: PRF:Yi=1+2Xi+ui=E(Y|Xi )+ui 5、随机干扰项的意义 随机扰动项是从模型中省略下来的而又集体地影响着Y的全部变量的 替代物。显然的问题是:为什么不把这些变量明显地引进到模型中来, 而以随即扰动项来替代?理由是多方面的: (1)理论的含糊性:理论不能完全说明影响因变量的所有影响因素。 (2)数据的欠缺:无法获得有关数据。 (3)核心变量与周边变量:希望能找到与有较大影响的核心变量的关系。 (4)内在随机性:因变量具有内在的随机性。 (5)替代变量:用来代替不可观测变量的替代变量选择,造成一定误差。 (6)省略原则:研究中尽可能使回归式简单。 (7)错误的函数形式:回归式的的选择是主观的
6、样本回归函数(SRF) 由于在大多数情况下,我们只知道变量值得一个样本,要用样本信息 的基础上估计PRF。(表) 样本1 X(收入) 80100120140160180200220240260 Y(支出) 102110120 135137150 样本2 X(收入) 80100120140160180200220240260 Y(支出) 7080 94 103116130144152165178 样本回归函数SRF 其中,Y为E(Y|X)的估计量 =B1+B2X2+l B为B的估计量,B2为B21的估计量 18 在回归分析中,我们用SRF估计PRF
18 6、样本回归函数(SRF) 由于在大多数情况下,我们只知道变量值得一个样本,要用样本信息 的基础上估计PRF。(表) X(收入) 80 100 120 140 160 180 200 220 240 260 Y(支出) 55 65 79 80 102 110 120 135 137 150 样本1 X(收入) 80 100 120 140 160 180 200 220 240 260 Y(支出) 70 80 94 103 116 130 144 152 165 178 样本2 Yi = 1 + 2 Xi +ui ˆ ˆ ˆ 样本回归函数SRF: 为 的估计量 为 的估计量 其中 为 的估计量 1 1 2 21 , ˆ Y E(Y | Xi) , ˆ , 在回归分析中,我们用SRF估计PRF
估计量( Estimator):一个估计量又称统计量( statistic),是指一个规 则、公式或方法,以用来根据已知的样本所提供的信息去估计总体参数。 在应用中,由估计量算出的数值称为估计(值)( estimate)。 样本回归函数SRF的随机形式为: Y1=B1+B2X1+t1=Y1+ 其中.表示(样本)残差项( residual)。 SRF: Y=B,+B2X W PRF: E(Y(Xi)=B,+B2Xi E(YXI) SRF是PRF的近似估计。 为了使二者更为接近,即要使 β尽可能接近B,B2尽可能接近B2
19 估计量(Estimator):一个估计量又称统计量(statistic),是指一个规 则、公式或方法,以用来根据已知的样本所提供的信息去估计总体参数。 在应用中,由估计量算出的数值称为估计(值)(estimate)。 样本回归函数SRF的随机形式为: Xi ui Yi ui ˆ ˆ ˆ Y ˆ ˆ i = 1 + 2 + = + 其中 u ˆ i 表示(样本)残差项(residual)。 Xi X PRF:E(Y|Xi)=1+2Xi SRF: Y E(Y|Xi) Yi 1 2 Xi ˆ = ˆ + ˆ i u ˆ i u Yi Yi ˆ SRF是PRF的近似估计。 为了使二者更为接近,即要使 1 1 2 2 , ˆ 尽可能接近 尽可能接近
、经典线性回归模型(CLRM)的基本假定 假定1:回归模型对参数是线性的 假定2:在重复抽样中X的值是固定的(非随机) 假定3:干扰项的均值为零。即,E(uX)=0 假定4:同方差性或u的方差相等。即 Var(u X =Elu E(uiXil E(u X12=04 假定5:各个干扰项无自相关。即 Cov(u; ui, X=ELu-EquiXiJLu-E(u;)] Equ. IXi=0 假定6:u和X的协方差为零。即 Covlui X =Elui-EquillXi-E(Xi] =E[u1(X1-E(X)) E(; Xi) -E(u E(X,) Equi xi 假定7:观测次数必须大于待估计的参数个数。 假定8:解释变量X的只要有变异性。即一个样本中,X不能完全相同。 假定9:模型没有设定误差。 假定10:没有完全的多重共线性,即解释变量之间没有完全的线性关系 20
20 二、经典线性回归模型(CLRM)的基本假定 假定1:回归模型对参数是线性的 假定2:在重复抽样中X的值是固定的(非随机) 假定3:干扰项的均值为零。即,E(ui |Xi )=0 假定4:同方差性或ui的方差相等。即 Var(ui |Xi )=E[ui -E(ui )|Xi ] 2 =E(ui 2 |Xi ] 2 = 2 假定5:各个干扰项无自相关。即 Cov(ui ,uj |Xi ,Xj )=E[ui -E(ui |Xi ) ][uj -E(uj |Xj )] =E(ui |Xi )(uj |Xj ) = 0 假定6:ui和Xi的协方差为零。即 Cov(ui ,Xi ) = E[ui – E(ui )][Xi – E(Xi )] = E[ui (Xi – E(Xi ))] =E(ui Xi ) – E(ui )E(Xi) = E(ui Xi ) = 0 假定7:观测次数必须大于待估计的参数个数。 假定8:解释变量X的只要有变异性。即一个样本中,Xi不能完全相同。 假定9:模型没有设定误差。 假定10:没有完全的多重共线性,即解释变量之间没有完全的线性关系