表2一11991年我国分地区家庭年人均食品支出和年人均收入及粮食单价数据 地区 人均食均粮食 人均食人均 粮食 品支出 收入单价 地区 品支出收入 单价 Foodexp In Pric Foodexp Income 北京 1016 1.04 河南 6441612 0.84 天津 20871.01 湖北 717 「北 19590.83 湖南 7232045 0.63 山西 576 16910.65 广东 2673329 1.37 内蒙古 540 15320.74 广西 8742106 0.72 辽宁 829 海南 9682032 1.49 林 638 164l 0.73 四川 7722008 0.67 黑龙江 62I 16l1 0.77 贵州 161705 t:海 234 29250.98 云南 江苏 21010.72 西藏 10722675 1.21 浙江 陕西 安徽 17270.70 甘肃 福建 青海 711 0.72 江西 15420.61 宁夏 6541951 0.70 山东 19290).84 4新疆609 1877 资料来源:国家统计局城市社会经济调査总队:中国城镇居民家庭收攴调査资料》,北京.中国统计 出版过,1991 注:为了方便起见,表中人均食品支出和人均收入数据均取整数。本书所附磁盘中的相应SPSS数据 文件名为121.SA 2.元回系数的意义 在回归模型(2)式中,a、b称为回归直线的系数。a是直线在y轴上的截距 代表y的基础水平;b是直线的斜率,它表示x变化一个单位时,y的平均变化。 用最小二乘法得到的A、B的估计a、b又称为最小二乘估计。例1回归结 果显示,回归直线在y轴上的截距为-53.09;斜率为0.42,即人均收入每上升 1元,人均食品支出平均上升0.42元;或者说人均收入每1元对食品支出的贡 献是0.42元。 3.变量变换 当因变量y与自变量x是非线性关系时,可以通过变量变换使经过变换的 新变量对于参数是线性的。SPSS回归程序可以检查变量之间是否线性关系,其 操作方法参见本章附录中3.。建立变换变量的工作在SPSS中能够轻易地通过
Transform菜单中的 Compute命令完成,操作方法参见本章附录中1.。 例2.图2-2显示总和生育率y与人均国民生产总值x呈对数下降关系,假 设它们有关系式为 y=a+ bln(x)+e 其中e为随机误差项,做变量变换,令x′=ln(x),则上式可写为 bx′+e 图2-3显示样本数据中总和生育率与人均国民生产总值的对数有较好的线 性关系,将表2-2中总和生育率和人均国民总产值的对数数据带入a、b的求 解式(3)中,求解得:a=9.18,b=-0.76,于是得到 y=9.18-0.76x (6) 表2-2 若干国家总和生育率和人均国民生产总值及婴儿死亡率数据 总和生育率人均国民总产值人均国民总产值婴儿死亡率 (1997年) (1995年) 的对数 (1997年) FR PCGNP LNPCGNP 德国 7510 10.22 39640 10.59 4.0 加拿大 6.2 法国 10.13 英国 9.84 6.2 澳大利亚 9.84 中国 6.43 31.0 挪威 爱尔兰 6.3 美国 10.20 7.3 巴西 8.20 土耳其 47.0 印度尼西亚 2.9 哥伦比亚 3.0 1910 墨西哥 3.1 3320 8.11 南非 3.2 3160 摩洛哥 3.3 62.0 菲律宾 埃及 44.0 尼日利亚 6.2 84.0 坦桑尼亚 6.3 91.0 埃塞俄比亚 4.61120.0 资料来源: Population Reference Bureau,Inc., World Popularion Data Sheet,1997 注:本书所附磁盘中的相应SPSS数据文件名为122SAV
式(6)显示,拟合图2-3散点的最小二乘直线在y轴上的截距为918;人均 国民总产值每增长e倍(此处的e不是回归误差项,而是自然对数底,人均国民 总产值的对数每上升1个单位相当于人均国民总产值提高约2.72倍),总和生育 率平均下降0.76个单位。 总和生育 人均国民生产总值的对数 图2—3若干国家总和生育率与人均国民生产总值对数的散点图 将式(5)变换成原变量的形式,即得到拟合总和生育率和人均国民总产值 的最小二乘曲线(见图2—2 对于呈非线性相关的变量,通常根据观察数据的分布形状,采用不同的曲线 拟合散点,最后选择拟合精度最高的曲线作为拟合曲线。对于变换后的线性模 型,求出未知参数后,可以再变回曲线形式。表2-3是几种常用的拟合曲线和 变量变换⑩。 表2 几种常用的拟合曲线和变量变换 函数名称 函数表达式 变量变换 变换后的形式 对数函数 y=a+bIn( x) x'=In(x) v-at or 幂函数 y=In(y).a'=In( a) y=a + br 指数函数 y=ae r y= In(v),a=In(a) v=a+b s型曲线 y-at oz 参见郑德如:《回归分析和相关分析》,1版,71-86页,上海,上海人民出版社 983
4.最小二乘佔计的统计性质 最小二乘估计在求解回归方程模型时是最常用的估计方法。最小二乘法得到 的回归方程佔计,它有以下很好的统计性质① (1)回归方程的拟合误差e;=y,-y的总和等于0,即∑e;=0 (2)误差平方和最小,即在所有拟合散点的直线中,根据最小二乘原则得到 的回归直线使n个散点(y,x,)沿y轴方向到直线的距离平方和最小。 (3)y的平均值等于y的平均值,即1、=y。 (4)x与e相互独立,即x与c的协方差(o(x,e)=1x(x;-x)(e) (5)y与e相互独立,即(ov(y,e 0 (6)直线通过n个散点的重心(y,x)点。 5.模型的假设条件 在实际回归研究中、常常是对从总体随机抽样的样本数据进行回归,然而研 究目的并不局限于描述样本的情况,而是通过样本推断总体的情况。上一小节所 介绍的最小二乘估计的统计性质都是就回归时所用的数据资料内部关系而言的, 但并不能保证样本回归所取得的最小二乘估计能够很好地推断总体情况。 统计理论已经证明,在满足一定的假设条件下,样本数据的最小二乘估计是 总体参数的最佳线性无偏估计。这是因为在推断总体参数或进行统计检验时,必 须考虑总体回归模型中的随机误差项ε的分布特征。因此,对随机误差项ε提出 若干基本假设条件 (1)高斯假设条件 以下四项假设条件是由德国数学家高斯(C.F.Gis)首先提出的,所以 常称之为高斯假设条件②。其假设条件如下: 对总体中各次观察的随机误差ε;,i=1,2,…,N,满足 ①证明参见:美]约翰·内特、威廉·沃寨曼、迈克尔·H·库特纳:《应用线性回归模 型》,中文1版,43-45页,北京,中国统计出版社,1990;张小蒂:《应用回归分析》,4 9页 e参见美]D.格杰雷蒂:《计量经济学概论》,中文1版,36-40页,北京,农业出 板社,1988
(a)零均值性:即在自变量取一定值X的条件下,其总体各误差项的条件 平均值为0。其数学表达式为:条件数学期望E(;/X;)=0;i=1,2, (b)等方差性:即在自变量取一定值X;的条件下,其总体各误差项的条件 方差为一常数。其数学表达式为:条件方差D(;/X;)=Var(e;/X}) (c)误差项之间相互独立(即不相关)性:即在自变量取任意不同值X和 X时,其误差项之间相互独立。其数学表达式为:协方差Cov(e;,,)=0;当 i≠j,i,j=1,2, (d)误差项与自变量之间相互独立性:即自变量的变化与误差项无关。其数 学表达式为:协方差Cov(e,X)=0。 以上假设条件总称为标准古典假设条件。符合上述假设条件的回归模型称为 一般线性回归模型( general linear regression model)。对于一般线性回归模型,最 小二乘估计a、b、分别是总体参数A、B、Y的无偏估计,即由多次抽样数 据计算得到的不同的a、b、y的均值分别等于A、B、Y。注意,它们只是总体 参数的点估计。 如果我们的目的只是进行点估计。符合上述假设的一般线性回归模型便足够 了。但是如果不仅需要对总体参数的点估计,还需要估计总体参数的置信区间 或者需要完成假设检验,便需要考虑抽样误差问题,考虑总体误差项ε的概率分 布 (2)正态误差假定 在以上假设条件的基础上,如果还假设e的分布形式为正态分布,则式(1) 称为正态误差模型,这时对所有X的取值X,N个随机变量e;,i=1,2 V,相互独立且服从同一正态分布Nor(O,a2)①,同时Y1也相互独立且服从 正态分布Nor(Y,σ2),于是样本统计量y、y、a、b均是服从正态分布的随 机变量。 综上所述,在对总体回归系数A、B和预测值Y进行区间估计和回归方程 的显著性检验时,需要对c的分布函数作出假设。这里∈代表方程中未包括的 其他因素的影响以及Y的随机误差,这些随机影响通常互相独立。根据中心极 限定理,如果c代表多种来源的误差之和,则不论那些误差各自分布如何,随着 ①一般用Nor(,a2)代表以μ为平均值、以σ2为方差的正态分布函数