杜会学系列教树 第二章 多元线性回归 多元线性回归( multiple linear regression)是分析一个随机变量与多个变量 之间线性关系的最常用的统计方法。实际工作中,常常希望知道所关心的事物受 哪些因素的影响,比如销售量与价格和广告费的关系,农业产量与原料和气候的 关系,生育水平与教育水平和经济水平的关系,物价和失业率的关系,收入与受 教育程度和年龄的关系等等。多元线性回归用变量的观察数据拟合所关注的变量 和影响它变化的变量之间的线性关系式,检验影响变量的显著程度和比较它们的 作用大小,进而用两个或多个变量的变化解释和预测另一个变量的变化 回归这一名词起源于19世纪生物学家F.高尔顿进行的遗传学研究,他在研 究子女身高与父母身高之间关系时发现,下一代人身高有回归同时代人类平均身 髙的趋势Φ;之后统计学家K.皮尔逊又用观察数据证实了这一现象,从而产生 了回归( regression)这一名称。回归分析的核心“最小二乘法”则早在18世纪 就已被高斯应用于行星轨道的测定。现在多元线性回归已广泛应用于工农业生 产、企业管理、商业决策、金融分析以及自然科学和社会科学等许多研究领域 中 ①参见张小蒂:《应用回归分析》,1版,22页,杭州,浙江大学出版社,1991
多元回归将所研究的变量分为一个被影响变量(称为因变量, dependent ariable)和一组影响变量(称为自变量, independent variable),并要求因变量必 须是间距测度等级以上的变量(也称连续变量),自变量可以是间距测度变量、 也可以是名义测度等级的变量(也称分类变量)。对于后一种情形,可以用虚拟 变量回归解决。 因变量和自变量的确定是建立回归模型的主要任务。在回归模型中,研究人 员以规定因变量和自变量的方式确定研究变量之间的因果关系,加以量化描述 并根据实测数据求解这一模型的各个参数,评价回归模型是否能够很好地拟合实 测数据,检验各自变量的作用是否符合预先的构想。如果模型能够很好地拟合实 测数据,回归模型还可以用于预测。 但是,研究方法论告诉我们,因果关系是不可能完全根据统计分析所证明 的。在回归模型中表述的变量之间的因果关系即使很好地拟合了数据,也不能完 全肯定它实际上存在,因为在模型中将因变量和自变量互换,也同样可能很好地 拟合数据。因此严格地说,回归分析在研究中所起的作用不是确证因果关系,而 是确认因变量和自变量的统计关系是否存在。如果在变量之间有比较稳定的关 系、回归分析可以加以量化描述。因此,回归模型只是幣个研究方案中的一环, 它必须依赖理论和经验的支撑,服从研究设计的需要,在研究方法论的指导下展 开 本章第一节简介回归分析的作用。第二节讨论一元线性回归,主要帮助读者 建立有关回归分析的基本概念和应用回归的各种条件。第三节讨论多元线性回归 方程的建立。第四节介绍评价多元回归方程的有关指标。第五节介绍回归分析的 统计检验。第六节讲解标准化回归系数的作用。第七节内容是回归预测的区间估 计。第八节讨论回归分析的多重共线性问题及解决方法。第九节介绍虚拟变量及 其效应变量在多元回归分析屮的应用。回归分析涉及到大量数据计算,而今天已 经可以使用计算机和现成的统计软件准确高效地完成这一工作。本章关于回归分 析的统计内容将结合SPSS统计软件中回归程序的应用加以介绍,因此特设附录 介绍有关SPSS回归分析的操作及其有关技巧,以取得以上各节中回归分析的统 计指标。 、变量的关系和回的任务 在实际工作中,常常需要根据一个或多个变量的变化来确定和解释另一个变 量的变化。变量的关系可以分为两类,一类有确定的函数关系,比如销售额
(M)、价格(P)和销售量(Q)有关系为M=P×Q;知道其中两个变量,就 可以确定第三个变量,它们的观察值都落在表示它们关系的曲面上。由于测量误 差的关系,有的观察值可能会偏离曲面,但随着测量精度的提高,这种偏离就会 变得很小 另一类是统计相关关系。比如不同地区家庭的人均食品支出与人均收人的关 系,收入高的地区,往往食品支出也高(见图2-1),但是相同收入的地区,食 品支出不一定相同,这是因为后者还与地区物价以及不易测量的消费习惯等随机 因素有关。又比如,生育水平与经济水平的关系,经济水平高的国家,往往生育 水平就低(见图2-2),但二者也没有惟一确定的关系,这是因为除了经济因素 以外,生育水平还受教育水平、城市化水平以及不易测量的风俗、宗教和其他 1400 人1200 均食品支出元 800 400 1000 2000 2500 3000 人均收入(元) 图2一1我国分地区城镇居民年人均食品支出和人均收入散点图 500010000150002000025000300003500040000 人均国民生产总值(美元) 图2-2世界若干国家总和生育率和人均国民生产总值散点图
未知随机因素的影响。 对于统计相关的变量,我们希望能够在已知主要影响变量x变化的情况下 预测感兴趣变量y的变化。为此回归分析用一条直线或曲线拟合图2-1或图 2-2中的散点,来描述当x变化时y的平均值的变化。这条曲线就称为回归曲 线,它给出了ν在给定x的条件下的均值E(y/x)。因此对于统计相关的变量, 回归分析就是要寻找在给定x的条件下y的概率分布,从而用一种确定的函数 关系近似描述y与ⅹ的不确定关系 为了建立变量之间的关系形式,最直观的方法是观察它们的散点图。图2一 1显示我国分地区家庭人均食品支出与人均收入有较好的线性关系;图2-2则 显示生育水平与经济水平呈对数下降关系。通常希望用简单函数,比如直线来拟 合散点,当y与x为非线性关系时,或者通过变量变换,将它们转化为线性关 系;或者用多项式去拟合散点;也可以在不同阶段拟合线性或曲线关系式,用分 段函数表示在整个区域内的非线性关系。从而许多情况下都可以将变量的关系转 换成关于参数线性的线性关系式,多元线性回归就是讨论对于参数线性的回归问 元线性回归模型 我们从简单的情况开始,先来看含有一个自变量的线性回归问题。一个自变 量的回归称为一元回归或简单回归。 统计分析经常是先对总体中随机抽样得到的样本数据进行分析,然后再对总 体迸行推断在一般统计学教科书中,总体的各种指标称为参数( parameter.), 样本的各种指标称为统计量( statistic)因此,在后面的统计表述中经常需要分 清总体参数和样本统计量。在很多情况下,两者相互对应,所以为了简明,本章 采用许多教科书的作法,在一般情况下将总体参数用大写符号标注,将样本统计 量用小写符号标注 1.一元线性回归方程 用一个例子来示范一元线性回归方程的建立。这里主要帮助读者建立回归模 型的概念。 例1.表2—1列出了我国分地区家庭年人均食品支出与人均收入的数据。我 们感兴趣家庭的人均食品支出与他们的人均收入的关系,因此设食品支出为因变 量,记为Y,人均收人为自变量,记为X,由图2-1知道Y与X有较好的线
性关系,假设在总体中它们有满足下面的线性关系式①: Y=A+ BX 其中Y为随机变量,X为一般变量②,A、B为待定常数,称为模型参数,ε是 依赖于食品支出的总体随机误差项。鉴于社会科学研究通常是根据随机抽样样本 的观测数据来推断总体回归函数的参数,为了使例1回归分析取得更普遍的示范 意义,我们假定其数据是从总体通过随机抽样取得的观测数据。 将表2-1数据(y,x;),i=1,2,…,30,代入方程(1)中,则有回归 模型 t br.+ 0(2) 上式中e;为样本随机误差项。 然后,我们希望得到能够对观测数据拟合最优的回归方程估计 y=a +bzy (3) 式(3)称为y对x的回归方程,如果用最小二乘法( Ordinary Least qure,常简略标为OLS)求出系数所得到的方程表示一条直线,称为最小 二乘直线;y称为y的拟合值或预测值,它是在x条件下y的条件均值的估 计 将所有观测值与估计值之间的误差平方和 bx;)]2 应用最小二乘法来求总体参数A、B的估计值a、b,使误差平方和最小。为此 将上式分别对a、b求导数,令其等于0,由极值原理,求解得③ a=y- bx, b= (x-x)(y-y) (4) 由表21数据计算有a=-53.09,b=0.42。于是得到拟合图2-1散点的 回归直线 y=-53.09+0.42x ①这里“线性”是指模型关于参数是线性的,或Y的条件期望E(Y)=A+BN是 参数B的线性函数 2-般情况下,X也是随机变量,为了简化处理,当X的随机变化与X的值域相比很 小时,则忽略X的随机变化。参见王学仁,温忠嶙编译:《应用回归分析》,4页,重庆,重 庆大学出版社 ③证明请参见任何有关回归分析的著作