CHAPTER 菩通高中课程标堆实验教科书数学选修1-2 产生随机误差项e的原因是什么? 实际上,一个人的体重除了受身高的影响外,还受其他许多因素的影响,例如饮食习 惯、是否喜欢运动、度量误差等.另一方面,没有人知道身高和体重之间的真正关系是什 么,现在只是利用线性回归方程来近似这种关系,而这种近似和上面提到的影响因素都会 导致随机误差e的产生 线性回归模型(1)与我们熟悉的一次函数模型的不同之处是增加∫随机误差项e,因 变量y的值由自变量x和随机误差e共同确定,即自变量x只能解释部分y的变化.在统 计中,我们也把自变量x称为解释变量,因变量y称为预报变量 解释变量x(身高 预报变量y体重 随机误差e 图1.1-3 究 目四DD国国国量 在线性回归模型中,e是用bx+a预报真实值y的随机误差, 它是一个不可观测的量,那么应该怎样研究随机误差呢? 在实际应用中,我们用回归方程y=bx+a中的y估计(1)中的bx+a.由于随机误差 =y-(bx+a),所以=y-j是e的估计量.对于样本点 ),( 而言,它们的随机误差为 bx,-a,i=1,2 其估计值为 =y-5=y-bx,-a,i=1,2,…,n, e,称为相应于点(x,y)的残差( residual) 如何发现数据中的错误?如何衡量模型的拟合效果? 可以通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果.表1-2列出 了女大学生身高和体重的原始数据以及相应的残差数据
第一章统计案例 第一章 表1-2 12345678 编号 身高/cm165 165 157 170 175 165 155 170 体重/kg 48 54 64 61 59 残差-637126272419-468131622-2.8032 我们可以利用图形来分析残差特性.作图时纵坐标为残差,横坐标可以选为样本编 号,或身高数据,或体重估计值等,这样作出的图形称为残差图.图1.1-4是以样本编号 为横坐标的残差图 钱差 图1.1-4 从图1.1-4中可以看出,第1个样本点和第6个样本点的残差比较大,需要确认在采 集这两个样本点的过程中是否有人为的错误.如果数据采集有错误,就予以纠正,然后再 重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因.另 外,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区 域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高. 另外,我们可以用R2来刻画回归的效果,其计算公式是 Viy R 对于已经获取的样本数据,R2表达式中的∑(y-y)2为确定的数.因此R越大,意味着 残差平方和∑(y,一)2越小,即模型的拟合效果越好;R越小,残差平方和越大,即模 型的拟合效果越差.在线性回归模型中,R表示解释变量对于预报变贔变化的贡献率 R越接近于1,表示回归的效果越好.在例1中,R≈0.64,表明“女大学生的身高解释 了64%的体重变化”,或者说“女大学生的体重差异有64%是由身高引起的”R2是常用 的选择模型的指标之一,在实际应用中应该尽量选择R2大的回归模型 用身高预报体重时,需要注意下列问题: 1.回归方程只适用于我们所研究的样本的总体.例如,不能用女大学生的身高和体重 之间的回归方程,描述女运动员的身高和体重之间的关系.,同样,不能用生长在南方多雨地 区的树木的高与直径之间的回归方程,描述北方干旱地区的树木的高与直径之间的关系 2.我们所建立的回归方程一般都有时间性.例如,不能用20世纪80年代的身高、体 5
CHAPTER 萼通高中课程标准实验教科书数学选修1-2 重数据所建立的回归方程,描述现在的身高和体重之间的关系 3.样本取值的范围会影响回归方程的适用范围.例如,我们的回归方程是由女大学生 身高和体重的数据建立的,那么用它来描述一个人幼儿时期的身高和体重之间的关系就不 恰当.(在回归方程中,解释变量x的样本的取值范围为155~175cm,而用这个方程计算 r=70cm时的y值,显然不合适.) 1.不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它是预报变量的 可能取值的平均值. 般地,建立回归模型的基本步骤为: (1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量 (2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系 等) (3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方 程) (4)按一定规则(如最小二乘法)估计回归方程中的参数 (5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机 的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等 例2一只红铃虫的产卵数y和温度x有关,现收集了7组观测数据列于表1-3中 试建立y关于x的回归方程. 表1-3 温度x/℃ 2123 产卵数y/个711212461152325 解:根据收集的数据,作散点图: 350 ← 150 0222426283032336 温度/C 图1.1-5 在图1.1-5中,样本点并没有分布在某个带状区域内,因此两个变量不呈线性相关关 系,不能直接利用线性回归方程来建立两个变量之间的关系.根据已有的函数知识,可以 发现样本点分布在某一条指数函数曲线y=ce的周围,其中c1和c2是待定参数 6
第一章统计案例 第一章 现在,问题变为如何估计待定参数c1和c2.我们可以通过对数变换把指数关系变为线 性关系.令z=lny,则变换后样本点应该分布在直线 g=brta (a=In ci. b=c?) 的周围.这样,就可以利用线性回归模型来建立y关于x的非线性 0当回归方 回归方程了 程不是形如y 由表1-3的数据可以得到变换后的样本数据表1-4,图1.1-6给 x+a(a,b∈R) 出了表14中数据的散点图.从图1.16中可以看出,变换后的样木性回归方”非线 时,称之为 点分布在一条直线的附近,因此可以用线性回归方程来拟合 表I4 1.9462.3983.0453.1784.1904.7455.784 202224262830323436x 图1.1-6 由表1-4中的数据得到线性回归方程 =0.272x-3.849 因此红铃虫的产卵数对温度的非线性回归方程为 1)=c.22x-381 另一方面,可以认为图1.1-5中样本点集中在某二次曲线y=c3x2+c4的附近,其中 c3和c为待定参数.因此可以对温度变量做变换,即令t=x2,然后建立y与t之间的线 性回归方程,从而得到ν与x之间的非线性回归方程. 表1-5是红铃虫的产卵数和对应的温度的平方,图1.1-7是相应的散点图 表1-5 14 44152962572984110241225 y711212461535 从图1.1-7中可以看出,y与t的散点图并不分布在一条直线的周围,因此不宜用线 性回归方程来拟合它,即不宜用二次函数y=cx2+c;来拟合y和x之间的关系,这个结 论还可以通过下面的残差分析得到 为比较两个不同模型的残差,需要建立两个相应的回归方程.前面我们已经建立了y 关于r的指数回刂方程(2),下面建立y关于x的二次回归方程.用线性回归模型拟合表
CHAPTER 菩通高中课程标堆实验教科书数学选修1-2 ,··· 40050060700809010001100120130 图1.1 1-5中的数据,得到y关于t的线性回归方程 2=0.3671-202.543 即y关于x的二次回归方程为 v2=0.367x2-202.543 (3) 可以通过残差来比较两个回归方程(2)和(3)的拟合效果.用x,表示表1-3中第1 行第(i+1)列的数据,则回归方程(2)和(3)的残差计算公式分别为 e}"=y,-=y ,i=1,2,…,7 y 0.367x2+202.543,i=1,2 表1-6给出了原始数据及相应的两个回归方程的残差,从表中的数据可以看出模型 (2)的残差的绝对值显然比模型(3)的残差的绝对值小,因此模型(2)的拟合效果比模 型(3)的拟合效果好. 表16 21 24 115 325 1 0.557 0.101 1.875 8.950 9.230 13.38134.675 47.696 19.400 5.832-41.000 40.104 58.265 7.968 在一般情况下,比较两个模型的残差比较困难.原因是在某些样本点上一个模型的残 差的绝对值比另一个模型的小,而另一些样本点的情况则相反,这时可以用R来比较两 个模型的拟合效果,R越大,模型的拟合效果越好.由表1-6容易算出模型(2)和(3) 的R分别约为0.98和0.80,因此模型(2)的拟合效果好于模型(3) 练习 1.在两个变量的回归分析中,作散点图的目的是什么? 2.在回归分析中,分析残差能够帮助我们解决哪些问题? 3.如果发现散点图中所有的样本点都落在一条斜率为非0实数的直线上.请回答下列问题: (1)解释变量和预报变量的关系是什么? (2)R是多少? 8