第八章直线回归与相关 前面各章我们讨论的问题,都只涉及到一个变量,如体重、日增重或发病率。但是,由 于客观事物在发展过程中相互联系、相互影响,因而在畜牧、水产等试验研究中常常要研究 两个或两个以上变量间的关系。变量间的关系有两类,一类是变量间存在着完全确定性的关 系,可以用精确的数学表达式来表示,如长方形的面积(S)与长(a)和宽(b)的关系可 以表达为:S=ab。它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确 地计算出另一个变量的值,这类变量间的关系称为函数关系。另一类是变量间关系不存在完 全的确定性关系,不能用精确的数学公式来表示,如人的身高与体重的关系;仔猪初生重与 断奶重的关系:猪瘦肉率与背膘厚度、眼肌面积、胴体长等的关系等等,这些变量间都存在 着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。像这样一类 关系在生物界中是大量存在的,统计学中把这些变量间的关系称为相关关系,把存在相关关 系的变量称为相关变量 相关变量间的关系一般分为两种,一种是因果关系,即一个变量的变化受另一个或几个 变量的影响,如仔猪的生长速度受遗传、营养、饲养管理等因素的影响,子女的身高受父母 身高的影响:另一种是平行关系,即两个以上变量之间共同受到另外因素的影响,如人的身 高和体重之间的关系,兄弟身高之间的关系等都属于平行关系。变量间的关系及分析方法归 纳如下 函数关系—有精确的数学表达式 (确定性的关系) 直线回归分析 元回归分析 变量间的关系 因果关系 曲线回归分析 (回归分析) 多元线性回归分析 多元回归分析 相关关系 元非线性回归分析 (非确定性的关系 简单相关分析——直线相关分析 平行关系 复相关分析 (相关分析)多元相关分析 偏相关分析 统计学上采用回归分析( regression analysis)研究呈因果关系的相关变量间的关系。表 示原因的变量称为自变量,表示结果的变量称为依变量。研究“一因一果”,即一个自变量 与一个依变量的回归分析称为一元回归分析:研究“多因一果”,即多个自变量与一个依变 量的回归分析称为多元回归分析。一元回归分析又分为直线回归分析与曲线回归分析两种 多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。回归分析的任务是揭示 出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程, 由自变量(原因)来预测、控制依变量(结果)。 统计学上采用相关分析( correlation analysis研究呈平行关系的相关变量之间的关系。对 两个变量间的直线关系进行相关分析称为简单相关分析(也叫直线相关分析):对多个变量 进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析:研究其余变量保
141 第八章 直线回归与相关 前面各章我们讨论的问题,都只涉及到一个变量,如体重、日增重或发病率。但是,由 于客观事物在发展过程中相互联系、相互影响,因而在畜牧、水产等试验研究中常常要研究 两个或两个以上变量间的关系。变量间的关系有两类,一类是变量间存在着完全确定性的关 系,可以用精确的数学表达式来表示,如长方形的面积(S)与长(a)和宽(b)的关系可 以表达为:S=ab。它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确 地计算出另一个变量的值,这类变量间的关系称为函数关系。另一类是变量间关系不存在完 全的确定性关系,不能用精确的数学公式来表示,如人的身高与体重的关系;仔猪初生重与 断奶重的关系;猪瘦肉率与背膘厚度、眼肌面积、胴体长等的关系等等,这些变量间都存在 着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。像这样一类 关系在生物界中是大量存在的,统计学中把这些变量间的关系称为相关关系,把存在相关关 系的变量称为相关变量。 相关变量间的关系一般分为两种,一种是因果关系,即一个变量的变化受另一个或几个 变量的影响,如仔猪的生长速度受遗传、营养、饲养管理等因素的影响,子女的身高受父母 身高的影响;另一种是平行关系,即两个以上变量之间共同受到另外因素的影响,如人的身 高和体重之间的关系,兄弟身高之间的关系等都属于平行关系。变量间的关系及分析方法归 纳如下: 函数关系 有精确的数学表达式 (确定性的关系) 直线回归分析 一元回归分析 变量间的关系 因果关系 曲线回归分析 (回归分析) 多元线性回归分析 多元回归分析 相关关系 多元非线性回归分析 (非确定性的关系) 简单相关分析—— 直线相关分析 平行关系 复相关分析 (相关分析) 多元相关分析 偏相关分析 统计学上采用回归分析(regression analysis)研究呈因果关系的相关变量间的关系。表 示原因的变量称为自变量,表示结果的变量称为依变量。研究“一因一果”,即一个自变量 与一个依变量的回归分析称为一元回归分析;研究“多因一果”,即多个自变量与一个依变 量的回归分析称为多元回归分析。一元回归分析又分为直线回归分析与曲线回归分析两种; 多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。回归分析的任务是揭示 出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程, 由自变量(原因)来预测、控制依变量(结果)。 统计学上采用相关分析(correlation analysis)研究呈平行关系的相关变量之间的关系。对 两个变量间的直线关系进行相关分析称为简单相关分析(也叫直线相关分析);对多个变量 进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保
持不变的情况下两个变量间的线性相关称为偏相关分析。在相关分析中,变量无自变量和依 变量之分。相关分析只能研究两个变量之间相关的程度和性质或一个变量与多个变量之间相 关的程度,不能用一个或多个变量去预测、控制另一个变量的变化,这是回归分析与相关分 析区别的关键所在。但是二者也不能截然分开,因为由回归分析可以获得相关的一些重要信 息,由相关分析也能获得回归的一些重要信息。 本章先介绍直线回归与相关分析 第一节直线回归 、直线回归方程的建立 对于两个相关变量,一个变量用符号x表示,另一个变量用y表示,如果通过试 验或调查获得两个变量的成对观测值,可表示为(x,y),(x,y2),……,(xn,m)。为 了直观地看出x和y间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图 (见图8-1)。 ∴江 (b) 图8-1(x,y)的散点图 从散点图(图8-1)可以看出:①两个变量间关系的性质(是正相关还是负相关)和程 度(是相关密切还是不密切);②两个变量间关系的类型,是直线型还是曲线型:③是否有 异常观测值的干扰。散点图直观地、定性地表示了两个变量之间的关系。为了探讨它们之间 的规律性,还必须根据观测值将其内在关系定量地表达出来 如果两个相关变量间的关系是直线关系,根据n对观测值所描出的散点图,如图8-1(c) 和图8-1(d)。如果把变量y与x内在联系的总体直线回归方程记为y=a+βx,由于依变 量的实际观测值总是带有随机误差,因而实际观测值y可表示为: x,+Bx 其中E;为相互独立,且都服从N(0,σ2)的随机变量。这就是直线回归的数学模型。我们 142
142 持不变的情况下两个变量间的线性相关称为偏相关分析。在相关分析中,变量无自变量和依 变量之分。相关分析只能研究两个变量之间相关的程度和性质或一个变量与多个变量之间相 关的程度,不能用一个或多个变量去预测、控制另一个变量的变化,这是回归分析与相关分 析区别的关键所在。但是二者也不能截然分开,因为由回归分析可以获得相关的一些重要信 息,由相关分析也能获得回归的一些重要信息。 本章先介绍直线回归与相关分析。 第一节 直线回归 一、直线回归方程的建立 对于两个相关变量,一个变量用符号 x 表示,另一个变量用 y 表示,如果通过试 验或调查获得两个变量的成对观测值,可表示为(x1,y1),(x2,y2),……,(xn,yn)。为 了直观地看出 x 和 y 间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图 (见图 8-1)。 从散点图(图 8-1)可以看出:①两个变量间关系的性质(是正相关还是负相关)和程 度(是相关密切还是不密切);②两个变量间关系的类型,是直线型还是曲线型;③是否有 异常观测值的干扰。散点图直观地、定性地表示了两个变量之间的关系。为了探讨它们之间 的规律性,还必须根据观测值将其内在关系定量地表达出来。 如果两个相关变量间的关系是直线关系,根据 n 对观测值所描出的散点图,如图 8—1(c) 和图 8—1(d)。如果把变量 y 与 x 内在联系的总体直线回归方程记为 y=α+βx,由于依变 量的实际观测值总是带有随机误差,因而实际观测值 yi 可表示为: i i i i y = x + x + (i=1,2, …, n) (8—1) 其中 i 为相互独立,且都服从 N(0,σ2)的随机变量。这就是直线回归的数学模型。我们 图 8-1 (x,y)的散点图
可以根据实际观测值对a,B以及方差σ2做出估计。 在xy的直角坐标平面上可以作出无数条直线,而回归直线是指所有直线中最接近散点 图中全部散点的直线。设样本直线回归方程为 其中,a是a的估计值,b是B的估计值 回归直线在平面坐标系中的位置取决于a、b的取值,为了使j=a+bx能最好地反应 ν和x两变量间的数量关系,根据最小二乘法,a、b应使回归估计值与观测值的偏差平方和 最小,即: ∑ )2=最小 根据微积分学中的极值原理,令Q对a、b的一阶偏导数等于0,即: 2>(y-a-bx) 整理得关于a、b的正规方程组: y 解正规方程组,得 ∑邓-C∑x∑y)/n∑(x-xXy- (8-3) (8-4) (8-3)式中的分子是自变量x的离均差与依变量y的离均差的乘积和∑(x-xy- 简称乘积和,记作SP,分母是自变量x的离均差平方和∑(x-x)2,记作Ss: a叫做样本回归截距,是回归直线与y轴交点的纵坐标,当x=0时,j=a;b叫做样本 回归系数,表示x改变一个单位,y平均改变的数量;b的符号反映了x影响y的性质,b 的绝对值大小反映了x影响y的程度。 a>0 图8-2直线回归方程y=a+bx的图象 a和b均可取正值,也可取负值,因具体资料而异,由图8-2可以看出,a>0,表示回
143 可以根据实际观测值对α,β以及方差σ2 做出估计。 在 x,y 的直角坐标平面上可以作出无数条直线,而回归直线是指所有直线中最接近散点 图中全部散点的直线。设样本直线回归方程为: y ˆ = a + bx (8-2) 其中,a 是α的估计值,b 是β的估计值。 回归直线在平面坐标系中的位置取决于 a、b 的取值,为了使 y ˆ = a + bx 能最好地反应 y 和 x 两变量间的数量关系,根据最小二乘法,a、b 应使回归估计值与观测值的偏差平方和 最小,即: = − = − − = 2 2 Q ( y y ˆ) ( y a bx) 最小。 根据微积分学中的极值原理,令 Q 对 a、b 的一阶偏导数等于 0,即: = −2 ( − − ) = 0 y a bx a Q = − − − = 2 (y a bx)x 0 b Q 整理得关于 a、b 的正规方程组: an + bx = y ax + bx =xy 2 解正规方程组,得: x xy SS SP x x x x y y x x n xy x y n b = − − − = − − = 2 2 2 ( ) ( )( ) ( ) / ( )( )/ (8-3) a = y − bx (8-4) (8-3)式中的分子是自变量 x 的离均差与依变量 y 的离均差的乘积和 (x − x)( y − y) , 简称乘积和,记作 SPxy ,分母是自变量 x 的离均差平方和 − 2 (x x) ,记作 SSx 。 a 叫做样本回归截距,是回归直线与 y 轴交点的纵坐标,当 x=0 时, y ˆ =a;b 叫做样本 回归系数,表示 x 改变一个单位,y 平均改变的数量;b 的符号反映了 x 影响 y 的性质,b 的绝对值大小反映了 x 影响 y 的程度。 a 和 b 均可取正值,也可取负值,因具体资料而异,由图 8-2 可以看出,a>0,表示回 图 8-2 直线回归方程 y ˆ = a + bx 的图象
归直线在第一象限与y轴相交:a<①表示回归直线在第一象限与x轴相交。b>0,表示y随x 的增加而增加;b<0;表示y随x的减少而减少;b=0或与0差异不显著时,表示y的变化 与x的取值无关,两变量间不存在直线回归关系。这只是对a和b的统计学解释,对于具体 资料,a和b往往还有专业上的实际意义 j叫做回归估计值,是当x在在其研究范围内取某一个值时,y值平均数α+β估计值 研究y和y间的关系,可发现回归方程的三个基本性质 性质1g=∑(y-j)2=最小 性质2∑(y-j)=0 性质3回归直线必须通过中心点(x,y)。 如果将(8-3)式代入(8-2)式,得到回归方程的另一种形式: bx (8-5) 【例8.1】在四川白鹅的生产性能研究中,得到如下一组关于雏鹅重(g)与70日龄重 (g)的数据,试建立70日龄重y)与雏鹅重(x)的直线回归方程。 上山白重日测果,位2,一一 雏鹅重(x) 201029583113105110100 70日龄重(y)2302400272025003150260263024003080292029602860 1、作散点图以雏鹅重(x)为横坐标,70日龄重(y)为纵坐标作散点图,见图8-3。由 图形可见四川白鹅的70日龄重与雏鹅重间存在直线关系,70日龄重随雏鹅重的增大而增大。 3200 3000 2800 2600 2400 2200 708090100110120130x 图8-3四川白鹅的雏鹅重与70日龄重散点图和回归直线图 2、计算回归截距a,回归系数b,建立直线回归方程 首先根据实际观测值计算出下列数据: x/n=1182/12=985
144 归直线在第一象限与 y 轴相交;a<0 表示回归直线在第一象限与 x 轴相交。b>0,表示 y 随 x 的增加而增加;b<0;表示 y 随 x 的减少而减少;b=0 或与 0 差异不显著时,表示 y 的变化 与 x 的取值无关,两变量间不存在直线回归关系。这只是对 a 和 b 的统计学解释,对于具体 资料,a 和 b 往往还有专业上的实际意义。 y ˆ 叫做回归估计值,是当 x 在在其研究范围内取某一个值时,y 值平均数 + x 估计值。 研究 y 和 y ˆ 间的关系,可发现回归方程的三个基本性质: 性质 1 = − = 2 Q (y y ˆ) 最小; 性质 2 ( y − y ˆ) = 0 ; 性质 3 回归直线必须通过中心点 (x, y) 。 如果将(8-3)式代入(8-2)式,得到回归方程的另一种形式: y ˆ = y − bx + bx = y + b(x − x) (8-5) 【例 8.1】在四川白鹅的生产性能研究中,得到如下一组关于雏鹅重(g)与 70 日龄重 (g)的数据,试建立 70 日龄重(y)与雏鹅重(x)的直线回归方程。 表 8-1 四川白鹅重与 70 日龄重测定结果 (单位:g) 编号 1 2 3 4 5 6 7 8 9 10 11 12 雏鹅重(x) 80 86 98 90 120 102 95 83 113 105 110 100 70 日龄重(y) 2350 2400 2720 2500 3150 2680 2630 2400 3080 2920 2960 2860 1、作散点图 以雏鹅重(x)为横坐标,70 日龄重(y)为纵坐标作散点图,见图8-3。由 图形可见四川白鹅的70 日龄重与雏鹅重间存在直线关系,70 日龄重随雏鹅重的增大而增大。 2、计算回归截距 a,回归系数 b,建立直线回归方程 首先根据实际观测值计算出下列数据: x =x / n =1182 /12 = 98.5 图 8-3 四川白鹅的雏鹅重与 70 日龄重散点图和回归直线图
=∑y/n=32650/12=2720.833 S=∑x2-(2x)2/n=11812-(182)12=168500 3n=∑-②x∑=35310182×350 12 Ss=∑y2-y)/n=8906700-(3260)2/12=83149167 进而计算出b、a: b 21.7122 a=j-b=2720.833321.7122×985=582.1816 得到四川白鹅的70日龄重y对雏鹅重x的直线回归方程为 j=5821816+21.7122x 从回归系数可知,雏鹅重每增加1g,70日龄平均重增加21.7122g 根据直线回归方程可作出回归直线,见图8-3。从图8-3可看出,尽管 j=5821816+21.7122x是该资料最恰当的回归方程,但是并不是所有的散点都恰好落在回 归直线上,这说明用j去估计y是有偏差的。 3、直线回归的偏离度估计以上根据使偏差平方和∑(y-2最小建立了直线回 归方程。偏差平方和∑(y-)2的大小表示了实测点与回归直线偏离的程度,因而偏差平方 和又称为离回归平方和。统计学已经证明:在直线回归分析中离回归平方和的自由度为n2。 于是可求得离回归均方为:∑(-j2m-2)。离回归均方是模型(8-1)中2的估计值 离回归均方的平方根叫离回归标准误,记为Sx,即 (y-5)2(n-2) (8-6) 离回归标准误Sx的大小表示了回归直线与实测点偏差的程度,即回归估测值与实际 观测值y偏差的程度,于是我们把离回归标准误Sx用来表示回归方程的偏离度。离回归标 准误Sx大表示回归方程偏离度大,Sx小表示回归方程偏离度小。 在用(8-6)式计算离回归标准误时,需要把每一个x值的回归估计值计算出来,因 而计算麻烦,且累计舍入误差大。以后我们将证明 ∑(y-j)2=SS,-SP2/S5 (8-7) 利用(8-7)式先计算出∑(y-j)2,然后再代入(86)式求Sx,这样就简便多了 对于【例8.1】有 ∑(y-j2=SS,-SP2/S5=83149167-365852/1685=375207 所以 S=∑(-21-2)=√37120m12-2)=60925(g) 即当利用直线回归y=582.1816+21.712x,由四川白鹅的雏鹅重估计70日龄重时,离回归 标准误为60.9525g
145 y = y / n = 32650 /12 = 2720.8333 ( ) / 118112 (1182) /12 1685.00 2 2 2 S Sx = x − x n = − = 36585 .00 12 1182 32650 3252610 ( )( ) = = − = − n x y SP xy xy ( ) / 89666700 (32650 ) /12 831491 .67 2 2 2 SSy = y − y n = − = 进而计算出 b、a: 21.7122 1685 .00 36585 = = = x xy SS SP b a = y − bx = 2720.8333 − 21.7122 98.5 = 582.1816 得到四川白鹅的 70 日龄重 y 对雏鹅重 x 的直线回归方程为: y ˆ = 582.1816 + 21.7122x 从回归系数可知,雏鹅重每增加 1g,70 日龄平均重增加 21.7122g。 根据直线回归方程可作出回归直线,见图 8-3 。从图 8-3 可看出,尽管 y ˆ = 582.1816 + 21.7122x 是该资料最恰当的回归方程,但是并不是所有的散点都恰好落在回 归直线上,这说明用 y ˆ 去估计 y 是有偏差的。 3、直线回归的偏离度估计 以上根据使偏差平方和 2 ( y − y ˆ) 最小建立了直线回 归方程。偏差平方和 2 ( y − y ˆ) 的大小表示了实测点与回归直线偏离的程度,因而偏差平方 和又称为离回归平方和。统计学已经证明:在直线回归分析中离回归平方和的自由度为 n-2。 于是可求得离回归均方为: ( ˆ) /( 2) 2 y − y n − 。离回归均方是模型(8-1)中σ2 的估计值。 离回归均方的平方根叫离回归标准误,记为 yx S ,即 = ( − ˆ) /( − 2) 2 Syx y y n (8-6) 离回归标准误 yx S 的大小表示了回归直线与实测点偏差的程度,即回归估测值 y ˆ 与实际 观测值 y 偏差的程度,于是我们把离回归标准误 yx S 用来表示回归方程的偏离度。离回归标 准误 yx S 大表示回归方程偏离度大, yx S 小表示回归方程偏离度小。 在用(8-6)式计算离回归标准误时,需要把每一个 x 值的回归估计值 y ˆ 计算出来,因 而计算麻烦,且累计舍入误差大。以后我们将证明: SS y SPxy SSx ( y y ˆ) / 2 2 − = − (8-7) 利用(8-7)式先计算出 2 (y − y ˆ) ,然后再代入(8-6)式求 yx S ,这样就简便多了。 对于【例 8.1】有 ( ˆ) / 83149167 36585 /1685 37152 .07 2 2 2 y − y = SS y − SPxy SSx = − = 所以 ( ˆ) /( 2) 37152 .07 /(12 2) 60.9525 2 Syx = y − y n − = − = (g) 即当利用直线回归 y ˆ = 582.1816 + 21.7122 x ,由四川白鹅的雏鹅重估计 70 日龄重时,离回归 标准误为 60.9525g