第十章直线回归和相关分析 以前各章所述的统计方法都只涉及X一种变数,其统计分析的主要目的可概括为试验结 果的比较,即对一种变数间的差异是否显著进行测验,从而确定对不同处理试验结果的取舍。 本章则是介绍研究Ⅹ、Y两种数间关系的统计分析方法。 第一节回归和相关意义 基本概念 在自然界和生产实践中有许多现象、事物之间存在相互关系或相互影响,例如:人的体 重和力气,施肥量与作物产量,降水量、温度和某作物病害发生程度等,显然通过对各种现 象间变数关系的统计分析,从而对现象间相互关系进行研究有重要意义。 为了研究这些相互关系需要新的统计方法,若是两个变数的关系,可分别用变数符号X 和Y表示。一般变数之间的关系可以分为两类:一类是函数关系,另一类是统计关系。 函数关系是一种确定性的关系,一个变数的取值和变化完全取决于另一个或几个变数的 取值和变化。例如:圆面积与半径的关系为S=mR2,对于任意一个半径值R,必能求得一个 唯一的面积值S,两者之间的关系是完全确定的。函数关系不包含误差的干扰,常见于物理 学、化学等理论科学 统计关系是一种非确定性的关系,即一个变数的取值受到另一变数的影响,两者之间既 有关系,但又不存在完全确定的函数关系。例如:作物的产量与施肥量的关系,适宜的施肥 量下产量较高,施肥量不足则产量较低。但这种关系并不是完全确定的,即使施肥量完全相 同,两块同样面积土地上的产量也不会相等。在实验科学中两类因受误差的干扰而表现为统 计关系,这在农学和生物学中常见 对具有统计关系的两个变数的资料进行初步考察的简便而有效的方法,是将这两个变数 的n对观察值(x,y)、(x,n)…、(x,y)分别以坐标点的形式标记于同一直角坐标 平面上,获得散点图( scatter diagram)。根据散点图可初步判定双变数X和Y间的关系,包 括:①X和y相关的性质(正或负)和密切程度:②X和Y的关系是直线型的还是非直线型 的;③是否有一些特殊的点表示着其他因素的干扰等。例如图1是水稻方面的3幅散点图
1 第十章 直线回归和相关分析 以前各章所述的统计方法都只涉及 X 一种变数,其统计分析的主要目的可概括为试验结 果的比较,即对一种变数间的差异是否显著进行测验,从而确定对不同处理试验结果的取舍。 本章则是介绍研究X、Y两种数间关系的统计分析方法。 第一节 回归和相关意义 一、基本概念 在自然界和生产实践中有许多现象、事物之间存在相互关系或相互影响,例如:人的体 重和力气,施肥量与作物产量,降水量、温度和某作物病害发生程度等,显然通过对各种现 象间变数关系的统计分析,从而对现象间相互关系进行研究有重要意义。 为了研究这些相互关系需要新的统计方法,若是两个变数的关系,可分别用变数符号 X 和 Y 表示。一般变数之间的关系可以分为两类:一类是函数关系,另一类是统计关系。 函数关系是一种确定性的关系,一个变数的取值和变化完全取决于另一个或几个变数的 取值和变化。例如:圆面积与半径的关系为 2 S = R ,对于任意一个半径值 R,必能求得一个 唯一的面积值 S,两者之间的关系是完全确定的。函数关系不包含误差的干扰,常见于物理 学、化学等理论科学。 统计关系是一种非确定性的关系,即一个变数的取值受到另一变数的影响,两者之间既 有关系,但又不存在完全确定的函数关系。例如:作物的产量与施肥量的关系,适宜的施肥 量下产量较高,施肥量不足则产量较低。但这种关系并不是完全确定的,即使施肥量完全相 同,两块同样面积土地上的产量也不会相等。在实验科学中两类因受误差的干扰而表现为统 计关系,这在农学和生物学中常见。 对具有统计关系的两个变数的资料进行初步考察的简便而有效的方法,是将这两个变数 的 n 对观察值(x1,y1)、(x2,y2)、…、(xn,yn)分别以坐标点的形式标记于同一直角坐标 平面上,获得散点图(scatter diagram)。根据散点图可初步判定双变数 X 和 Y 间的关系,包 括:①X 和 Y 相关的性质(正或负)和密切程度;②X 和 Y 的关系是直线型的还是非直线型 的;③是否有一些特殊的点表示着其他因素的干扰等。例如图 1 是水稻方面的 3 幅散点图
图10.1A是单株的生物产量(X和稻谷产量(Y),图10.1B是每平方米土地上的总颖花数 (X)和结实率(Y),图10.1C是最高叶面积指数(X)和每亩稻谷产量(Y)。从中可 以看出:①图101A和101B都是直线 型的,但方向相反;前者Y随X的增大 而增大,表示两个变数的关系是正的 后者Y随X的增大而减小,表示关系是 负的。②图10.1A的各个点几乎都落在 直线上,图101B则较为分散;因此 图10.A中X和Y相关的密切程度必高 于图101B。③图10.1C中X和y的关 系是非直线型的:大约 在ⅹ≤(6~7)时,Y随X的增大而增 图10.A水稻单株生物产量与 大,而当x>(67)时,Y随X的增大 稻谷产量的散点图 而减小 图101B水稻每平方米颖花数和结实率的散点图图101C水稻最高叶面积指数和667m2产量的散点图 、回归分析和相关分析 根据研究目的和依据的数学模型不同,统计关系的分析方法有两种。 1.回归分析 对两个变数进行回归分析是定量地研究X和Y的数值变化规律,根据这种规律可由一个 变数的变化来估计另一个变数的变化。在回归模型中,两个变数有因果关系,原因变数称自 变数( (independent variable,一般用X表示;结果变数称依变数 dependent variable),以Y表示。 X是已知的或是可控制的,没有误差或误差很小,而Y则不仅随X的变化而变化,还要受到 随机误差的影响。例如在施肥量和产量的关系中,施肥量是产量变化的原因,是自变数(X) 产量是对施肥量的反应,是依变数(Y)。施肥量X是事先确定的,但产量Y是依X的变化和 误差影响而变化 X和}间数值变化关系用回归方程( .regerssion equation)来描述。回归分析就是用试验 或调査得到的样本数据,建立回归方程并对其进行测验显著后,应用该方程根据X的变化来 估计Y的变化,从而达到预测(报)的目的
2 图 10.1A 是单株的生物产量(X)和稻谷产量(Y),图 10.1B 是每平方米土地上的总颖花数 (X)和结实率(Y),图 10.1C 是最高叶面积指数(X)和每亩稻谷产量(Y)。从中可 以看出:①图 10.1A 和 10.1B 都是直线 型的,但方向相反;前者 Y 随X 的增大 而增大,表示两个变数的关系是正的, 后者 Y 随 X 的增大而减小,表示关系是 负的。②图 10.1A 的各个点几乎都落在 一直线上,图 10.1B 则较为分散;因此, 图 10.1A 中X 和 Y相关的密切程度必高 于图 10.1B。③图 10.1C 中 X 和 Y 的关 系 是 非 直 线 型 的 ; 大 约 在 x≤(6~7)时,Y 随 X 的增大而增 图 10.1A 水稻单株生物产量与 大,而当 x>(6~7)时,Y 随 X 的增大 稻谷产量的散点图 而减小。 图 10.1B 水稻每平方米颖花数和结实率的散点图 图 10.1C 水稻最高叶面积指数和 667m2产量的散点图 二、回归分析和相关分析 根据研究目的和依据的数学模型不同,统计关系的分析方法有两种。 1.回归分析 对两个变数进行回归分析是定量地研究 X 和 Y的数值变化规律,根据这种规律可由一个 变数的变化来估计另一个变数的变化。在回归模型中,两个变数有因果关系,原因变数称自 变数(independent variable),一般用 X 表示;结果变数称依变数(dependent variable),以 Y表示。 X 是已知的或是可控制的,没有误差或误差很小,而 Y 则不仅随 X 的变化而变化,还要受到 随机误差的影响。例如在施肥量和产量的关系中,施肥量是产量变化的原因,是自变数(X); 产量是对施肥量的反应,是依变数(Y)。施肥量X 是事先确定的,但产量 Y是依 X 的变化和 误差影响而变化。 X 和 Y 间数值变化关系用回归方程(regerssion equation)来描述。回归分析就是用试验 或调查得到的样本数据,建立回归方程并对其进行测验显著后,应用该方程根据 X 的变化来 估计 Y 的变化,从而达到预测(报)的目的
根据涉及变数的多少和变数间关系的形式,回归分析有一元直线回归分析、多元线性回 归分析和非线性回归分析等不同类型 2.相关分析 对两个变数进行相关分析,其目的是研究X和Y间有无相关以及相关程度、相关性质(方 向)。在相关模型中,两个变数是平行的,没有因果关系的自变数和依变数之分,且皆有随机 X和Y间的相关与否,用表示相关特征的统计数r来反映,r称相关系数( correlation coefficient)。相关分析就是用样本数据计算出r,并对其进行测验后,就可以回答X、Y间有 无相关和相关程度等问题。 除了本章介绍的,两个变数为直线的相关分析外,还有多元相关分析等其它类型 通常将计算回归方程为基础的统计方法称为回归分析,将计算相关系数为基础的统计方 法称相关分析。理论上两个变数是因果关系,X没有误差(或很小)而Y含有误差时,应进 回归分析。X和Y是平行关系,均含有误差时应进行相关分析。然而在回归分析中往往含 有相关分析的信息,在相关分析中也包含回归分析的信息。所以在实践中,一个资料究竟是 采用回归分析还是相关分析,并没有严格界限,多可取决于研究目的。许多资料还可以同时 进行这两种分析 第二节直线回归分析 、直线回归方程 1.直线回归方程式 对于在散点图上呈直线趋势的两个变数,如果要概括其在数量上的互变规律,即从X的 数量变化来预测或估计y的数量变化,则要采用直线回归方程( linear regression equation)来 描述。此方程的通式为: a+b 上式读作“y依x的直线回归方程”。其中x是自变数;j是和x的量相对应的依变数的 点估计值;a是x=0时的j值,即回归直线在y轴上的截距( regression intercept);b是x每 增加一个单位数时,j平均地将要增加(b>0时)或减少(b0时)的单位数,叫回归系数 (regression coefficient) 要使j=a+bx能够最好地代表y和x在数量上的互变关系,根据最小二乘法,必须使 Q=∑(-)2=∑(y-a-b)2为最小 因此,分别对a和b求偏导数并令其为0,即可获得正规方程组( normal equations)
3 根据涉及变数的多少和变数间关系的形式,回归分析有一元直线回归分析、多元线性回 归分析和非线性回归分析等不同类型。 2.相关分析 对两个变数进行相关分析,其目的是研究 X 和 Y间有无相关以及相关程度、相关性质(方 向)。在相关模型中,两个变数是平行的,没有因果关系的自变数和依变数之分,且皆有随机 误差。 X 和 Y 间的相关与否,用表示相关特征的统计数 r 来反映,r 称相关系数(correlation coefficient)。相关分析就是用样本数据计算出 r,并对其进行测验后,就可以回答 X、Y 间有 无相关和相关程度等问题。 除了本章介绍的,两个变数为直线的相关分析外,还有多元相关分析等其它类型。 通常将计算回归方程为基础的统计方法称为回归分析,将计算相关系数为基础的统计方 法称相关分析。理论上两个变数是因果关系,X 没有误差(或很小)而 Y 含有误差时,应进 行回归分析。X 和 Y 是平行关系,均含有误差时应进行相关分析。然而在回归分析中往往含 有相关分析的信息,在相关分析中也包含回归分析的信息。所以在实践中,一个资料究竟是 采用回归分析还是相关分析,并没有严格界限,多可取决于研究目的。许多资料还可以同时 进行这两种分析。 第二节 直线回归分析 一、直线回归方程 1.直线回归方程式 对于在散点图上呈直线趋势的两个变数,如果要概括其在数量上的互变规律,即从 X 的 数量变化来预测或估计 Y的数量变化,则要采用直线回归方程(linear regression equation)来 描述。此方程的通式为: y ˆ = a + bx 上式读作“y 依 x 的直线回归方程”。其中 x 是自变数; y ˆ 是和 x 的量相对应的依变数的 点估计值;a 是 x=0 时的 y ˆ 值,即回归直线在 y 轴上的截距(regression intercept);b 是 x 每 增加一个单位数时, y ˆ 平均地将要增加(b>0 时)或减少(b<0 时)的单位数,叫回归系数 (regression coefficient)。 要使 y ˆ = a + bx 能够最好地代表 y 和 x 在数量上的互变关系,根据最小二乘法,必须使 = − = − − n n Q y y y a bx 1 1 2 2 ( ˆ) ( ) 为最小 因此,分别对 a 和 b 求偏导数并令其为 0,即可获得正规方程组(normal equations):
a+b∑x=∑y a∑x+b∑x2=∑xy 解之得 (10.3) (10.3)的分子∑(x-xy-y)是x的离均差和y的离均差的乘积之和,简称乘积和(sum of products),记作SP;分母是x的离均差平方和,记作Sx。将(10.2)、(103)算得的a和b 值代入(10.1),即可保证Q=∑(y-y)2为最小,同时使∑(y-)=0 a和b值皆可正可负,随具体资料而异。当a>0时,表示回归直线在I、Ⅱ象限交于y轴 当a<0时,表示回归直线在I、ⅣV象限交于y轴;当b>0时,表示y随x的增大而增大 当b∞0时,表示y随x的增大而减小;参见图102。若b=0或和0的差异不显著,则表明y 的变异和x的取值大小无关,直线回归关系不能成立 以上是a和b值的统计学解释。在具体问题中,a和b值将有专业上的实际意义 将(10.2)代入(10.1)可得: y=(-bx)+bx=y+b(x-x) (104) 由(104)可见:①当x=x时,必有y=y,所以回归直线一定通过(x,y)坐标点。(记 住这一特性,有助于绘制具体资料的回归直线)。②当x以离均差(x-)为单位时,回归 直线的位置仅决定于和b。③当将坐标轴平移到以x,j)为原点时,回归直线的走向仅决定 于b,所以一般又称b为回归斜率( regression slope 2.直线回归方程的计算 以一个实例说明回归统计数计算的过程。 [例101]一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年测定3月 下旬至4月中旬平均温度累积值(x,旬·度)和水稻一代三化螟盛发期(y,以5月10日为 0)的关系,得结果于表10.1。试计算其直线回归方程 首先由表10.1算得回归分析所必须的6个一级数据(即由观察值直接算得的数据) n=9 ∑x=35.5+34.1+…+44.2=333.7 ∑x2=35.52+34.12+…+442=1251749 ∑y=12+16+…+(-1)=70 *∑y2=122+162+…+(-1)2=794 ∑xy=(35.5×12)+(34.1×16)+…+[442×(-1)=24364
4 + = + = a x b x xy an b x y 2 解之得: a = y −bx (10.2) SS x SP x x x x y y x n x x y n xy b = − − − = − − = 2 2 2 ( ) ( )( ) ( ) 1 1 (10.3) (10.3)的分子 (x − x)( y − y) 是 x 的离均差和 y 的离均差的乘积之和,简称乘积和(sum of products),记作 SP;分母是 x 的离均差平方和,记作 SSx。将(10.2)、(10.3)算得的 a 和 b 值代入(10.1),即可保证 2 Q = (y − y) 为最小,同时使 (y − y) = 0 。 a 和 b 值皆可正可负,随具体资料而异。当 a>0 时,表示回归直线在 I、II 象限交于 y 轴; 当 a<0 时,表示回归直线在 III、IV 象限交于 y 轴;当 b>0 时,表示 y 随 x 的增大而增大; 当 b<0 时,表示 y 随 x 的增大而减小;参见图 10.2。若 b=0 或和 0 的差异不显著,则表明 y 的变异和 x 的取值大小无关,直线回归关系不能成立。 以上是 a 和 b 值的统计学解释。在具体问题中,a 和 b 值将有专业上的实际意义。 将(10.2)代入(10.1)可得: y ˆ = (y −bx) +bx = y +b(x − x) (10.4) 由(10.4)可见:①当 x = x 时,必有 y ˆ = y ,所以回归直线一定通过( x , y )坐标点。(记 住这一特性,有助于绘制具体资料的回归直线)。②当 x 以离均差( x − x )为单位时,回归 直线的位置仅决定于 y 和 b。③当将坐标轴平移到以( x , y )为原点时,回归直线的走向仅决定 于 b,所以一般又称 b 为回归斜率(regression slope)。 2.直线回归方程的计算 以一个实例说明回归统计数计算的过程。 [例 10.1] 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续 9 年测定 3 月 下旬至 4 月中旬平均温度累积值(x,旬·度)和水稻一代三化螟盛发期(y,以 5 月 10 日为 0)的关系,得结果于表 10.1。试计算其直线回归方程。 首先由表 10.1 算得回归分析所必须的 6 个一级数据(即由观察值直接算得的数据): (35.5 12) (34.1 16) [44.2 ( 1)] 2436.4 * 12 16 ( 1) 794 12 16 ( 1) 70 35.5 34.1 44.2 12517.49 35.5 34.1 44.2 333.7 9 2 2 2 2 2 2 2 2 = + + + − = = + + + − = = + + + − = = + + + = = + + + = = x y y y x x n
然后,由一级数据算得5个二级数据 表10.1累积温和一代三化螟盛发期的关系 x累积温 y盛发期 31.7 9 2 36.8 7 图102直线回归方程 j=a+bx的图像 44.2 SS=∑x2-(∑x)2/n=1251749-(3332/9=1446356 *Ssy=2y2-(2y)2/n=74-(70)2/9=24955 SP=∑xy-∑xy/n=24364-(3337×70)/9=-1590444 x=∑x/n=333.7/9=37078 j=∑y/n=70/9=7.778 因而有:b=SP/SSx=-15904414446356=-1096E天旬度 a=j-bx=7.778-(-1.0996×37.0778)=48.5485(天) 故得表101资料的回归方程为:j=485485-1096x 或化简成: j=485-1.1x 上述方程中回归系数和回归截距的意义为:当3月下旬至4月中旬的积温(x)每提高1 旬·度时,一代三化螟的盛发期平均将提早1.1天;若积温为0,则一代三化螟的盛发期将 在6月27-28日(x=0时,j=485;因y是以5月10日为0,故48.5为6月27-28日) 由于x变数的实测区间为[317,442],当x<317或>442时,y的变化是否还符合y=485-1,1x 的规律,观察数据中未曾得到任何信息。所以,在应用y=48.5-1.Ix于预测时,需限定x的 区间为[317,442];如要在x<31.7或>442的区间外延,则必须有新的依据。 3.直线回归方程的图示 直线回归图包括回归直线的图像和散点图,它可以醒目地表示x和y的数量关系。 制作直线回归图时,首先以x为横坐标,以y为纵坐标构建直角坐标系(纵、横坐标皆 需标明名称和单位);然后取x坐标上的一个小值x代入回归方程得1,取一个大值x2代入 回归方程得2,连接坐标点(x1,1)和(x2,y2)即成一条回归直线。如例10.1资料,以 x=317代入回归方程得1=1369;以x=442代入回归方程得2=-005。在图10.3上确定 (317,1369)和(442,005)这两个点,再连接之,即为y=485485-1090x的直线图 像。注意:此直线必通过点(元,y),它可以作为制图是否正确的核对。最后,将实测的各对
5 然后,由一级数据算得 5 个二级数据: 表 10.1 累积温和一代三化螟盛发期的关系 x 累积温 y 盛发期 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2 12 16 9 2 7 3 13 9 -1 / 70 / 9 7.7778 / 333.7 / 9 37.0778 / 2436 .4 (333.7 70) / 9 159.0444 * ( ) / 794 (70) / 9 249.5556 ( ) / 12517 .49 (333.7) / 9 144.6356 2 2 2 2 2 2 = = = = = = = − = − = − = − = − = = − = − = y y n x x n SP xy x y n SS y y n SS x x n y x 因而有: = / = −159.0444 /144.6356 = −1.0996[天/(旬度)] b SP SSx a = y −bx = 7.778 −(−1.0996 37.0778) = 48.5485(天) 故得表 10.1 资料的回归方程为: y ˆ = 48.5485 −1.0996 x 或化简成: y ˆ = 48.5−1.1x 上述方程中回归系数和回归截距的意义为:当 3 月下旬至 4 月中旬的积温(x)每提高 1 旬·度时,一代三化螟的盛发期平均将提早 1.1 天;若积温为 0,则一代三化螟的盛发期将 在 6 月 27-28 日(x=0 时, y ˆ = 48.5 ;因 y 是以 5 月 10 日为 0,故 48.5 为 6 月 27-28 日)。 由于 x 变数的实测区间为[31.7,44.2],当 x<31.7 或>44.2 时,y 的变化是否还符合 y ˆ = 48.5−1.1x 的规律,观察数据中未曾得到任何信息。所以,在应用 y ˆ = 48.5−1.1x 于预测时,需限定 x 的 区间为[31.7,44.2];如要在 x<31.7 或>44.2 的区间外延,则必须有新的依据。 3.直线回归方程的图示 直线回归图包括回归直线的图像和散点图,它可以醒目地表示 x 和 y 的数量关系。 制作直线回归图时,首先以 x 为横坐标,以 y 为纵坐标构建直角坐标系(纵、横坐标皆 需标明名称和单位);然后取 x 坐标上的一个小值 x1 代入回归方程得 1 y ˆ ,取一个大值 x2代入 回归方程得 2 y ˆ ,连接坐标点( 1 1 x , y ˆ )和( 2 2 x , y ˆ )即成一条回归直线。如例 10.1 资料,以 x1=31.7 代入回归方程得 y ˆ 1 =13.69 ;以 x2=44.2 代入回归方程得 y ˆ 2 = −0.05 。在图 10.3 上确定 (31.7,13.69)和(44.2,-0.05)这两个点,再连接之,即为 y ˆ = 48.5485 −1.0996 x 的直线图 像。注意:此直线必通过点( x, y ),它可以作为制图是否正确的核对。最后,将实测的各对 图 10.2 直线回归方程 y ˆ = a + bx 的图像