第五章回归分析 前几章的方法都只涉及一种变量,主要是比较它的各组值之间的差异。但生物学所涉及 的问题是多种多样的,对许多问题的研究需要考虑不只一个变量,例如生物的生长发育速度 就与温度,营养,湿度……等许多因素有关,我们常常需要研究类似的多个变量之间的关系 这种关系可分为两大类,即相关关系与回归关系。 相关关系:两变量Ⅹ,Y均为随机变量,任一变量的每一可能值都有另一变量的一个确定分 布与之对应 回归关系:ⅹ是非随机变量或随机变量,Y是随机变量,对ⅹ的每一确定值ⅹ都有Y的一 个确定分布与之对应 从上述定义可看出相关关系中的两个变量地位是对称的,可以认为它们互为因果:而回 归关系中则不是这样,我们常称回归关系中的X是自变量,而Y是因变量。即把X视为原 因,而把Y视为结果。 这两种关系尽管有意义上的不同,分析所用的数学概念与推导过程也有所不同,但如果 我们使用共同的标准即使y的残差平方和最小(最小二乘法,详见下述),则不管是回归关 系还是相关关系都可以得到相同的参数估计式。因此本章将集中讨论数学处理较简单的回归 关系,且Ⅹ限定为非随机变量。从这些讨论中所得到的参数估计式也可用于X为随机变量 的情况,但我们不再讨论X为随机变量时的证明与推导。 另外,回归分析和相关分析的目的也有所不同。回归分析研究的重点是建立X与Y之 间的数学关系式,这种关系式常常用于预测,即知道一个新的X取值,然后预测在此情况 下的Y的取值:而相关分析的重点则放在研究ⅹ与Y两个随机变量之间的共同变化规律 例如当X增大时Y如何变化,以及这种共变关系的强弱。由于这种研究目的的不同,有时 也会引起标准和方法上的不同,我们将在相关分析一节中作进一步介绍 从两个变量间相关(或回归)的程度来看,可分为以下三种情况: (1)完全相关。此时一个变量的值确定后,另一个变量的值就可通过某种公式求出来:即 一个变量的值可由另一个变量所完全决定。这种情况在生物学研究中是不太多见的 (2)不相关。变量之间完全没有任何关系。此时知道一个变量的值不能提供有关另一个变 量的任何信息。 (3)统计相关(不完全相关)。介于上述两种情况之间。也就是说,知道一个变量的值通过 某种公式就可以提供关于另一个变量一些信息,通常情况下是提供有关另一个变量的均值的 信息。此时知道一个变量的取值并不能完全决定另一个变量的取值,但可或多或少地决定它 的分布。这是科研中最常遇到的情况。本章讨论主要针对这种情况进行。为简化数学推导, 本章中如无特别说明,一律假设Ⅹ为非随机变量,即ⅹ只是一般数字,并不包含有随机误 差。但所得结果可以推广到ⅹ为随机变量的情况 按相关中涉及公式类型可把相关关系分为线性相关和非线性相关。在多数情况下,我们 提到相关关系时都是指线性相关,这是因为线性相关的理论已经很完善,数学处理也很简单 而非线性问题则需要具体问题具体分析,常常没有什么好的解决方法,理论上能得到的结果 也很有限(详见§5.4)。因此在一般情况下我们常常只能解决线性相关的问题。也正是因为 如此,在不加说明的情况下提到相关时常常是指线性相关;如概率论基础部分曾提到独立可 以推出不相关,而逆命题不成立。讨论回归关系时也有类似现象 下面我们就来讨论回归关系中最简单的情况:一元线性回归。 §5.1一元线性回归
第五章 回归分析 前几章的方法都只涉及一种变量,主要是比较它的各组值之间的差异。但生物学所涉及 的问题是多种多样的,对许多问题的研究需要考虑不只一个变量,例如生物的生长发育速度 就与温度,营养,湿度……等许多因素有关,我们常常需要研究类似的多个变量之间的关系。 这种关系可分为两大类,即相关关系与回归关系。 相关关系:两变量 X,Y 均为随机变量,任一变量的每一可能值都有另一变量的一个确定分 布与之对应。 回归关系:X 是非随机变量或随机变量,Y 是随机变量,对 X 的每一确定值 xi 都有 Y 的一 个确定分布与之对应。 从上述定义可看出相关关系中的两个变量地位是对称的,可以认为它们互为因果;而回 归关系中则不是这样,我们常称回归关系中的 X 是自变量,而 Y 是因变量。即把 X 视为原 因,而把 Y 视为结果。 这两种关系尽管有意义上的不同,分析所用的数学概念与推导过程也有所不同,但如果 我们使用共同的标准即使 y 的残差平方和最小(最小二乘法,详见下述),则不管是回归关 系还是相关关系都可以得到相同的参数估计式。因此本章将集中讨论数学处理较简单的回归 关系,且 X 限定为非随机变量。从这些讨论中所得到的参数估计式也可用于 X 为随机变量 的情况,但我们不再讨论 X 为随机变量时的证明与推导。 另外,回归分析和相关分析的目的也有所不同。回归分析研究的重点是建立 X 与 Y 之 间的数学关系式,这种关系式常常用于预测,即知道一个新的 X 取值,然后预测在此情况 下的 Y 的取值;而相关分析的重点则放在研究 X 与 Y 两个随机变量之间的共同变化规律, 例如当 X 增大时 Y 如何变化,以及这种共变关系的强弱。由于这种研究目的的不同,有时 也会引起标准和方法上的不同,我们将在相关分析一节中作进一步介绍。 从两个变量间相关(或回归)的程度来看,可分为以下三种情况: (1)完全相关。此时一个变量的值确定后,另一个变量的值就可通过某种公式求出来;即 一个变量的值可由另一个变量所完全决定。这种情况在生物学研究中是不太多见的。 (2)不相关。变量之间完全没有任何关系。此时知道一个变量的值不能提供有关另一个变 量的任何信息。 (3)统计相关(不完全相关)。介于上述两种情况之间。也就是说,知道一个变量的值通过 某种公式就可以提供关于另一个变量一些信息,通常情况下是提供有关另一个变量的均值的 信息。此时知道一个变量的取值并不能完全决定另一个变量的取值,但可或多或少地决定它 的分布。这是科研中最常遇到的情况。本章讨论主要针对这种情况进行。为简化数学推导, 本章中如无特别说明,一律假设 X 为非随机变量,即 X 只是一般数字,并不包含有随机误 差。但所得结果可以推广到 X 为随机变量的情况。 按相关中涉及公式类型可把相关关系分为线性相关和非线性相关。在多数情况下,我们 提到相关关系时都是指线性相关,这是因为线性相关的理论已经很完善,数学处理也很简单; 而非线性问题则需要具体问题具体分析,常常没有什么好的解决方法,理论上能得到的结果 也很有限(详见§5.4)。因此在一般情况下我们常常只能解决线性相关的问题。也正是因为 如此,在不加说明的情况下提到相关时常常是指线性相关;如概率论基础部分曾提到独立可 以推出不相关,而逆命题不成立。讨论回归关系时也有类似现象。 下面我们就来讨论回归关系中最简单的情况:一元线性回归。 §5.1 一元线性回归
前边已经说过,回归关系就是对每一个X的取值x1,都有Y的一个分布与之对应。在这 种情况下,怎么建立X与Y的关系呢?一个比较直观的想法就是建立X与Y的分布的参数间 的关系,首先是与Y的均值的关系。这就是条件均值的概念,记为:yx=x。它的意思是 在X=x1的条件下,求Y的均值。更一般地,我们用山1x代表X取一切值时,Y的均值所构 成的集合。所谓一元线性回归,就是假定X与yx之间的关系是线性关系,而且满足 uy.x =a+ Bx 此时进行回归分析的目标就是给出参数a和β的估计值。 例5.1对大白鼠从出生第6天起,每三天称一次体重,直到第18天。数据见表5.1。试计 算日龄X与体重Y之间的回归方程。 表5.1大白鼠6-18日龄的体重 日龄 161 12 15 18 体重 首先,我们可以把数对(x,y)标在XY坐标系中,这种图称为散点图。它的优点是可 以使我们对Ⅹ、Y之间的关系有一个直观的、整体上的印象,如它们是否有某种规律性,是 接近一条直线还是一条曲线,等等。我们还可以画很多条接近这些点的直线或曲线,但这些 线中的哪一条可以最好地代表X,Y之间的关系,就不是凭直观印象可以做出判断的了。例 如对例5.1,我们可画出如下的散点图: 日龄 图5.1大白鼠日龄一体重关系图 图中的点看来是呈直线关系,但那条直线是否最好地反映了这种关系呢?或者换一种说法: 该如何找到最好地反映这种关系的直线呢?这就是我们以下要讨论的问题。 元正态线性回归统计模型: 线性回归意味着条件平均数与Ⅹ之间的关系是线性函数: X BX
前边已经说过,回归关系就是对每一个 X 的取值 xi,都有 Y 的一个分布与之对应。在这 种情况下,怎么建立 X 与 Y 的关系呢?一个比较直观的想法就是建立 X 与 Y 的分布的参数间 的关系,首先是与 Y 的均值的关系。这就是条件均值的概念,记为: 1 Y X =x 。它的意思是 在 X=x1 的条件下,求 Y 的均值。更一般地,我们用 YX 代表 X 取一切值时,Y 的均值所构 成的集合。所谓一元线性回归,就是假定 X 与 YX 之间的关系是线性关系,而且满足: YX = + X (5.1) 此时进行回归分析的目标就是给出参数α和β的估计值。 例 5.1 对大白鼠从出生第 6 天起,每三天称一次体重,直到第 18 天。数据见表 5.1。试计 算日龄 X 与体重 Y 之间的回归方程。 表 5.1 大白鼠 6-18 日龄的体重 序号 1 2 3 4 5 日龄 xi 6 9 12 15 18 体重 yi 11 16.5 22 26 29 首先,我们可以把数对(xi, yi)标在 X-Y 坐标系中,这种图称为散点图。它的优点是可 以使我们对 X、Y 之间的关系有一个直观的、整体上的印象,如它们是否有某种规律性,是 接近一条直线还是一条曲线,等等。我们还可以画很多条接近这些点的直线或曲线,但这些 线中的哪一条可以最好地代表 X, Y 之间的关系,就不是凭直观印象可以做出判断的了。例 如对例 5.1,我们可画出如下的散点图: 0 5 10 15 20 25 30 35 1 31 61 91 121 日龄 体重 图 5.1 大白鼠日龄—体重关系图 图中的点看来是呈直线关系,但那条直线是否最好地反映了这种关系呢?或者换一种说法: 该如何找到最好地反映这种关系的直线呢?这就是我们以下要讨论的问题。 一、 一元正态线性回归统计模型: 线性回归意味着条件平均数与 X 之间的关系是线性函数: YX = + X (5.1)
对于每个Y的观察值y来说,由于条件均值由(51)式决定,观察值就应该是在条件均值的 基础上再加上一个随机误差,即: y1=a+x1+E1 其中E1~ND(0,a2)。正态线性回归中“正态”的意思是随机误差服从正态分布。(52)式 就是一元正态线性回归的统计模型。 参数a和β的估计 统计模型中的a和β是总体参数,一般是不知道的。由于只能得到有限的观察数据,我 们无法算出准确的a与β的值,只能求出它们的估计值a和b,并得到y的估计值为: 那么,什么样的a和b是α和β最好的估计呢?换句话说,选取什么样的a和b可以最 好地反映X和Y之间的关系呢?一个合理的想法是使残差e1=y一y最小。为了避免使正 负e互相抵消,同时又便于数学处理,我们定义使残差平方和∑(y-j,)2达到最小的直 线为回归线,即令: ∑(y-a-bx)2,且 bx2)=0 得 (-2)x,(J 整理后,得 x1=∑y (5.4) ∑x+b∑x=∑xy 上式称为正规方程。解此方程
对于每个 Y 的观察值 yi 来说,由于条件均值由(5.1)式决定,观察值就应该是在条件均值的 基础上再加上一个随机误差,即: i i i y = + x + (5.2) 其中 ~ (0, ) 2 i NID 。正态线性回归中“正态”的意思是随机误差服从正态分布。(5.2)式 就是一元正态线性回归的统计模型。 二、 参数α和β的估计 统计模型中的α和β是总体参数,一般是不知道的。由于只能得到有限的观察数据,我 们无法算出准确的α与β的值,只能求出它们的估计值 a 和 b,并得到 yi 的估计值为: i a bxi y ˆ = + (5.3) 那么,什么样的 a 和 b 是α和β最好的估计呢?换句话说,选取什么样的 a 和 b 可以最 好地反映 X 和 Y 之间的关系呢?一个合理的想法是使残差 i i i e = y − y ˆ 最小。为了避免使正 负 ei 互相抵消,同时又便于数学处理,我们定义使残差平方和 = − n i i i y y 1 2 ( ˆ ) 达到最小的直 线为回归线,即令: = = − − n i e i a bxi SS y 1 2 ( ) ,且 = = 0 0 b SS a SS e e 得: − − − = − − − = = = n i i i i n i i i x y a bx y a bx 1 1 ( 2) ( ) 0 ( 2)( ) 0 整理后,得 + = + = = = = = = n i n i n i i i i i n i n i i i a x b x x y an b x y 1 1 1 2 1 1 (5.4) 上式称为正规方程。解此方程,得:
∑x)∑y) x,y x)(y1-y) b ∑(x,-x) 这种方法称为最小二乘法,它也适用于曲线回归,只要将线性模型(5.3)式换为非线 性模型即可。但要注意非线性模型的正规方程一般比较复杂,有些情况下甚至没有解析解。 另一方面,不管X与Y间的真实关系是什么样的,使用线性模型的最小二乘法的解总是存在 的。因此正确选择模型很重要,而且用最小二乘法得出的结果一般应经过检验 x=∑(x-x)2,称为X的校正平方和 y-y)2,称为Y的总校正平方和 S=∑(x-xy-j),称为校正交叉乘积和, 则: (5.7) 在实际计算时,可采用以下公式 y--y. x1 现在回到例5.1。 例5.1对大白鼠从出生第6天起,每三天称一次体重,直到第18天。数据见表5.1。试计 算日龄X与体重Y之间的回归方程 表5.1大白鼠6-18日龄的体重 序号 日龄 体重y 16.5 解:把数据代入上述公式得: x=60,∑x2=810.,∑y=1045.∑y 1390.5
= − − − − = − − = = = = = = = = (5.6) (5.5) ( ) ( )( ) ( ) / ( ) ( ) 1 2 1 1 2 1 2 1 1 1 a y bx x x x x y y x x n n x y x y b n i i n i i i n i n i i i n i i n i n i i i i 这种方法称为最小二乘法,它也适用于曲线回归,只要将线性模型(5.3)式换为非线 性模型即可。但要注意非线性模型的正规方程一般比较复杂,有些情况下甚至没有解析解。 另一方面,不管 X 与 Y 间的真实关系是什么样的,使用线性模型的最小二乘法的解总是存在 的。因此正确选择模型很重要,而且用最小二乘法得出的结果一般应经过检验。 记 = = − n i xx i S x x 1 2 ( ) ,称为 X 的校正平方和; = = − n i yy i S y y 1 2 ( ) ,称为 Y 的总校正平方和; = = − − n i xy i i S x x y y 1 ( )( ) ,称为校正交叉乘积和, 则: xx xy S S b = (5.7) 在实际计算时,可采用以下公式: = = = = − = − = − n i xy i i n i yy i n i xx i x y n S x y y n S y x n S x 1 2 1 2 1 2 2 . . 1 . , 1 . , 1 现在回到例 5.1。 例 5.1 对大白鼠从出生第 6 天起,每三天称一次体重,直到第 18 天。数据见表 5.1。试计 算日龄 X 与体重 Y 之间的回归方程。 表 5.1 大白鼠 6-18 日龄的体重 序号 1 2 3 4 5 日龄 xi 6 9 12 15 18 体重 yi 11 16.5 22 26 29 解:把数据代入上述公式,得: = = = = = = n i n i i i n i i x x y 1 1 2 1 60, 810, 104.5, = = n i i y 1 2 2394.25, = = n i i i x y 1 1390.5
Sx=810-(60)2=90 Sn=239425-(1045)2=2102, S_=1390.5 50×104.5=1365 b=-=1365/90=1.5167 a=y-bx=1045/5-1.5167×12=26996 即:所求的回归方程为:y=26996+1.5167x 带有统计功能的计算器常常也可以做一元线性回归,对于这样的计算器,只需把数据依 次输入,然后按一下键就可得到上述结果 、b与a的期望与方差 在介绍最小二乘法时我们曾提到,不管实际上X与Y之间有没有线性关系,用这种方 法总是可以得到解的。因此我们必须有一种方法可以检验得到的结果是不是反映了Ⅹ和Y 之间的真实关系。为此,我们需要研究b与a的期望与方差。 S E(b)=E()=·E∑(x-x)1-列 E∑(x2-x)y] E∑(x1-x)(a++E Ea∑(x1-x)+B )x+∑6(x2-x) 注意 ∑(x-x)x,=∑(x-x),EE 原式 D(b)=1 D∑(x-x)(y,-现 D∑y(x1-x 各y:互相独立,且D(y)=02;各x:为常数: D(b)
60 104.5 136.5, 5 1 1390.5 (104.5) 210.2, 5 1 2394.25 (60) 90 5 1 810 2 2 = − = = − = = − = xy yy xx S S S 104.5/ 5 1.5167 12 2.6996 136.5/ 90 1.5167 = − = − = = = = a y bx S S b xx xy 即:所求的回归方程为:y = 2.6996 + 1.5167 x 带有统计功能的计算器常常也可以做一元线性回归,对于这样的计算器,只需把数据依 次输入,然后按一下键就可得到上述结果。 三、b 与 a 的期望与方差 在介绍最小二乘法时我们曾提到,不管实际上 X 与 Y 之间有没有线性关系,用这种方 法总是可以得到解的。因此我们必须有一种方法可以检验得到的结果是不是反映了 X 和 Y 之间的真实关系。为此,我们需要研究 b 与 a 的期望与方差。 [ ( ) ( ) ( )] 1 [ ( ) ( )] 1 [ ( ) ] 1 [ ( )( )] 1 ( ) ( ) 1 1 1 1 1 1 = = = = = = = − + − + − = − + + = − = = − − n i n i i i n i i i i xx n i i i i xx n i i i xx n i i i xx xx xy E x x x x x x x S E x x x S E x x y S E x x y y S S S E b E 注意 ( ) 0, ( ) ( ) , 0, 1 2 1 1 − = − = − = = = = i n i i n i i i n i xi x x x x x x E ∴ 原式= xx = xx S S 1 = = = − = − − n i i i xx n i i i xx D y x x S D x x y y S D b 1 2 1 2 [ ( )] 1 [ ( ) ( )] 1 ( ) ∵ 各 yi 互相独立,且 D(yi)=σ2;各 xi 为常数; ∴ [ ( ) ] 1 ( ) 1 2 2 2 = = − n i i xx x x S D b