(x,y)数值也用坐标点标于图103上 图103的回归直线是9个观察坐标点 的代表,它不仅表示了例10.1资料的基本 趋势,也便于预测。如某年3月下旬至4 月中旬的积温为40旬·度,则在图103上 可查到一代三化螟盛发期的点估计值在5 月14-15日,这和将x=40代入原方程 得到y=485485-(1.096×40)=46是一致 的。因为回归直线是综合9年结果而得出 的一般趋势,所以其代表性比任何一个实 际的坐标点都好。当然,这种估计仍然有 x,3月下旬至4月中旬旬平均温度累积值 随机误差,下文再作讨论。 图10.3旬平均温度累积值和 4.直线回归的估计标准误 代三化螟盛发期的关系 由图10.3可见,满足Q=∑(y-y)2为最小的直线回归方程和实测的观察点并不重合, 表明该回归方程仍然存在随机误差。Q就是误差的一种度量,称之为离回归平方和( sum of squares due to deviation from regression)或剩余平方和。由于在建立回归方程时用了a和b两 个统计数,故Q的自由度v=n-2。因而,可定义回归方程的估计标准误s为 2-{= 若各个观察点愈靠近回归线,s将愈小(极端地说,当各观察点都落在回归线上时 =0);若各观察点在回归线上下分散得愈远,则愈大。故样本的s是回归精确度的度 量,s/愈小,由回归方程估计y的精确性愈高 计算s的主要手续在于求Q。直接计算不仅步骤多、工作量大,而且若数字保留位数 不够,会引入较大的计算误差。为简化手续,可从以下恒等式得出 Q=∑(y-y)2=SS (10.6) [例10.2]试计算由表101资料获得的回归方程的估计标准 据(10.6)由例10.1算好的有关数据可直接得到: Q=249556(-159044) 1446356=746670 将算得Q代入(10.5)式有 7466 =3.266(天) 上述计算表明,当用回归方程j=485485-10996x,由3月下旬至4月中旬的积温预测 代三化螟发期时,有一个3266天的估计标准误。它的统计意义是:在y±3266天范围内 约有6827%个观察点,在y±6532天范围内约有9545%个观察点等
6 (xi,yi)数值也用坐标点标于图 10.3 上。 图 10.3 的回归直线是 9 个观察坐标点 的代表,它不仅表示了例 10.1 资料的基本 趋势,也便于预测。如某年 3 月下旬至 4 月中旬的积温为 40旬·度,则在图 10.3 上 可查到一代三化螟盛发期的点估计值在 5 月 14-15 日,这和将 x=40 代入原方程 得到 y = 48.5485 −(1.0996 40) = 4.6 是一致 的。因为回归直线是综合 9 年结果而得出 的一般趋势,所以其代表性比任何一个实 际的坐标点都好。当然,这种估计仍然有 x,3 月下旬至 4月中旬旬平均温度累积值 随机误差,下文再作讨论。 图 10.3 旬平均温度累积值和一 4.直线回归的估计标准误 代三化螟盛发期的关系 由图 10.3 可见,满足 2 Q = (y − y ˆ) 为最小的直线回归方程和实测的观察点并不重合, 表明该回归方程仍然存在随机误差。Q 就是误差的一种度量,称之为离回归平方和(sum of squares due to deviation from regression)或剩余平方和。由于在建立回归方程时用了 a 和 b 两 个统计数,故 Q 的自由度 v=n-2。因而,可定义回归方程的估计标准误 sy/x为: 2 ( ˆ) 2 2 / − − = − = n y y n Q s y x (10.5) 若各个观察点愈靠近回归线,sy/x 将愈小(极端地说,当各观察点都落在回归线上时, sy/x=0);若各观察点在回归线上下分散得愈远,则 sy/x愈大。故样本的 sy/x是回归精确度的度 量,sy/x愈小,由回归方程估计 y 的精确性愈高。 计算 sy/x 的主要手续在于求 Q。直接计算不仅步骤多、工作量大,而且若数字保留位数 不够,会引入较大的计算误差。为简化手续,可从以下恒等式得出: x y SS SP Q y y SS 2 2 ( ) = ( − ˆ) = − (10.6) [例 10.2] 试计算由表 10.1 资料获得的回归方程的估计标准误。 据(10.6)由例 10.1 算好的有关数据可直接得到: 74.6670 144.6356 ( 159.0444) 249.5556 2 = − Q = − 将算得 Q 代入(10.5)式有: 3.266( ) 9 2 74.6670 / = 天 − S y x = 上述计算表明,当用回归方程 y ˆ = 48.5485 −10996 x ,由 3 月下旬至 4 月中旬的积温预测 一代三化螟发期时,有一个 3.266 天的估计标准误。它的统计意义是:在 y ˆ 3.266 天范围内 约有 68.27%个观察点,在 y ˆ 6.532 天范围内约有 95.45%个观察点等
5.直线回归的数学模型和基本假定 回归分析的依据是直线回归模型。在这一模型中,Y总体的每一个值由以下三部分组成 ①回归截距a,②回归系数β,③Y变数的随机误差ε。因此,总体直线回归的数学模型可 表示为: Y,=a+Bx,+E (10.7) 其中,E1~N(0a2)。相应的样本线性组成为: =a+bx:+ (10.8) 在按上述模型进行回归分析时,假定: (1)Y变数是随机变数,而X变数则是没有误差的固定变数,至少和Y变数比较起来X 的误差小到可以忽略。 (2)在任一X上都存在着一个Y总体(可称为条件总体),它是作正态分布的,其平均 数山yx是x的线性函数 unix=a+B (10.9) y/x的样本估计值j,j与X的关系就是线性回归方程(9.1) (3)所有的Y总体都具有共同的方差G2,这一方差不因X的不同而不同,而直线回 总体具有N(a+Bx,2)。试验所得的一组观察值(x,y)只是Ma+Bx,a2)中的一个随机 样本。 (4)随机误差E相互独立,并作正态分布,具有N(0,2) 因此,模型中的参数共有a,即直线的截距;B,即直线的斜率;σ2,误差的方差。其 样本的相应的估计值为a、b和s3/x 理解上述模型和假定,有助于正确地进行回归分析。 二、直线回归的假设测验 1.回归关系的假设测验 若X和y变数总体并不存在直线回归关系,则随机抽取的一个样本也能用上述方法算得 个直线方程y=a+bx。显然,这样的回归方程是靠不住的。所以对于样本的回归方程,必 须测定其来自无直线回归关系总体的概率大小。只有当这种概率小于005或0.01时,我们才 能冒较小的风险确认其所代表的总体存在着直线回归关系。这就是回归关系的假设测验,其 测验方法有以下三种。 (1)测验由(104)可推知,若总体不存在直线回归关系,则总体回归系数B=0 若总体存在直线回归关系,则B≠0。所以对直线回归的假设测验为H0:B=0对H4:B≠0。 由(10.3)可推得回归系数b的标准误sb为 ∑(x-x)
7 5.直线回归的数学模型和基本假定 回归分析的依据是直线回归模型。在这一模型中,Y总体的每一个值由以下三部分组成: ①回归截距 a,②回归系数 ,③Y 变数的随机误差 。因此,总体直线回归的数学模型可 表示为: Yj X j j = + + (10.7) 其中, ~ (0, ) 2 j N 。相应的样本线性组成为: j j j y = a +bx +e (10.8) 在按上述模型进行回归分析时,假定: (1)Y 变数是随机变数,而 X 变数则是没有误差的固定变数,至少和 Y 变数比较起来 X 的误差小到可以忽略。 (2)在任一 X 上都存在着一个 Y 总体(可称为条件总体),它是作正态分布的,其平均 数 Y / X 是 X 的线性函数: Y / X = a + X (10.9) Y / X 的样本估计值 y ˆ , y ˆ 与 X 的关系就是线性回归方程(9.1)。 (3)所有的 Y总体都具有共同的方差 2 ,这一方差不因 X 的不同而不同,而直线回归 总体具有 2 ( , N a + X )。试验所得的一组观察值(xi,yi)只是 ( , ) 2 N a + X 中的一个随机 样本。 (4)随机误差 相互独立,并作正态分布,具有 (0, ) 2 N 。 因此,模型中的参数共有 a,即直线的截距; ,即直线的斜率; 2 ,误差的方差。其 样本的相应的估计值为 a、b 和 2 y / x s 。 理解上述模型和假定,有助于正确地进行回归分析。 二、直线回归的假设测验 1.回归关系的假设测验 若 X 和 Y 变数总体并不存在直线回归关系,则随机抽取的一个样本也能用上述方法算得 一个直线方程 y ˆ = a + bx 。显然,这样的回归方程是靠不住的。所以对于样本的回归方程,必 须测定其来自无直线回归关系总体的概率大小。只有当这种概率小于0.05 或 0.01时,我们才 能冒较小的风险确认其所代表的总体存在着直线回归关系。这就是回归关系的假设测验,其 测验方法有以下三种。 (1)t 测验 由(10.4)可推知,若总体不存在直线回归关系,则总体回归系数 = 0 ; 若总体存在直线回归关系,则 0 。所以对直线回归的假设测验为 H0 : = 0对HA : 0。 由(10.3)可推得回归系数 b 的标准误 sb 为: x y x y x b SS s x x s s / 2 2 / ( ) = − = (10.10)
(10.11) 遵循v=n2的t分布,故由t值即可知道样本回归系数b来自β=0总体的概率大小 例10.3]试测验例10.1资料回归关系的显著性 在例10.1和10.2已算得b=-1.0995=14263565,/x=3266,故有 3.266 √1446356 1.0996-0 -4.05 0.2715 查附表4,b.057=2.36,b0,严=3.50。现实得t=405大于b0,表明在B=0的总体中因 抽样误差而获得现有样本的概率小于001。所以应否定Ho:B=0,接受H4:B≠0,即认为 积温和一代三化螟盛发期是有真实直线回归关系,或者说此b=-1.0996是极显著的。 (2)F测验当仅以j表示y资料时(不考虑x的影响),y变数具有平方和 S=∑(y-y)2和自由度=m-1。当以j=a+bx表示y资料时(考虑x的影响),则S将 分解成两个部分,即: j)2+∑(-元)2+2∑(y-jj-y) 因为 ∑(y-j)Xj-y)=0 故 上式的∑(y-)2即离回归平方和Q,它和x的大小无关,具有=n-2,已知前述:x(j-y2 则为回归平方和简记作U,它是由x的不同而引起的,具有v=(n-1)-(n-2)=1。在计算U 值时可应用公式 U=∑(y-y)2=SS1-Q= (10.12) 由于回归和离回归的方差比遵循v1=1,2=n-2的F分布,故由 U/1 (10.13) Q(n-2) 即可测定回归关系的显著性 例10.4]试用F测验法检测例10.1资料回归关系的显著性
8 而 b s b t − = (10.11) 遵循 v=n-2 的 t 分布,故由 t 值即可知道样本回归系数 b 来自 =0 总体的概率大小。 [例 10.3] 试测验例 10.1 资料回归关系的显著性。 在例 10.1 和 10.2 已算得 b = −1.0996, SSx =144.6356, s y / x = 3.266 ,故有: 4.05 0.2715 1.0996 0 0.2716 144.6356 3.266 = − − − = = = t sb 查附表 4,t0.05,7=2.36,t0.01,7=3.50。现实得| t | = 4.05 大于 t0.01,7,表明在 = 0 的总体中因 抽样误差而获得现有样本的概率小于 0.01。所以应否定 H0 : = 0 ,接受 H A : 0 ,即认为 积温和一代三化螟盛发期是有真实直线回归关系,或者说此 b = -1.0996 是极显著的。 (2)F 测验 当仅以 y 表示 y 资料时(不考虑 x 的影响),y 变数具有平方和 2 SS ( y y) y = − 和自由度 v = n-1。当以 y ˆ = a + bx 表示 y 资料时(考虑 x 的影响),则 SSy将 分解成两个部分,即: ( ˆ) ( ˆ ) 2 ( ˆ)( ˆ ) ( ) ( ˆ ˆ ) 2 2 2 2 y y y y y y y y y y y y y y = − + − + − − − = − + − 因为 (y − y ˆ)( y ˆ − y) = 0 故 2 2 2 (y − y) = (y − y ˆ) +(y ˆ − y) 上式的 2 (y − y ˆ) 即离回归平方和Q,它和x的大小无关,具有v= n-2,已知前述; 2 (y ˆ − y) 则为回归平方和,简记作 U,它是由 x 的不同而引起的,具有 v = (n −1) −(n − 2) =1 。在计算 U 值时可应用公式 x y SS SP U y y SS Q 2 2 ( ) = ( ˆ − ) = − = (10.12) 由于回归和离回归的方差比遵循 v1 =1, v2 = n − 2 的 F 分布,故由 /( 2) /1 − = Q n U F (10.13) 即可测定回归关系的显著性。 [例 10.4] 试用 F 测验法检测例 10.1 资料回归关系的显著性
在例10.1和10.2已算得S=2495569=74667,故U=249556-746670 1748886,并有方差分析列于表102 表102例10.1资料回归关系的方差分析 回归 174.8886 174.8886 1640 离回归 74.6670 10.6667 249.5556 在表103,得到F=1640>F0,所以同样表明积温和一代三化螟盛发期是有真实直线回 归关系的,即B≠0(准确地说,在B=0的总体中获得现有回归样本的概率小于001) (3)相关系数法 凡符合回归分析的资料都符合相关分析的要求,这样回归分析中也可计算相关系数。对 于直线回归而言,相关系数即标准化的回归系数。因此,同一资料的回归关系与相关关系的 显著与否是一致的,由于相关系数的计算和测验都比较容易,所以在实践中常采用计算相关 系数假设测验来完成对回归关系的假设测验。具体方法待学过直线相关分析即知 上述三种测验方法在任何回归样本上的测验结果都完全一致。因为相关系数的测验就用 的t测验,而在同一概率值下,η=1、n2-2的一尾F值,正好是vn2的两尾t值的平方 即F=。如本例,F=1640,=-405,(-405)2=1640。事实上,由(9.13)可作恒等变换。 F=(SP)"S-(P/SS)b 所以,对直线回归作假设测验,只需选择上述测验方法之一即可。 2.两个回归系数比较时的假设测验若两个直线回归样本,分别具有样本回归系数b1、 b和总体回归系数B1、B2,则在测验b1和b2的差异显著时,有H0:月1-B2=0对 HA:B1-B2≠0。 由抽样分布的理论可以推知(参见抽样分布的标准误公式),两个样本回归系数的差数 标准误S6-b为: S 上式的S5和S2分别为X变数两个样本的平方和,52mx为两个样本回归估计的合并离回归 差,其值为 g1+Q2 (10.15) (10.15)的Q1和Q2分别为两个样本的离回归平方和,m和n为相应的样本容量
9 在例 10.1 和 10.2 已算得 SSy = 249.5556, Q = 74.6670 ,故 U = 249.5556 − 74.6670 = 174.8886,并有方差分析列于表 10.2。 表 10.2 例 10.1 资料回归关系的方差分析 变异来源 DF SS MS F F0.01 回 归 离 回 归 1 7 174.8886 74.6670 174.8886 10.6667 16.40 12.25 总 变 异 8 249.5556 在表 10.3,得到F=16.40>F0.01,所以同样表明积温和一代三化螟盛发期是有真实直线回 归关系的,即 0 (准确地说,在 = 0 的总体中获得现有回归样本的概率小于 0.01)。 (3)相关系数法 凡符合回归分析的资料都符合相关分析的要求,这样回归分析中也可计算相关系数。对 于直线回归而言,相关系数即标准化的回归系数。因此,同一资料的回归关系与相关关系的 显著与否是一致的,由于相关系数的计算和测验都比较容易,所以在实践中常采用计算相关 系数假设测验来完成对回归关系的假设测验。具体方法待学过直线相关分析即知。 上述三种测验方法在任何回归样本上的测验结果都完全一致。因为相关系数的测验就用 的 t 测验,而在同一概率值下,v1=1、v2=n-2 的一尾 F 值,正好是 v=n-2 的两尾 t 值的平方 即 F=t 2。如本例,F=16.40,t=-4.05,(-4.05)2=16.40。事实上,由(9.13)可作恒等变换。 2 2 2 2 / 2 / 2 / ( ) / ( / ) t s b s SS SP SS s SP SS F y x x b x y x x = = = = 所以,对直线回归作假设测验,只需选择上述测验方法之一即可。 2.两个回归系数比较时的假设测验 若两个直线回归样本,分别具有样本回归系数 b1、 b2 和总体回归系数 1 、 2 ,则在测验 b1 和 b2 的差异显著时,有 H0 : 1 − 2 = 0 对 H A : 1 − 2 0 。 由抽样分布的理论可以推知(参见抽样分布的标准误公式),两个样本回归系数的差数 标准误 b1 b2 s − 为: 1 2 1 2 1 2 2 / 2 2 2 / x y x x y x b b b b SS s SS s s − = s + s = + (10.14) 上式的 1 SSx 和 2 SSx 分别为 X 变数两个样本的平方和, 2 y / x s 为两个样本回归估计的合并离回归 差,其值为: ( 2) ( 2) 1 2 2 1 2 / − + − + = n n Q Q s y x (10.15) (10.15)的 Q1 和 Q2 分别为两个样本的离回归平方和,n1 和 n2为相应的样本容量
由于(b1-b2)/Sb-2遵循y=(n1-2)+(n2-2)的t分布,故由 t=b=2 (10.16) 可测定在B1-B2=0的总体中获得现有b-b2≠0的样本的概率 例105]测定两玉米品种叶片长宽乘积(x)和实际叶面积(y)的关系,得表10.3结果, 试测验两回归系数间是否有显著差异。 表10.3玉米叶片长宽乘积和叶面积关系的计算结果 七叶白 65851 0.69718 1420 石榴子 1070822 516863 743652 0.6944 由表10.4可得 1420+420 51.115l.11 =0.0092 V13518241070822 069718-0.69447 0.0092 这一结果是完全不显著的,所以应接受H0:B1=B2,即认为叶片长宽乘积每增大lcm2, 叶面积平均要增大的单位数在七叶白和石榴子两品种上是一致的,其共同值为 b=s4+ 942483+743652 1351824+1070822 =069598(cm2cm2) 注意:上式的b是两个回归系数的加权平均数,它不等于(b+b2)2。 三、直线回归的区间预测 经假设测验表明显著的回归方程可用来进行预测,由于回归方程的建立是用样本数据 它与相应的回归总体有误差,如进行点的预测往往与实际有较大出入,因此,比较科学的办 法应是考虑到误差的大小和坐标点的离散程度,作出区间预测。 1.条件总体平均数山yx的区间预测根据回归模型的定义,每一个X上都有一个变数 的条件总体,该条件总体的平均数为山yx,而其样本估计值为j,其标准误为: 于是预测条件总体平均数山y/x的95%置信区间为
10 由于 1 2 ( )/ 1 2 b b b b s − − 遵循 ( 2) ( 2) v = n1 − + n2 − 的 t 分布,故由 1 2 1 2 b b s b b t − − = (10.16) 可测定在 1 − 2 = 0 的总体中获得现有 b1 −b2 0 的样本的概率。 [例 10.5] 测定两玉米品种叶片长宽乘积(x)和实际叶面积(y)的关系,得表 10.3 结果, 试测验两回归系数间是否有显著差异。 表 10.3 玉米叶片长宽乘积和叶面积关系的计算结果 品 种 N SSx SSy SP B Q 七叶白 石榴子 22 18 1 351 824 1 070 822 658 513 516 863 942 483 743 652 0.69718 0.69447 1 420 420 由表 10.4 可得: 0.3 0.0092 0.69718 0.69447 0.0092 1070822 51.11 1351824 51.11 51.11 (22 2) (18 2) 1420 420 1 2 2 / = − = = + = = − + − + = − t s s b b y x 这一结果是完全不显著的,所以应接受 0 1 2 H : = ,即认为叶片长宽乘积每增大 1cm2, 叶面积平均要增大的单位数在七叶白和石榴子两品种上是一致的,其共同值为: 0.69598 (cm /cm ) 1351824 1070822 1 2 942483 743652 2 2 1 2 = + + = + + = SSx SSx SP SP b 注意:上式的 b 是两个回归系数的加权平均数,它不等于(b1+b2)/2。 三、直线回归的区间预测 经假设测验表明显著的回归方程可用来进行预测,由于回归方程的建立是用样本数据, 它与相应的回归总体有误差,如进行点的预测往往与实际有较大出入,因此,比较科学的办 法应是考虑到误差的大小和坐标点的离散程度,作出区间预测。 1.条件总体平均数 Y / X 的区间预测 根据回归模型的定义,每一个 X 上都有一个变数 的条件总体,该条件总体的平均数为 Y / X ,而其样本估计值为 y ˆ ,其标准误为: SSx x x n S y S y x 2 ˆ / 1 ( − ) = + (10.17) 于是预测条件总体平均数 Y / X 的 95%置信区间为: