章 第九章回归与相关分析 课时 4 &9.1回归和相关分析概述 节 &9.2直线回归分析 &9.3直线相关分析 督酷 通过讲授,使学生了解回归与相关分析:弄清回归与相关的区别与联系。 掌握简单相关分析和一元直线回归分析的方法和意义。 教学 本章的重点是对直线回归方程的实际应用。 重点 直线回归方程拟合原理,直线回归分析各统计区间估计的计算与统计意义 教学 的分析。 难点 方法:通过绘图与统计原理结合,讲思路与推导结果,使学生理解以至会 灵活应用,而不讲授公式的完整推导过程,重在应用。 相关素材(参考资料、指导学生阅读材料等): 列出主要参考文献 1. 《试验统计方法》,盖钧镒主编,中国农业出版社,2000。 2. 《试验设计与统计分析》,金益主编,中国农业出版社,2007。 3. 《SAS统计分析教程》,唐燕琼主编,中国农业出版社,2006。 4. 《试验统计引论》,韩汉鹏主编,中国林业出版社,2006。 5. 《热带作物的试验设计与统计分析》,林德光著,华南热带农业大学,1985。 6. 《生物统计的数学原理》,林德光,辽宁人民出版社,1982。 7. 《试验设计与统计分析学习指导》,黄亚群主编,中国农业出版社,2008。 8. 《果树试验设计与统计》,刘权主编,中国农业出版社,1997。 9. 《肥料试验及统计分析》,陶勤南主编,中国农业出版社,1997 10.《食品试验设计与统计分析》,王钦德主编,中国农业出版社,2002。 《试验设计与分析》,袁志发主编,高等教育出版社,2000
1 章 第九章 回归与相关分析 课时 4 节 &9.1 回归和相关分析概述 &9.2 直线回归分析 &9.3 直线相关分析 教学 目的 通过讲授,使学生了解回归与相关分析;弄清回归与相关的区别与联系。 掌握简单相关分析和一元直线回归分析的方法和意义。 教学 重点 本章的重点是对直线回归方程的实际应用。 教学 难点 直线回归方程拟合原理,直线回归分析各统计区间估计的计算与统计意义 的分析。 方法:通过绘图与统计原理结合,讲思路与推导结果,使学生理解以至会 灵活应用,而不讲授公式的完整推导过程,重在应用。 相关素材(参考资料、指导学生阅读材料等): 列出主要参考文献 1. 《试验统计方法》,盖钧镒主编,中国农业出版社,2000。 2. 《试验设计与统计分析》,金益主编,中国农业出版社,2007。 3. 《SAS 统计分析教程》,唐燕琼主编,中国农业出版社,2006。 4. 《试验统计引论》,韩汉鹏主编,中国林业出版社,2006。 5. 《热带作物的试验设计与统计分析》,林德光著,华南热带农业大学,1985。 6. 《生物统计的数学原理》,林德光,辽宁人民出版社,1982。 7. 《试验设计与统计分析学习指导》,黄亚群主编,中国农业出版社,2008。 8. 《果树试验设计与统计》,刘权主编,中国农业出版社,1997。 9. 《肥料试验及统计分析》,陶勤南主编,中国农业出版社,1997。 10. 《食品试验设计与统计分析》,王钦德主编,中国农业出版社,2002。 《试验设计与分析》,袁志发主编,高等教育出版社,2000
教师授课思路、设问及讲解要点 一、引言 前面学的试验结果的统计方法,都是属于同一类数的测验,如作物的产量, 发病率等,这些都有是不同品种或不同处理对某一类变数的效应,但我们在生产 试验中,常会遇到二类变数以及两类以上变数间关系。例如,土、肥、种、水等 任何一个与产量的关系,新梢生长量与坐果率的关系,橡胶白粉病与越冬菌量的 关系:研究每亩穗数、每穗粒数和每亩产量的关系,就有穗数、粒数和产量三 个变数。本章介绍两个以上变数的统计分析方法。 二、教学内容正文(含讲课内容、提问设计、课堂练习等) &9.1回归和相关分析概述 在农林科研中,同一现象中的若干变量往往存在着统计相关关系,它们虽互 相依存,但一般来说,其中一个并不能由其余几个完全确定。 一、变量间的关系分为两类: 函数关系:完全确定性的关系 一可用精确的数学式来表示: 统计关系:不存在完全确定性的关系一一不能用精确的数学式来表示。 统计相关关系有两种:因果关系,如种植因,作物产量是果:另一种是平等关 系,即两变量是互为因果或有共同的因,它们表现出一定程度的借同变异。如玉 米穗长和穗粗,大豆的每荚粒数和粒重,是偕同变量而不是谁决定谁。 程 统计关系这一类变量间的关系就是统计学中回归分析与相关分析所要讨论的 问题。 二、回归、相关分析的任务与类型 常用x、y来表示两个变量,(x,y)的各对观察值用(x,y),(x,y),(x,y) 表示。 在统计上,x和y变量的关系有两种理论模型:回归模型和相关模型。 在回归模型中,X是固定的(试验时预先确定的),没有误差或误差很小, 而Y则不仅随X的变化而变化,并且有随机误差,一般X叫自变数,Y叫因变数 回归分析目的:导出由x来预测或控制y的回归方程,即确定当自变量x为 某一值时依变量y将会在什么范围内变化。 在相关模型中,其x和y变量是平行变化关系,皆具有随机误差,因而不能 区别哪一个自变数,依变数,也不具有预测性质。 相关分析目的:确定两个变量在数量关系上的密切程度和性质。不能用一个 或多个变量去预测、控制另一个变量的变化。 回归分析的类型:一元回归分析(直线和曲线回归分析)为 多元线性回归分析和曲面回归分析)
2 教 学 过 程 教师授课思路、设问及讲解要点 一、引言 前面学的试验结果的统计方法,都是属于同一类数的测验,如作物的产量, 发病率等,这些都有是不同品种或不同处理对某一类变数的效应,但我们在生产 试验中,常会遇到二类变数以及两类以上变数间关系。例如,土、肥、种、水等 任何一个与产量的关系,新梢生长量与坐果率的关系,橡胶白粉病与越冬菌量的 关系;研究每亩穗数、每穗粒数和每亩产量的关系,就有穗数、粒数和产量三 个变数。本章介绍两个以上变数的统计分析方法。 二、教学内容正文(含讲课内容、提问设计、课堂练习等) &9.1 回归和相关分析概述 在农林科研中,同一现象中的若干变量往往存在着统计相关关系,它们虽互 相依存,但一般来说,其中一个并不能由其余几个完全确定。 一、变量间的关系分为两类: 函数关系:完全确定性的关系——可用精确的数学式来表示; 统计关系:不存在完全确定性的关系——不能用精确的数学式来表示。 统计相关关系有两种:因果关系,如种植因,作物产量是果;另一种是平等关 系,即两变量是互为因果或有共同的因,它们表现出一定程度的偕同变异。如玉 米穗长和穗粗,大豆的每荚粒数和粒重,是偕同变量而不是谁决定谁。 统计关系这一类变量间的关系就是统计学中回归分析与相关分析所要讨论的 问题。 二、回归、相关分析的任务与类型 常用 x、y 来表示两个变量,(x,y)的各对观察值用(x1,y1),(x2,y2),.,(xn,yn) 表示。 在统计上,x 和 y 变量的关系有两种理论模型:回归模型和相关模型。 在回归模型中,X 是固定的(试验时预先确定的),没有误差或误差很小 , 而 Y 则不仅随 X 的变化而变化,并且有随机误差,一般 X 叫自变数,Y 叫因变数。 回归分析目的:导出由 x 来预测或控制 y 的回归方程,即确定当自变量 x 为 某一值时依变量 y 将会在什么范围内变化。 在相关模型中,其 x 和 y 变量是平行变化关系,皆具有随机误差,因而不能 区别哪一个自变数,依变数,也不具有预测性质。 相关分析目的:确定两个变量在数量关系上的密切程度和性质。不能用一个 或多个变量去预测、控制另一个变量的变化。 回归分析的类型:一元回归分析(直线和曲线回归分析); 多元线性回归分析和曲面回归分析)
相关分析的类型:直线相关分析: 复相关分析。 偏相关分析。 三、两个变数资料的散点图 对具有统计关系的两个变数的资料进行初步考察的简便而有效的方法,是将 这两个变数的n对观察值(x,y)、(x,y)、·、(x,y)分别以坐标点的形式标 记于同一直角坐标平面上,获得散点图(scatter diagram))。 根据散点图可初步判定双变数X和y间的关系 ①X和Y相关的性质(正或负)和密切程度 ②X和Y的关系是直线型的还是非直线型的 ③是否有一些特殊的点表示着其他因素的干扰 320 0.5 . 教 0.0 0 2 3 4 x,生物产量(g) 图9.1A水稻单株生物产量与稻谷产量的散点图 75 ÷60 。 50 2.83.23.6 4 4.44.8 x,每2额花数(万) 图9.1B水稻每m2颖花数和结实率的散点图 450 400 350 300 250 200 2 3456789 x,最高叶面积指数 图9.1C水稻最高叶面积指数和亩产量的散点图
3 教 学 过 程 相关分析的类型:直线相关分析; 复相关分析。 偏相关分析。 三、两个变数资料的散点图 对具有统计关系的两个变数的资料进行初步考察的简便而有效的方法,是将 这两个变数的 n 对观察值(x1,y1)、(x2,y2)、.、(xn,yn)分别以坐标点的形式标 记于同一直角坐标平面上,获得散点图(scatter diagram)。 根据散点图可初步判定双变数 X 和 Y 间的关系 ①X 和 Y 相关的性质(正或负)和密切程度 ②X 和 Y 的关系是直线型的还是非直线型的 ③是否有一些特殊的点表示着其他因素的干扰 x,生物产量(g) 图 9.1A 水稻单株生物产量与稻谷产量的散点图 x,每 m2 颖花数(万) 图 9.1B 水稻每 m2 颖花数和结实率的散点图 x,最高叶面积指数 图 9.1C 水稻最高叶面积指数和亩产量的散点图 0.0 0.5 1.0 1.5 2.0 0 1 2 3 4 y,稻谷产量(g) 50 55 60 65 70 75 2.8 3.2 3.6 4 4.4 4.8 y ,结实率(%) 200 250 300 350 400 450 2 3 4 5 6 7 8 9 y ,产量(kg/亩)
&9.2直线回归分析 一、直线回归方程的建立 设变量x与y间存在直线关系,根据n对观察值所描出的散点图如下。 i=a+bx →X 图9一2直线回归散点图 教 总体直线回归方程:y=a+Bx 实际观察值可表示为: 学 y,=a+Bx+8(i=l,2,.,n) 8为随机误差,与a、B相互独立,且服从N(0,σ)。这就是直线回归的数学 过 模型 根据样本实际观察值对α、B以及误差方差。2作出估计,即建立样本回归 方程并估计出误差的大小。 设样本直线回归方程为:=a+br 总体直线回归方程: y=a+B x 其中a是a的估计值,称为回归截距 b是B的估计值,称为回归系数,表示自变量每改变一个单位数时,依变量 y平均改变的单位数(6>0时,增加:b<0时,减少) 回归方程的基本条件(性质): 性质1Q=∑0y-)2=最小 性质2∑y-)=0 性质3回归直线通过点(不,) Q=∑y-)2=∑[y-(a+bx)f 利用最小二乘法,即Q最小的方法求a与b的值。根据微积分学中求极值 原理,将Q对a与b求偏导数并令其等于0:
4 教 学 过 程 &9.2 直线回归分析 一、直线回归方程的建立 设变量 x 与 y 间存在直线关系,根据 n 对观察值所描出的散点图如下。 图9—2 直线回归散点图 总体直线回归方程:y=α+βx 实际观察值可表示为: yi =α+βxi+i (i=1,2,.,n) i为随机误差,与α、β相互独立,且服从 N(0, 2 )。这就是直线回归的数学 模型 根据样本实际观察值对α、β以及误差方差 2 作出估计, 即建立样本回归 方程并估计出误差的大小。 设样本直线回归方程为: y ˆ = a + bx 总体直线回归方程: y=α+βx 其中 a 是 的估计值,称为回归截距; b 是β的估计值,称为回归系数,表示自变量每改变一个单位数时, 依变量 y 平均改变的单位数(b>0 时,增加;b<0 时,减少) 回归方程的基本条件(性质): 性质1 最小 性质 2 (y − y ˆ) = 0 性质 3 回 归 直 线 通 过 点 = − = − + 2 2 ( ˆ ) ( ) i i i a bxi Q y y y 利用最小二乘法,即Q最小的方法求 a 与 b 的值。根据微积分学中求极值的 原理,将 Q 对 a 与 b 求偏导数并令其等于 0: y ˆ = a + bx = − = 2 Q (y y ˆ) (x, y)
.-2∑0y-a-bx)=0 aa ab =-2∑0y-a-bx)x=0 整理后可得: m+(∑xb=∑y (∑xa+(∑x)b=∑xy 上式叫做a与b的正规方程组。 解之可得: h-∑-∑x∑n ∑x2-(∑x)21n a=p-b标 简记为: 举 b2”-n ∑x2-(∑x)21n 学 a=-b饭 Σ(x-y-列=Σxy-Σx∑y/n称之为x与y的离均差乘积和,简称为乘积 和,记为SP,。 若记ss.=∑x2-(Ex)2/n,则 b=SP SS, a=-b a、b是a、B的最小二乘估计也是无偏估计。 例[9.1]一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年 测定3月下旬至4月中旬旬平均温度累积值(x,旬.度)和水稻一代三化螟胜发期 (y,以5月10日为0)的关系,得结果于表9.1。试计算其直线回归方程。 表9.1累积温和一代三化螟胜发期的关系 积累温(x)5.534.131.740.336.840.231.739.244.2 盛发期(y)12169273139-1 解: n=9 ∑x=333.7 元=37.0778 SS,=(n-10S2=144.6356
5 教 学 过 程 = − − − = = − − − = 2 ( ) 0 2 ( ) 0 i i i i i y a bx x b Q y a bx a Q 整理后可得: + = + = i i i i i i x a x b x y na x b y 2 ( ) ( ) ( ) 上式叫做 a 与 b 的正规方程组。 解之可得: a y bx x x n x y x y n b i i i i i i = − − − = ( ) / ( )( )/ 2 2 简记为: a y bx x x n xy x y n b = − − − = ( ) / ( )( )/ 2 2 (x − x)(y − y) = xy−x y / n 称之为 x 与 y 的离均差乘积和, 简称为乘积 和,记为 SPxy 。 若记 ssx=∑x 2 -(∑x) 2/n,则 a y bx b SPxy SSx = − = / a、b 是α、β的最小二乘估计也是无偏估计。 例[9.1]一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续 9 年 测定 3 月下旬至 4 月中旬旬平均温度累积值(x,旬.度)和水稻一代三化螟胜发期 (y,以 5 月 10 日为 0)的关系,得结果于表 9.1。试计算其直线回归方程。 表 9.1 累积温和一代三化螟胜发期的关系 积累温(x) 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2 盛发期(y) 12 16 9 2 7 3 13 9 -1 解: ( 1) 144.6356 333.7 37.0778 9 2 = − = = = = SSx Sx n x x n