第二节一元线性回归 在客观世界中,普遍存在着变量之间的关系数学的一个重要作用就是从数量上来揭示 表达和分析这些关系。而变量之间关系,一般可分为确定的和非确定的两类.确定性关系可 用函数关系表示,而非确定性关系则不然 例如,人的身高和体重的关系、人的血压和年龄的关系、某产品的广告投入与销售额间 的关系等,它们之间是有关联的,但是它们之间的关系又不能用普通函数来表示。我们称这 类非确定性关系为相关关系。具有相关关系的变量虽然不具有确定的函数关系,但是可以借 助函数关系来表示它们之间的统计规律,这种近似地表示它们之间的相关关系的函数被称为 回归函数。回归分析是研究两个或两个以上变量相关关系的一种重要的统计方法 在实际中最简单的情形是由两个变量组成的关系。考虑用下列模型表示Y=f(x).但 是,由于两个变量之间不存在确定的函数关系,因此必须把随机波动考虑进去,故引入模型 如下 Y=f(x)+a 其中γ是随机变量,x是普通变量,ε是随机变量(称为随机误差) 回归分析就是根据已得的试验结果以及以往的经验来建立统计模型,并研究变量间的相 关关系,建立起变量之间关系的近似表达式,即经验公式,并由此对相应的变量进行预测和 控制等 本节主要介绍一元线性回归模型估计、检验以及相应的预测和控制等问题 分布图示 ★引言 ★引例 ★一元线性回归模型 ★最小二乘估计 ★例2 ★最小二乘估计的性质 ★回归方程的检验假设 ★总偏差平方和的分解 ★回归方程的检验方法 ★例3 ★例4 ★预测问题★例 ★控制问题 ★可化一元线性回归的情形 ★ ★内容小结 ★课堂练习 ★习题8-2 返回 内容要点 、引例 为了研究某一化学反应过程中温度x对产品得率Y的影响测得数据如下 温度x,/"C100110120130140150160170180190 温度y/%45515461667074788589 试研究这些数据所蕴藏的规律性 二、一元线性回归模型 一般地,当随机变量y与普通变量x之间有线性关系时,可设 Y=Po+Bx+E (1)
第二节 一元线性回归 在客观世界中, 普遍存在着变量之间的关系.数学的一个重要作用就是从数量上来揭示、 表达和分析这些关系。而变量之间关系, 一般可分为确定的和非确定的两类. 确定性关系可 用函数关系表示, 而非确定性关系则不然. 例如, 人的身高和体重的关系、人的血压和年龄的关系、某产品的广告投入与销售额间 的关系等, 它们之间是有关联的,但是它们之间的关系又不能用普通函数来表示。我们称这 类非确定性关系为相关关系。具有相关关系的变量虽然不具有确定的函数关系,但是可以借 助函数关系来表示它们之间的统计规律,这种近似地表示它们之间的相关关系的函数被称为 回归函数。回归分析是研究两个或两个以上变量相关关系的一种重要的统计方法。 在实际中最简单的情形是由两个变量组成的关系。考虑用下列模型表示 Y = f (x) . 但 是,由于两个变量之间不存在确定的函数关系,因此必须把随机波动考虑进去,故引入模型 如下 Y = f (x) + 其中 Y 是随机变量, x 是普通变量, 是随机变量(称为随机误差)。 回归分析就是根据已得的试验结果以及以往的经验来建立统计模型,并研究变量间的相 关关系,建立起变量之间关系的近似表达式,即经验公式,并由此对相应的变量进行预测和 控制等。 本节主要介绍一元线性回归模型估计、检验以及相应的预测和控制等问题。 分布图示 ★ 引言 ★ 引例 ★ 一元线性回归模型 ★ 最小二乘估计 ★ 例1 ★ 例2 ★ 最小二乘估计的性质 ★ 回归方程的检验假设 ★ 总偏差平方和的分解 ★ 回归方程的检验方法 ★ 例3 ★ 例4 ★ 预测问题 ★ 例5 ★ 控制问题 ★ 可化一元线性回归的情形 ★ 例6 ★ 内容小结 ★ 课堂练习 ★ 习题 8-2 ★ 返回 内容要点 一、引例 为了研究某一化学反应过程中温度 x 对产品得率 Y 的影响. 测得数据如下: / % 45 51 54 61 66 70 74 78 85 89 / 100 110 120 130 140 150 160 170 180 190 i i y x C 温度 温度 试研究这些数据所蕴藏的规律性. 二、一元线性回归模型 一般地,当随机变量 Y 与普通变量 x 之间有线性关系时, 可设 Y = + x + 0 1 , (1)
N(0,a2),其中,B1为待定系数 设(x1,H1),(x2,H2),…(xn,)是取自总体(x,Y)的一组样本而(x2y1),(x2,y2),…,(xn,yn) 是该样本的观察值,在样本和它的观察值中的x,x2,…,xn是取定的不完全相同的数值,而样 本中的HF21…,n在试验前为随机变量,在试验或观测后是具体的数值,一次抽样的结果可 以取得n对数据(x,y1)、(x2,y2)…,(xn2yn),则有 另=B+B1x1+E,=1,2,…,n 其中s,2…,n相互独立。在线性模型中,由假设知 Y-N(Po+Bx, 0), E(Y)=Bo+B 回归分析就是根据样本观察值寻求B0,B1的估计B0,B1 对于给定x值,取 Bo+Pu (4) 作为E(Y)=B+B1x的估计,方程(4)称为Y关于x的线性回归方程或经验公式,其图像称为 回归直线,B1称为回归系数 三、最小二乘估计 对样本的一组观察值(x1,y),(x2y2),…,(xn,yn),对每个x1,由线性回归方程(4)可以确 定一回归值 j1=B0+B1 这个回归值j与实际观察值y之差 y1-y1=y1-B0+B1 刻画了y与回归直线=B0+B1x的偏离度.一个自然的想法就是:对所有x,若y与的 偏离越小,则认为直线与所有试验点拟和得越好 令 Q(B,B)=∑(y2-B0-B1x) 上式表示所有观察值y与回归直线的偏离平方和,刻划了所有观察值与回归直线的
~ (0, ), 2 N 其中 0 1 , 为待定系数。 设 ( , ),( , ), ,( , ) 1 1 2 2 n Yn x Y x Y x 是取自总体 (x,Y) 的一组样本,而 ( , ),( , ), ,( , ) 1 1 2 2 n n x y x y x y 是该样本的观察值,在样本和它的观察值中的 n x , x , , x 1 2 是取定的不完全相同的数值,而样 本中的 Y Y Yn , , , 1 2 在试验前为随机变量,在试验或观测后是具体的数值,一次抽样的结果可 以取得 n 对数据 ( , ),( , ), ,( , ) 1 1 2 2 n n x y x y x y ,则有 i i i y = + x + 0 1 , i =1,2, ,n (2) 其中 n , , , 1 2 相互独立。在线性模型中,由假设知 ~ ( ), 2 Y N 0 + 1 x, E Y x 0 1 ( ) = + (3) 回归分析就是根据样本观察值寻求 0 1 , 的估计 0 1 ˆ , ˆ . 对于给定 x 值, 取 Y x 0 1 ˆ ˆ ˆ = + (4) 作为 E Y x 0 1 ( ) = + 的估计,方程(4)称为 Y 关于 x 的线性回归方程或经验公式,其图像称为 回归直线, 1 ˆ 称为回归系数. 三、最小二乘估计 对样本的一组观察值 ( , ), 1 1 x y ( , ), 2 2 x y …, ( , ), n n x y 对每个 i x , 由线性回归方程(4)可以确 定一回归值 i i y x 0 1 ˆ ˆ ˆ = + , 这个回归值 i y ˆ 与实际观察值 i y 之差 i i i i y y y x 0 1 ˆ ˆ − ˆ = − + 刻画了 i y 与回归直线 y x 0 1 ˆ ˆ ˆ = + 的偏离度. 一个自然的想法就是: 对所有 i x ,若 i y 与 i y ˆ 的 偏离越小, 则认为直线与所有试验点拟和得越好. 令 = = − − n I i i Q y x 1 2 0 1 ( , ) ( ) 上式表示所有观察值 i y 与回归直线 i y ˆ 的偏离平方和, 刻划了所有观察值与回归直线的
偏离度。所谓最小二乘法就是寻求B与月的估计B0,B1,使Q(B0,B1)=mnQB0,B1) 利用微分的方法,求Q关于阳,B1的偏导数,并令其为零,得 G-B-B1x)=0 aP ∑(1-0-Rx)x=0 整理得 nB B Aa+∑=∑形 称此为正规方程组,解正规方程组得 (5) B=2*,yi-nxy 其中x=∑x,y=∑y,若记 ∑x-0--=∑x-m,l1=∑x-=∑x-mn 则 「A=j-B1 PI LL (5)或(6)叫做B0,B1的最小二乘估计.而 Y=Bo+Bix 为y关于x的一元经验回归方程 四、最小二乘估计的性质 定理1若B,B1为B,B1的最小二乘估计,则B,B1分别是0,B1的无偏估计,且
偏离度。所谓最小二乘法就是寻求 0与1 的估计 0 1 ˆ ˆ , ,使 ) min ( , ). ˆ , ˆ ( Q 0 1 = Q 0 1 利用微分的方法,求 Q 关于 0,1 的偏导数, 并令其为零, 得 = − − − = = − − − = = = n i i i i n i i i y x x Q y x Q 1 0 1 1 1 0 1 0 2 ( ) 0 2 ( ) 0 整理得 = + = + = = = = = i n i i n i i n i i n i i n i i x x x y n x y 1 1 1 2 0 1 1 1 1 0 , 称此为正规方程组,解正规方程组得 − = − = − = = n i i n i i i x y nxy x nx y x 1 2 2 1 1 0 1 ˆ ˆ ˆ (5) 其中 = = n i i x n x 1 1 , = = n i i y n y 1 1 , 若记 L x x y y x y nx y n i i i i n i i def xy = = = − − = − 1 1 ( )( ) , = = = − = − n i i n i i def xx L x x x nx 1 2 2 1 2 ( ) , 则 = = − Lxy Lxx y x 1 0 1 ˆ ˆ ˆ ˆ (6) (5) 或 (6) 叫做 0 1 , 的最小二乘估计. 而 Y x 0 1 ˆ ˆ ˆ = + 为 Y 关于 x 的一元经验回归方程. 四、最小二乘估计的性质 定理 1 若 0 1 ˆ , ˆ 为 0 1 , 的最小二乘估计,则 0 1 ˆ , ˆ 分别是 0 1 , 的无偏估计, 且 + Lxx x n N 2 2 0 0 1 ~ , ˆ , Lxx N 2 1 1 ~ , ˆ ()
五、回归方程的检验假设 前面关于线性回归方程y=B+B1x的讨论是在线性假设Y=B+B1x+ E~N(0,a2)下进行的这个线性回归方程是否有实用价值,首先要根据有关专业知识和实 践来判断,其次还要根据实际观察得到的数据运用假设检验的方法来判断 由线性回归模型Y=B+月1x+E,E~N(0.a2)可知,当B1=0时,就认为y与x之间不 存在线性回归关系,故需检验如下假设 H0:B1=0,H1:B1≠0. 为了检验假设H0,先分析对样本观察值y,y2…,yn的差异,它可以用总的偏差平方和 来度量,记为 由正规方程组,有 =∑(,-j2+2∑(--y+∑(-y)2 j)2+∑(-y 令S曰=∑(-y)2,S利=∑(y1-),则有 =S剩+Sp 上式称为总偏差平方和分解公式.S回称为回归平方和它由普通变量x的变化引起的,它的 大小(在与误差相比下)反映了普遍变量x的重要程度,S称为剩余平方和,它是由试验误差 以及其它未加控制因素引起的它的大小反映了试验误差及其它因素对试验结果的影响关于 S和S剩,有下面的性质: 定理2在线性模型假设下,当H成立时,B1与S剩相互独立,且 x2(n-2),S曰a2~x2(1) 对H的检验有三种本质相同的检验方法:
五、回归方程的检验假设 前面关于线性回归方程 y x 0 1 ˆ ˆ ˆ = + 的讨论是在线性假设 Y = + x + 0 1 , ~ (0, ) 2 N 下进行的. 这个线性回归方程是否有实用价值, 首先要根据有关专业知识和实 践来判断,其次还要根据实际观察得到的数据运用假设检验的方法来判断. 由线性回归模型 Y = + x + 0 1 , ~ (0, ) 2 N 可知,当 1 = 0 时,就认为 Y 与 x 之间不 存在线性回归关系,故需检验如下假设: : 0, H0 1 = H1 : 1 0 . 为了检验假设 H0 , 先分析对样本观察值 n y , y , , y 1 2 的差异,它可以用总的偏差平方和 来度量, 记为 2 1 ( ) = = − n i i S总 y y , 由正规方程组, 有 2 1 ( ˆ ˆ ) = = − + − n i i i i S总 y y y y = 2 1 1 1 2 ( ˆ) 2( ˆ )(ˆ ) ( ˆ ) = = = − + − − + − n i i n i i i i n i i y y y y y y y y = 2 1 2 1 ( ˆ ) ( ˆ ) = = − + − n i i n i i i y y y y . 令 2 1 ( ˆ ) = = − n i i S回 y y , 2 1 ( ˆ ) = = − n i i i S剩 y y , 则有 S总 = S剩 +S回 上式称为总偏差平方和分解公式. S回 称为回归平方和,它由普通变量 x 的变化引起的,它的 大小(在与误差相比下)反映了普遍变量 x 的重要程度; S剩 称为剩余平方和,它是由试验误差 以及其它未加控制因素引起的,它的大小反映了试验误差及其它因素对试验结果的影响.关于 S回 和 S剩 ,有下面的性质: 定理 2 在线性模型假设下, 当 H0 成立时, 1 ˆ 与 S剩 相互独立, 且 / ~ ( 2), 2 2 S剩 n − / ~ (1). 2 2 S回 对 H0 的检验有三种本质相同的检验方法:
T一检验法;F一检验法;相关系数检验法. 在介绍这些检验方法之前,先给出S8,S回,S的计算方法 8=∑(1-)2=∑y2-听2Ly S回=RLx=BLy B,L 1.T-检验法 由定理1,(B1-B)(a/√Lx)~NO,若令G2=S剩(n-2),则由定理2知,G为a2 的无偏估计,(n-2)2/o2=S/a2-x2(n-2),且(B1-B1)(o/√Lx)与(n-2)02/a2相 互独立.故取检验统计量 B1 由给定的显著性水平a,查表得ta2(m-2),根据试验数据(x,y1)(x2,y2)…,(x,yn)计 算7的值t,当|tta2(m-2)时,拒绝H,这时回归效应显著,当rkan2(m-2)时,接受Ho 此时回归效果不显著 2.F-检验法 由定理2,当H为真时,取统计量 S回~F(n-2) 由给定显著性水平α,査表得F(1,n-2),根据试验数据(x1,y1)(x2,y2),…(xn,yn)计算 F的值,若F>F(1,n-2)时,拒绝H0,表明回归效果显著;若F≤F(1,n-2)时,接受H0, 此时回归效果不显著 3.相关系数检验法 由第四章知,相关系数的大小可以表示两个随机变量线性关系的密切程度.对于线性回 归中的变量x与Y,其样本的相关系数为 ∑(x-x)0x-F) (-Y) 它反映了普通变量x与随机变量Y之间的线性相关程度.故取检验统计量
T —检验法; F —检验法;相关系数检验法. 在介绍这些检验方法之前, 先给出 S总 , S回 , S剩 的计算方法. = = = − = − n i n i i i def Lyy S y y y ny 1 1 2 2 2 总 ( ) S Lxx 1Lxy 2 1 ˆ ˆ 回 = = S Lyy 1Lxy ˆ 剩 = − 1. T −检验法 由定理 1, ) /( / ) ~ (0,1), ˆ (1 − 1 Lxx N 若令 ˆ /( 2), 2 = S剩 n − 则由定理 2 知, ˆ 为 2 的无偏估计, 2 2 (n − 2) ˆ = ~ ( 2), 2 2 S剩 n − 且 ) /( / ) ˆ (1 − 1 Lxx 与 2 2 (n − 2) ˆ / 相 互独立. 故取检验统计量 ~ ( 2) ˆ ˆ 1 T = Lxx t n − , 由给定的显著性水平 ,查表得 ( 2) t 2 n − ,根据试验数据 ( , ),( , ), ,( , ) 1 1 2 2 n n x y x y x y 计 算 T 的值 t , 当 | | ( 2) t t 2 n − 时,拒绝 H0 ,这时回归效应显著; 当 | | ( 2) t t 2 n − 时,接受 H0 , 此时回归效果不显著. 2. F −检验法 由定理 2, 当 H0 为真时, 取统计量 ~ (1, 2) ( 2) − − = F n S n S F 剩 回 由给定显著性水平 , 查表得 F (1, n − 2) , 根据试验数据 ( , ),( , ), ,( , ) 1 1 2 2 n n x y x y x y 计算 F 的值, 若 F F (1, n − 2) 时, 拒绝 H0 , 表明回归效果显著;若 F F (1, n − 2) 时, 接受 H0 , 此时回归效果不显著. 3. 相关系数检验法 由第四章知,相关系数的大小可以表示两个随机变量线性关系的密切程度. 对于线性回 归中的变量 x 与 Y ,其样本的相关系数为 xx yy xy n i i n i i n i i i L L L x x Y Y x x Y Y = − − − − = = = = 1 2 1 2 1 ( ) ( ) ( )( ) , 它反映了普通变量 x 与随机变量 Y 之间的线性相关程度. 故取检验统计量