免费下载网址ht:jiaoxue5uys168.com 是反映变量x与y之间的线性相关关系密切程度的一个重要指标。根据上述定义,有 R ∑(-y_,∑(- 332相关系数检验法 相关系数是用来衡量一元线性回归模型中两个变量之间线性相关关系强弱程度的指标。 般说来,相关系数愈大说明两个变量之间的线性相关关系愈强。但相关系数的绝对值大到什么 程度时,才能认为两变量之间的线性相关关系是显著的,回归模型用来预测是有意义的?对于 不同组数的观测值,不同数值的显著性水平,衡量的标准是不同的。这一数量界限的确定只有 根据具体的条件和要求,通过相关系数检验法的检验才能加以判别。相关系数检验法的步骤如 1.计算相关系数R 2.根据回归模型的自由度(n-2)和给定的显著性水平α值,从相关系数临界值表中查出 临界值R(n-2) 3.判别。若R>R(n-2),表明两变量之间线性相关关系显著,检验通过,这时回归模 型可以用来预测;若R|≤R(n-2),表明两变量之间线性相关关系不显著,检验未通过。在 这种情况下,回归模型不能用来进行预测。这时,应分析其原因,对回归模型重新调整。 333F检验法 构造F统计量 ∑(G-)2 Q (z-)b(z-)、(-)=H 可以证明F服从第一自由度为1,第二自由度为n-2的F分布。对给定的显著性水平 查F分布表可得临界值F(,n-2)。 若F>F,则认为两变量之间线性相关关系显著;反之,若F≤F,则认为两变量之间线 性相关关系不显著。 334t检验法 检验法是检验ab是否显著异于0的方法。我们以对b检验为例来说明t检验法的步骤。 构造t统计量t 其中S; ∑(-y) V(-2∑x V(-2)x,5S称为b的样本标准差可以证明t=服 从自由度为(n-2)的t分布。查t分布表得临界值la2(n-2)。若t>ln2(n-2),则认为 显著异于0,反之,若1≤l2(n-2),则认为b不显著异于0。 对于a是否显著异于0的检验过程与此完全相同 335预测区间 1.点估计 在一元线性回归模型中,对于自变量x的一个给定值,代入回归模型,就可以求得一个对 应的回归预测值,又称为点估计值。 设预测点为(x0,y0),则预测值为 解压密码联系qq1139686加微信公众号 Jlaoxuewuyou九折优惠!淘宝网址 jiaoxuesu.taobao.com
免费下载网址 http://jiaoxue5u.ys168.com/ 解压密码联系 qq 1119139686 加微信公众号 jiaoxuewuyou 九折优惠!淘宝网址: jiaoxue5u.taobao.com 是反映变量 x 与 y 之间的线性相关关系密切程度的一个重要指标。根据上述定义,有 − − = − − − = 2 2 2 2 2 ( ) ( ˆ) 1 ( ) ( ˆ ) y y y y y y y y R i i i i 3.3.2 相关系数检验法 相关系数是用来衡量一元线性回归模型中两个变量之间线性相关关系强弱程度的指标。一 般说来,相关系数愈大说明两个变量之间的线性相关关系愈强。但相关系数的绝对值大到什么 程度时,才能认为两变量之间的线性相关关系是显著的,回归模型用来预测是有意义的?对于 不同组数的观测值,不同数值的显著性水平,衡量的标准是不同的。这一数量界限的确定只有 根据具体的条件和要求,通过相关系数检验法的检验才能加以判别。相关系数检验法的步骤如 下: 1.计算相关系数 R; 2.根据回归模型的自由度(n-2)和给定的显著性水平 值,从相关系数临界值表中查出 临界值 R (n − 2) ; 3.判别。若|R|> R (n − 2) ,表明两变量之间线性相关关系显著,检验通过,这时回归模 型可以用来预测;若|R| R (n − 2) ,表明两变量之间线性相关关系不显著,检验未通过。在 这种情况下,回归模型不能用来进行预测。这时,应分析其原因,对回归模型重新调整。 3.3.3 F 检验法 构造 F 统计量 ( ˆ ) /( 2) /( 2) ( ˆ ) 1 2 2 2 − = − − − = Q n Q y y n y y F i i i 可以证明 F 服从第一自由度为 1,第二自由度为 n-2的F分布。对给定的显著性水平 , 查F分布表可得临界值 F (1,n − 2) 。 若F> F ,则认为两变量之间线性相关关系显著;反之,若F F ,则认为两变量之间线 性相关关系不显著。 3.3.4 t 检验法 t 检验法是检验 a, b 是否显著异于0的方法。我们以对 b 检验为例来说明 t 检验法的步骤。 构造 t 统计量 b S b t ˆ ˆ = 其中 − = − − = 2 1 2 2 ˆ ( 2) ( 2) ( ˆ ) i i i i b n x Q n x y y S , b S ˆ 称为 b ˆ 的样本标准差。可以证明 b S b t ˆ ˆ = 服 从自由度为(n-2)的 t 分布。查 t 分布表得临界值 ( 2) t / 2 n − 。若 t> ( 2) t / 2 n − ,则认为 b 显著异于0,反之,若 t ( 2) t / 2 n − ,则认为 b 不显著异于0。 对于 a 是否显著异于0的检验过程与此完全相同。 3.3.5 预测区间 1.点估计 在一元线性回归模型中,对于自变量 x 的一个给定值,代入回归模型,就可以求得一个对 应的回归预测值,又称为点估计值。 设预测点为 ( , ) 0 0 x y ,则预测值为: 0 0 ˆ y ˆ = a ˆ +bx
免费下载网址ht:jiaoxue5uys168.com 2.区间估计 所谓预测区间就是指在一定的显著性水平上,依据数理统计方法计算出的包含预测对象未 来真实值的某一区间范围。 设其预测误差为 由于y0和都服从正态分布,所以e也服从正态分布,其期望值与方差分别为 E(e)=E(y-y0)=E(y0)-E()=0 D(en)=D(y-j)=DM)+D()=a2++(x一x)2 n∑(x,-x) 所以,eo~N(0,1+-+ 通过上述分析,可以得到,在显著性水平为a时,预测值yo的预测区间为: y千la2(n-2)S 当实际观测值较多,满足大样本条件(一般n>30)时,式(中根式的值近似地等于1, 式中的La2(n-2)也近似趋于正态分布Za2,因此,可简化为: 335几个应当注意的问题 1.重视数据的收集和甄别 在收集数据的过程中可能会遇到以下困难 (1)一些变量无法直接观测 (2)数据缺失或出现异常数据。 (3)数据量不够 (4)数据不准确、不一致、有矛盾 2.合理确定数据的单位 在建立回归方程时,如果不同变量的单位选取不适当,导致模型中各变量的数量级差异悬 殊,往往会给建模和模型解释带来诸多不便。比如模型中有的变量用小数位表示,有的变量用 百位或千位数表示,可能会因舍入误差使模型计算的准确性受到影响。因此,适当选取变量的 单位,使模型中各变量的数量级大体一致是一种明智的做法。 336举例 例江苏省1986-2003年国内生产总值和固定资产投资完成额数据如表331所示。 解压密码联系qq1139686加微信公众号 Jlaoxuewuyou九折优惠!淘宝网址 jiaoxuesu.taobao.com
免费下载网址 http://jiaoxue5u.ys168.com/ 解压密码联系 qq 1119139686 加微信公众号 jiaoxuewuyou 九折优惠!淘宝网址: jiaoxue5u.taobao.com 2.区间估计 所谓预测区间就是指在一定的显著性水平上,依据数理统计方法计算出的包含预测对象未 来真实值的某一区间范围。 设其预测误差为: 0 0 0 e = y − y ˆ 由于 0 y 和 0 y ˆ 都服从正态分布,所以 0 e 也服从正态分布,其期望值与方差分别为: E(e0 ) = E(y0 − y ˆ 0 ) = E(y0 ) − E(y ˆ 0 ) = 0 2 2 2 2 0 0 0 0 0 0 ( ) 1 ( ) ( ) ( ˆ ) ( ) ( ˆ ) − − = − = + = + + x x x x n D e D y y D y D y i 2 2 2 0 ( ) 1 ( ) 1 − − = + + x x x x n i 所以, ) ( ) 1 ( ) ~ (0, 1 2 2 2 0 0 − − + + x x x x n e N i 令 2 2 2 2 0 0 ( ) 1 ( ) 1 y i S x x x x n S − − = + + 通过上述分析,可以得到,在显著性水平为 时,预测值 0 y ˆ 的预测区间为: 0 y ˆ / 2 0 t (n − 2)S 当实际观测值较多,满足大样本条件(一般 n >30)时,式(中根式的值近似地等于1, 式中的 ( 2) t / 2 n − 也近似趋于正态分布 Z / 2 ,因此,可简化为: Z Sy y 0 / 2 ˆ 3.3.5 几个应当注意的问题 1.重视数据的收集和甄别 在收集数据的过程中可能会遇到以下困难: (1)一些变量无法直接观测。 (2)数据缺失或出现异常数据。 (3)数据量不够。 (4)数据不准确、不一致、有矛盾。 2. 合理确定数据的单位 在建立回归方程时,如果不同变量的单位选取不适当,导致模型中各变量的数量级差异悬 殊,往往会给建模和模型解释带来诸多不便。比如模型中有的变量用小数位表示,有的变量用 百位或千位数表示,可能会因舍入误差使模型计算的准确性受到影响。因此,适当选取变量的 单位,使模型中各变量的数量级大体一致是一种明智的做法。 3.3.6 举例 例 江苏省 1986-2003 年国内生产总值和固定资产投资完成额数据如表 3.3.1 所示
免费下载网址ht:jiaoxue5uys168.com 表3.31一元线性回归模型计算表 单位;亿元 年份固定资产投国内生产 资完成额x总值 241.23 744.94 58191.91554935.6 179701.9 1987 317.12 924.33 100565.1|850694.6 292489.3 371.87 38287.31461318 989 102547.3|1747287 356.3 1416.5 126949.72006472 504699 1991 439,98 1601.38|193584.4256448 704575.2 711.7 506516.94562581 1144.2 2998.16 8988963 343049 1994 1331.13 4057.39177190716462414 5400914 1680.17 5155.252822971 26576603 8661696 1996 1949.53 6004.2 3800667 36050538 11705388 6680.34 14717390 2535.5 7199.95 642876051839280 18255473 1999 2744.65 7697.827522129 59256433 21112426 2000 3304.96 9511.911090954590476432 31417458 2002 3849.24 10631.751481664911303410840924157 2003 5335.8 12451.82847076215504732366440314 31828.1390323.1892905430|689769996251849180.4 数据来源:《江苏统计年鉴》 试配合适当的回归模型并进行显著性检验:若2004年该省固定资产投资完成额为5922亿 元,当显著性水平a=0.05时,试估计2004年其国内生产总值的预测区间。 解 1.绘制散点图 设国内生产总值为y,固定资产投资完成额为x,绘制散点图(图略),由散点图可以看出两 者呈线性关系,可以建立一元线性回归模型 2.设一元线性回归方程为 3.计算回归系数 列表计算有关数据(见表48.1),并计算出回归系数估计值 6=少2-2y=18×18918031828×90323=25152 ∑x-(∑x) 18×92905430-31828 ∑y∑x90323 31828 n 182.51562 所求回归预测方程为:j=56976+251562x 4.检验线性关系的显著性 由于在一元线性回归情形,相关系数检验、F检验、t检验的结果一致,此处仅给出相关系 数检验 解压密码联系qq1139686加微信公众号 Jlaoxuewuyou九折优惠!淘宝网址 jiaoxuesu.taobao.com
免费下载网址 http://jiaoxue5u.ys168.com/ 解压密码联系 qq 1119139686 加微信公众号 jiaoxuewuyou 九折优惠!淘宝网址: jiaoxue5u.taobao.com 表 3.3.1 一元线性回归模型计算表 单位;亿元 年 份 固定资产投 资完成额 x 国内生产 总值 y x 2 y 2 xy 1986 241.23 744.94 58191.91 554935.6 179701.9 1987 317.12 924.33 100565.1 850694.6 292489.3 1988 371.87 1208.85 138287.3 1461318 449535 1989 320.23 1321.85 102547.3 1747287 423296 1990 356.3 1416.5 126949.7 2006472 504699 1991 439.98 1601.38 193584.4 2564418 704575.2 1992 711.7 2136.02 506516.9 4562581 1520205 1993 1144.2 2998.16 1309194 8988963 3430495 1994 1331.13 4057.39 1771907 16462414 5400914 1995 1680.17 5155.25 2822971 26576603 8661696 1996 1949.53 6004.21 3800667 36050538 11705388 1997 2203.09 6680.34 4853606 44626943 14717390 1998 2535.5 7199.95 6428760 51839280 18255473 1999 2744.65 7697.82 7522129 59256433 21112426 2000 2995.43 8584.73 8972601 73663254 25708967 2001 3304.96 9511.91 10909545 90476432 31417458 2002 3849.24 10631.75 14816649 113034108 40924157 2003 5335.8 12451.8 28470762 155047323 66440314 合计 31828.13 90323.18 92905430 689769996 251849180.4 数据来源:《江苏统计年鉴》 试配合适当的回归模型并进行显著性检验;若 2004 年该省固定资产投资完成额为 5922 亿 元,当显著性水平 =0.05时,试估计 2004 年其国内生产总值的预测区间。 解: 1.绘制散点图 设国内生产总值为 y, 固定资产投资完成额为 x,绘制散点图(图略),由散点图可以看出两 者呈线性关系,可以建立一元线性回归模型。 2.设一元线性回归方程为 y ˆ = a + bx 3.计算回归系数 列表计算有关数据(见表 4.8.1),并计算出回归系数估计值: ( ) 2 2 ˆ − − = n x x n xy x y b = 2.51562 18 92905430 31828 18 251849180 31828 90323 2 = − − n x b n y aˆ = − ˆ = 569.76 18 31828 2.51562 18 90323 − = 所求回归预测方程为: y ˆ = 569.76 + 2.51562x 4.检验线性关系的显著性 由于在一元线性回归情形,相关系数检验、F 检验、t 检验的结果一致,此处仅给出相关系 数检验
免费下载网址htt: Jiaoxie5uys68com/ R Ex-(2x)ynZy-(2y) 18×251849180-31828×90323 0.9899 √18×92905430-318282·√18×689769995-90323 当显著性水平a=0.05,自由度=n-m=18-2=16时,查相关系数临界值表,得 R05(16)=0.4683,因 R=0.989904683=R05(16) 故在α=0.05的显著性水平上,检验通过,说明两变量之间线性相关关系显著 5.预测 (1)计算估计值的标准误差 ∑y2-①∑y-6∑x S 2 689796976×9033-251562×251849180=5449 (2)当显著性水平a=0.05,自由度=n-2=18-2=16时,查t分布表得 toa(16)=21199 (3)当x=5922亿元时,代入回归方程得y的点估计值为: j=56976+251562x=56976+251562×5922=15469,1(亿元) 预测区间为: j千L2(m-2)·s1|1++ ∑x-(Ex =1546912119549×+1 18×41542 1818×92905430-318282 15469.1+2.1199×544.9×1.52669 154691千17635 即:当2004年全省固定资产投资完成额为5922亿元时,在Q=0.05的显著性水平上,国 内生产总值的预测区间为:137056~172346亿元之间 一元线性回归模型研究的是某一因变量与一个自变量之间的关系问题。但是,客观现 象之间的联系是复杂的,许多现象的变动都涉及到多个变量之间的数量关系 研究某一因变量与多个自变量之间的相互关系的理论和方法就是多元线性回归模型。 34多元线性回归预测法 34.1多元线性回归模型及其假设条件 设所研究的对象受多个因素x1x2,…xm的影响,假定各个影响因素与y的关系是线性的, 这时就需要建立多元线性回归模型: B,x,+B2x2 Bx,+u 解压密码联系qq1139686加微信公众号 Jlaoxuewuyou九折优惠!淘宝网址 jiaoxuesu.taobao.com
免费下载网址 http://jiaoxue5u.ys168.com/ 解压密码联系 qq 1119139686 加微信公众号 jiaoxuewuyou 九折优惠!淘宝网址: jiaoxue5u.taobao.com − − − = ( ) ( ) 2 2 2 2 n x x n y y n x y x y R 0.9899 18 92905430 31828 18 689769995 90323 18 251849180 31828 90323 2 2 = − − − 当显著性水平 =0.05,自由度=n-m=18-2=16 时,查相关系数临界值表,得 R0.05 (16) = 0.4683 ,因 R=0.9899> 0.4683 (16) = R0.05 故在 = 0.05 的显著性水平上,检验通过,说明两变量之间线性相关关系显著。 5.预测 (1)计算估计值的标准误差 2 ˆ ˆ 2 − − − = n y a y b xy s y = 544.9 18 2 689769995 569.76 90323 2.51562 251849180 = − − − (2)当显著性水平 = 0.05 ,自由度=n-2=18-2=16 时,查 t 分布表得: (16) 2.1199 0.025 = t (3)当 x0 = 5922 亿元时,代入回归方程得 y 的点估计值为: y ˆ 0 = 569.76 + 2.51562x = 569.76 + 2.515625922 =15469.1 (亿元) 预测区间为: 2 2 2 2 2 0 2 18 92905430 31828 18 4154 18 1 15469.1 2.1199 544.9 1 1 0 ˆ ( 2) 1 ( ) ( ) − = + + − − • + + − x x x x t s n n n y n y =15469.1 2.1199544.91.52669 =15469.11763.5 即:当 2004 年全省固定资产投资完成额为 5922 亿元时,在 = 0.05 的显著性水平上,国 内生产总值的预测区间为:13705.6~17234.6 亿元之间。 • 一元线性回归模型研究的是某一因变量与一个自变量之间的关系问题。但是,客观现 象之间的联系是复杂的,许多现象的变动都涉及到多个变量之间的数量关系。 • 研究某一因变量与多个自变量之间的相互关系的理论和方法就是多元线性回归模型。 3.4 多元线性回归预测法 3.4.1 多元线性回归模型及其假设条件 设所研究的对象受多个因素 m x , x , , x 1 2 的影响,假定各个影响因素与 y 的关系是线性的, 这时就需要建立多元线性回归模型: y = 1 x1 + 2 x2 ++ m xm + u
免费下载网址ht:jiaoxue5uys168.com 给定变量y,x1,x2,…,xm的一组观测值y2x1,x21,…,xm,对应地有 y1=B1x1+B2x2x+…+Bnxm+l1,i=1,2, 若取x1的观测值恒等于1,即对任意i有xn1=1,则式变为 y1=B1+B2 B.xm +u,, i=1, 2 B1+B2 B y2=B1+B2x2+…+Bnxm2 B1+B2 Bn 用矩阵形式表示为 P m2B2 Y=XB 其中 Y=y2 多元线性回归模型的基本假设条件如下 假设1:E(u)=0,i=1,2 「u1「E(u1)1「01 E(u2)0 E(un)」L0 假设2:D(u,)=E(u2 )=E(ul2,u1)=0,i≠j,,j 用矩阵形式表示为 解压密码联系qq1139686加微信公众号 Jlaoxuewuyou九折优惠!淘宝网址 jiaoxuesu.taobao.com
免费下载网址 http://jiaoxue5u.ys168.com/ 解压密码联系 qq 1119139686 加微信公众号 jiaoxuewuyou 九折优惠!淘宝网址: jiaoxue5u.taobao.com 给定变量 y, m x , x , , x 1 2 的一组观测值 i i i mi y , x , x , , x 1 2 ,对应地有 i i i m mi ui y = 1 x1 + 2 x2 ++ x + ,i =1,2, ,n 若取 1 x 的观测值恒等于 1,即对任意 i 有 i1 x =1,则式变为: i i m mi ui y = 1 + 2 x2 ++ x + ,i =1,2, ,n 即 = + + + + = + + + + = + + + + n n m mn n m m m m y x x u y x x u y x x u 1 2 2 2 1 2 22 2 2 1 1 2 21 1 1 用矩阵形式表示为 + = n mn m n m m n u u u x x x x x x y y y 2 1 2 1 2 22 2 21 1 2 1 1 1 1 即 Y = XB+u 其中 = y y y n Y 2 1 = x x x x x x n mn m m X 2 22 2 21 1 1 1 1 = m B 2 1 = u u u n u 2 1 多元线性回归模型的基本假设条件如下: 假设 1: E(ui ) = 0,i =1,2, ,n ,即 E(u)=E = = 0 0 0 ( ) ( ) ( ) 2 1 2 1 n E un E u E u u u u 假设 2: D(ui ) E(ui ) u ,i 1,2, ,n 2 2 = = = Cov(ui ,u j ) = E(ui ,u j ) = 0,i j,i, j = 1,2, ,n 用矩阵形式表示为