1.将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关2.如果要在模型中保留所有的自变量,则应避免根据t统计量对单个参数进行检验对因变量值的推断(估计或预测)的限定在自变量样本值的范围内10.3.2变量选择与逐步回归变量选择过程1.在建立回归模型时,对自变量进行筛选2.选择自变量的原则是对统计量进行显著性检验将一个或一个以上的自变量引入到回归模型中时,是否使得残差平方和(SSE)有显著地减少。如果增加一个自变量使SSE的减少是显著的,则说明有必要将这个自变量引入回归模型,否则,就没有必要将这个自变量引入回归模型确定引入自变量是否使SSE有显著减少的方法,就是使用F统计量的值作为一个标准,以此来确定是在模型中增加一个自变量,还是从模型中剔除一个自变量3.变量选择的方法主要有:向前选择、向后剔除、逐步回归、最优子集等向前选择1.从模型中没有自变量开始2.对k个自变量分别拟合对因变量的一元线性回归模型,共有k个,然后找出F统计量的值最高的模型及其自变量(P值最小的),并将其首先引入模型3.分别拟合引入模型外的k-1个自变量的二元线性回归模型4.如此反复进行,直至模型外的自变量均无统计显著性为止向后剔除1.先对因变量拟合包括所有k个自变量的回归模型。然后考察p(p<k)个去掉一个自变量的模型(这些模型中在每一个都有k-1个自变量),使模型的SSE值减小最少的自变量被挑选出来并从模型中剔除2.考察p-1个再去掉一个自变量的模型(这些模型中每一个都有k-2个自变量),使模型的SSE值减小最少的自变量被挑选出来并从模型中剔除3.如此反复进行,一直将自变量从模型中剔除,直至剔除一个自变量不会使SSE显著减小为止逐步回归1.将向前选择和向后剔除两种方法结合起来筛选自变量2.在增加了一个自变量后,它会对模型中所有的变量进行考察,看看有没有可能剔除某个自变量。如果在增加了一个自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除3.按照方法不停地增加变量并考虑剔除以前增加的变量的可能性,直至增加变量已经不能导致SSE显著减少-26-
- 26 - 1.将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相 关 2.如果要在模型中保留所有的自变量,则应 避免根据 t 统计量对单个参数进行检验 对因变量值的推断(估计或预测)的限定在自变量样本值的范围内 10.3.2 变量选择与逐步回归 变量选择过程 1.在建立回归模型时,对自变量进行筛选 2.选择自变量的原则是对统计量进行显著性检验 将一个或一个以上的自变量引入到回归模型中时,是否使得残差平方 和(SSE)有显著地减少。如果增加一个自变量使SSE的减少是显著的,则说 明有必要将这个自变量引入回归模型,否则,就没有必要将这个自变量引 入回归模型 确定引入自变量是否使SSE有显著减少的方法,就是使用F统计量的值 作为一个标准,以此来确定是在模型中增加一个自变量,还是从模型中剔 除一个自变量 3.变量选择的方法主要有:向前选择、向后剔除、逐步回归、最优子集等 向前选择 1.从模型中没有自变量开始 2.对k个自变量分别拟合对因变量的一元线性回归模型,共有k个,然后找 出F统计量的值最高的模型及其自变量(P值最小的),并将其首先引入模型 3.分别拟合引入模型外的k-1个自变量的二元线性回归模型 4.如此反复进行,直至模型外的自变量均无统计显著性为止 向后剔除 1.先对因变量拟合包括所有k个自变量的回归模型。然后考察p(p<k)个去 掉一个自变量的模型(这些模型中在每一个都有k-1个自变量),使模型的 SSE值减小最少的自变量被挑选出来并从模型中剔除 2.考察p-1个再去掉一个自变量的模型(这些模型中每一个都有k-2个自变 量),使模型的SSE值减小最少的自变量被挑选出来并从模型中剔除 3.如此反复进行,一直将自变量从模型中剔除,直至剔除一个自变量不会 使SSE显著减小为止 逐步回归 1.将向前选择和向后剔除两种方法结合起来筛选自变量 2.在增加了一个自变量后,它会对模型中所有的变量进行考察,看看有没 有可能剔除某个自变量。如果在增加了一个自变量后,前面增加的某个自 变量对模型的贡献变得不显著,这个变量就会被剔除 3.按照方法不停地增加变量并考虑剔除以前增加的变量的可能性,直至增 加变量已经不能导致SSE显著减少
4.在前面步骤中增加的自变量在后面的步骤中有可能被剔除,而在前面步骤中剔除的自变量在后面的步骤中也可能重新进入到模型中用SPSS进行逐步回归口逐步回归第1步:选择【分析】→【回归-线性】,进入主对话框。第2步:在对话框中将因变量选入【因变量】,将所有自变量选入【自变并在【方法】下选择【逐步】。第3步:点击【选项】,并在【步进方法标准】下选中【使用F的概并在【进入】框中输入增加变量所要求的显著性水平(隐含值为0.05,一改变):在【删除】输入别除变量所要求的显著性水平(隐含值为0.10.用改变)。点击【继续】回到主对话框。点击【确定】。(注:需要预测时,点击【保存】,在【预测值】下选中【未标准化出点预测值在【预测区间】下选中【均值】和【单值】(输出置信区测区间):在【置信区间】中选择所要求的置信水平(隐含值为95%,改变)。需要残差分析时,在【残差】下选中所需的残差。需要输出标准的直方图和正态概率图时,点击【绘制】,在【标准化残差图】下选中【直和【正态概率图】。)模型比较在回归模型中,如果一个模型包含了另一个模型的所有项,并且至少有一个客称这两个模型是嵌套模型(nestedmodel)这里的所有项是指包含全部,,,或者还包含自变量的二次项如xx,以及x等。假定只有两个x,和,模型如下:模型1:E(y)=β+βx+β2模型2:E)=β+B+B2tz+βgr2+Ba模型2包含了模型1的所有项,并且多了两个附加项。模型1被嵌套在模型这个两个模型就是嵌套模型。在嵌套模型中,包含所有项的模型称为完全模型(fullmodel),或简型。而相对完全模型较简单的模型称为简化模型(reducedmodel)。比如模是完全模型,模型1就是简化模型。-27-
- 27 - 4.在前面步骤中增加的自变量在后面的步骤中有可能被剔除,而在前面步 骤中剔除的自变量在后面的步骤中也可能重新进入到模型中 用SPSS进行逐步回归 模型比较
完全模型是否就比简化模型提供了更多的信息?这一问题等价于完全模型中和β,至少有一个不等于0。这就等于检验下面的假设:H。:β=β=0(模型中的二次项不会对y的预测提供信息)H,:β和β至少有一个不等于0(模型中至少有一个二次项对y的预信息)进行上述检验的步骤是:首先,用最小二乘法拟合简化模型,并计算相应的列方和(SSE,),其次,拟合完全模型,并计算出它的残差平方和(SSR,)后计算出二者的差值(SSE,一SSE)进行比较。如果二次项对模型有贡南么SSR,应该比SSE,小很多。二者相差越大,说明完全模型比简化模型提供多的信息。上述检验一般性地表达如下。设简化模型:E(y)=βo+ixi+βx2+.+βgrg完全模型:E(y)=Bo+βin +Bax2 +...+ βgxg +Pg+1fg+1 +...+Bexx检验假设:H。:βg+1 = Pg+2 =β= 0H。:βg+Pg+2,,至少一个不为0检验统计量:F= (SSE,-SSE,)/(k- 8) ~ F(k-g,n-k-1)SSE=/(n-k-1)完全模型中的参数个数(包含常数项)为(k+1),简化模型中的参数(g+1)。如果检验的P值很小,就拒绝原假设,表明完全模型比简化模型白效果要好如果P值较大,不拒绝原假设,表明简化模型和完全模型的拟合样好。由于建模时将更多的自变量引入模型,不仅增加了建模的复杂性,也成解释上的困难。因此,当不能拒绝原假设时,我们就考虑采用简化模型。【例104】利用例10—1和例10—3的回归结果,对两个模型进行比较。提出假设:H。:β,==0x,和x不会对y的预测提供信息)H:β和,至少有一个不等于0(x和x至少有一个对y的预测提保根据上面的回归结果可知,SSE=2267.2,SSR,=2153.0。由此统计量为:F=22672-2153.0)/5-)= 0.5046592153.0/(25-5-1)由R函数得P=0.611579,不拒绝原假设·逐步回归模型与含所有5个自变量的回归模型的比较load("D:/example/ch10/example10_1.RData")-28 -
- 28 - 逐步回归模型与含所有5个自变量的回归模型的比较 load("D:/example/ch10/example10_1.RData")
fit2<-lm(yx1+x2+x5,data=example10_1)fit1<-1m(y~x1+x2+x3+x4+x5,data=example10_1)anova(fit2,fit1)10.4利用回归方程进行预测置信区间和预测区间(例题分析)餐馆编号PRE1RES1ZRE_1yLMCI1UMCL1LICL111153.250.732.472243.8157.6626.852218.5-4.002.04-11.883.8722.50-28.183311.325.69-14.39-1.3120.5730.802.274484.767.521.5651.0217.1884.0239.33557.37.76-.46-.04-.94-16.6916.4666.54.0517.917.3611.3923.33-6.26772.53.40-.90-.08-4.0310.84-20.638827.330.56-3.26-.3025.8435.287.22995.99.51-.333.59-3.6115.42-14.10101023.939.97-16.07-1.4634.5045.4316.47111169.459.2510.15.9249.6068.9034.44121220.618.032.57.2312.4823.58-5.4913131.9-7.149.04.82-15.591.32-31.5014143.011.72-8.72-.796.2017.24-11.7915157.32.334.97.45-5.079.73-21.691616.8846.224.5221.681.9718.4630.5817.78.071778.878.0261.2094.8549.64181811.111.48-38-.034.6018.35-12.3919198.6-1.5230.201.9525.32-16.7220.44202048.9-.06-.0142.3625.1748.9655.56212122.1-5.08-.4621.0733.303.5227.18222211.1-.384.6111.48-.0318.35-12.3823238.61.9525.31-16.71-1.5220.4430.19242448.948.95-.05.0042.3655.5525.17252522.1-.4633.313.5327.19-5.0921.07残差分析(例题分析)-29-
- 29 - fit2<-lm(y~x1+x2+x5,data=example10_1) fit1<-lm(y~x1+x2+x3+x4+x5,data=example10_1) anova(fit2,fit1) 10.4 利用回归方程进行预测 置信区间和预测区间 (例题分析) 残差分析 (例题分析)
因变量:y因变量:y1.010均值=-1.33E-150.8准情票,=0.9578-期N=25O莹的聚只提率0.6-8项6-00000000率0.4048180.22-906000201230.0020.40.60.8回归标准化残差观测的累积概率标准化残差的直方图标准化残差的正态概率10.5哑变量回归10.5.1在模型中引进哑变量哑变量1.也称虚拟变量。用数字代码表示的定性自变量2.哑变量可有不同的水平■只有两个水平的亚变量·比如,性别(男,女)■有两个以上水平的亚变量·贷款企业的类型(家电,医药,其他)3.哑变量的取值为0,1[1男X=lo女在回归中引进哑变量1.回归模型中使用哑变量时,称为哑变量回归2.当定性变量只有两个水平时,可在回归中引入一个哑变量■比如,性别(男,女)3.一般而言,如果定性自变量有k个水平,需要在回归中模型中引进k-1个哑变量[1水平2[1水平1[1水平k-1X=其他水平,x=其他水平,X-=其他水平10100(例题分析)- 30 -
- 30 - 10.5 哑变量回归 10.5.1 在模型中引进哑变量 哑变量 1.也称虚拟变量。用数字代码表示的定性自变量 2.哑变量可有不同的水平 只有两个水平的哑变量 • 比如,性别(男,女) 有两个以上水平的哑变量 • 贷款企业的类型(家电,医药,其他) 3.哑变量的取值为0,1 0 女 1 男 x 在回归中引进哑变量 1.回归模型中使用哑变量时,称为哑变量回归 2.当定性变量只有两个水平时,可在回归中引入一个哑变量 比如,性别(男,女) 3.一般而言,如果定性自变量有k个水平,需要在回归中模型中引进k-1个 哑变量 0 其他水平 1 水平 1 , , 0 其他水平 1 水平2 , 0 其他水平 1 水平1 1 2 1 k x x x k (例题分析)