属性的状态 (水平)数与虚拟变量 数量的关系 定性因素的属性既可能为两种状态,也可能为多种 状态。例如,性别(男、女两种)、季节((4种状 态),地理位置(东、中、西部),行业归属,所 有制,收入的分组等。 (1,0) 天气阴 如:(D,D) (0,D 天气雨 (0,0) 其他 11
11 定性因素的属性既可能为两种状态,也可能为多种 状态。例如,性别(男、女两种)、季节(4种状 态),地理位置(东、中、西部),行业归属,所 有制,收入的分组等。 属性的状态(水平)数与虚拟变量 数量的关系 (0,1) (0,0) D D ì ï í ï î 1 2 (1,0) 天气阴 如:( , )= 天气雨 其 他
虚拟变量数量的设置规则 1.若定性因素具有m个((m≥2)相互排斥属性(或 几个水平),当回归模型有截距项时,只能引入 m1个虚拟变量: 2.当回归模型无截距项时,则可引入m个虚拟变 量;否则,就会陷入“虚拟变量陷阱”。(为什 么?) 12
12 1.若定性因素具有 个 相互排斥属性(或 几个水平),当回归模型有截距项时,只能引入 个虚拟变量; 2.当回归模型无截距项时,则可引入 个虚拟变 量;否则,就会陷入“虚拟变量陷阱” 。(为什 么?) 虚拟变量数量的设置规则 ( ) m ³ 2 m-1 m m
一个例子(虚拟变量陷阱) 研究居民住房消费支出Y和居民可支配收入X,之间的 数量关系。回归模型的设定为:y=o0+阝X,+山() 现在要考虑城镇居民和农村居民之间的差异,如何办? 为了对“城镇居民”、“农村居民”进行区分,分析 各自在住房消费支出Y,上的差异,设D1,=1为城镇; D,=0为农村,则模型为 Y,=00+阝1X,+01D1+4,(2) (模型有截距,“居民属性”定性变量只有两个相互排斥 的属性状态(m=2),故只设定一个虚拟变量。) 13
13 研究居民住房消费支出 和居民可支配收入 之间的 数量关系。回归模型的设定为: 现在要考虑城镇居民和农村居民之间的差异,如何办? 为了对 “城镇居民” 、 “农村居民”进行区分,分析 各自在住房消费支出 上的差异,设 为城镇; 为农村,则模型为 (模型有截距, “居民属性”定性变量只有两个相互排斥 的属性状态( ),故只设定一个虚拟变量。) 一个例子(虚拟变量陷阱) Yi Xi 0 1 1 Yi =a b + Xi i +u () 0 1 1 1 2 Yi = a + b a X i i + D + u ( ) 1 = 1 D i Yi 1 = 0 D i m=2
若对两个相互排斥的属性“居民属性”,仍然 引入m=2个虚拟变量,则有 城镇居民 农村居民 D D21 0农村居民 0 城镇居民 则模型(1)为 Y,=00+f1X,+0D+02D2+4 (3) 则对任一家庭都有:D,+D2=1D+D,1=0 即产生完全共线,陷入了“虚拟变量陷阱”。 “虚拟变量陷阱”的实质是:完全多重共线性。 14
14 若对两个相互排斥的属性 “居民属性” ,仍然 引入 个虚拟变量,则有 则模型(1)为 则对任一家庭都有: , 即产生完全共线,陷入了“虚拟变量陷阱” 。 “虚拟变量陷阱”的实质是:完全多重共线性。 2 1 = 0 D i ì í î 农村居民 城镇居民 0 1 1 1 2 2 3 Yi =a + b Xi i +a a D + + D u ( ) 1 2 D + D =1 1 1 = 0 D i ì í î 城镇居民 农村居民 1 2 D + D - =1 0 m=2
虚拟变量在回归模型中的角色 虚拟变量既可作为被解释变量,也可作为解释 变量,分别称其为虚拟被解释变量和虚拟解释变 量。 虚拟被解释变量的研究是当前计量经济学研究的 前沿领域,如MacFadden、Heckmen等人的微观计 量经济学研究,大量涉及到虚拟被解释变量的分 析。 本课程只是讨论虚拟解释变量的问题 15
15 虚拟变量既可作为被解释变量,也可作为解释 变量,分别称其为虚拟被解释变量和虚拟解释变 量。 虚拟被解释变量的研究是当前计量经济学研究的 前沿领域,如MacFadden、Heckmen等人的微观计 量经济学研究,大量涉及到虚拟被解释变量的分 析。 本课程只是讨论虚拟解释变量的问题 虚拟变量在回归模型中的角色