属性的状态(水平)数与虚拟变量数量的关系定性因素的属性既可能为两种状态,也可能为多种状态。例如,性别(男、女两种)、季节(4种状态),地理位置(东、中、西部),行业归属,所有制,收入的分组等。[(1, 0)天气阴天气雨如: (D,D,) = (0,1)其他(0,0)11
11 定性因素的属性既可能为两种状态,也可能为多种 状态。例如,性别(男、女两种)、季节(4种状 态),地理位置(东、中、西部),行业归属,所 有制,收入的分组等。 属性的状态(水平)数与虚拟变量 数量的关系 (0,1) (0,0) D D 1 2 (1,0) 天气阴 如:( , )= 天气雨 其 他
虚拟变量数量的设置规则1.若定性因素具有m个(m≥2)相互排斥属性(或几个水平,当回归模型有截距项时,只能引入m-1个虚拟变量;2.当回归模型无截距项时,则可引入m个虚拟变量;否则,就会陷入“虚拟变量陷阱”。(为什么?)12
12 1.若定性因素具有 个 相互排斥属性(或 几个水平),当回归模型有截距项时,只能引入 个虚拟变量; 2.当回归模型无截距项时,则可引入 个虚拟变 量;否则,就会陷入“虚拟变量陷阱”。(为什 么?) 虚拟变量数量的设置规则 ( ) m 2 m-1 m m
一个例子(虚拟变量陷阱)研究居民住房消费支出Y和居民可支配收入X.之间的数量关系。回归模型的设定为:Y=α+βX,+u(1))现在要考虑城镇居民和农村居民之间的差异,如何办?为了对“城镇居民”、“农村居民”进行区分,分析各自在住房消费支出Y上的差异,设D,=1为城镇;D=0 为农村,则模型为(2)Y-ao+X+aD+ui(模型有截距,“居民属性”定性变量只有两个相互排厅的属性状态(m=2),故只设定一个虚拟变量。)13
13 研究居民住房消费支出 和居民可支配收入 之间的 数量关系。回归模型的设定为: 现在要考虑城镇居民和农村居民之间的差异,如何办? 为了对 “城镇居民”、“农村居民”进行区分,分析 各自在住房消费支出 上的差异,设 为城镇; 为农村,则模型为 (模型有截距,“居民属性”定性变量只有两个相互排斥 的属性状态( ),故只设定一个虚拟变量。) 一个例子(虚拟变量陷阱) Yi Xi 0 1 1 Y = + X +u i i i () Y = + X + D +u i i i 0 1 1 1 (2) 1 =1 D i Yi 1 = 0 D i m = 2
“居民属性”,仍然若对两个相互排斥的属性引入m=2个虚拟变量,则有农村居民城镇居民D2iDli0城镇居民0农村居民(1)为则模型(3)Y=αo+βX,+αD+αD+u则对任一家庭都有:D+D,-1D,+D,·1=0即产生完全共线,陷入了“虚拟变量陷阱”。“虚拟变量陷阱”的实质是:完全多重共线性14
14 若对两个相互排斥的属性 “居民属性” ,仍然 引入 个虚拟变量,则有 则模型(1)为 则对任一家庭都有: , 即产生完全共线,陷入了“虚拟变量陷阱”。 “虚拟变量陷阱”的实质是:完全多重共线性。 2 1 = 0 D i 农村居民 城镇居民 0 1 1 1 2 2 3 Y X D D u i i i = + + + + () 1 2 D + D =1 1 1 = 0 D i 城镇居民 农村居民 1 2 D + D - =1 0 m = 2
虚拟变量在回归模型中的角色虚拟变量既可作为被解释变量,也可作为解释变量,分别称其为虚拟被解释变量和虚拟解释变量。虚拟被解释变量的研究是当前计量经济学研究的前沿领域,如MacFadden、Heckmen等人的微观计量经济学研究,大量涉及到虚拟被解释变量的分析本课程只是讨论虚拟解释变量的问题15
15 虚拟变量既可作为被解释变量,也可作为解释 变量,分别称其为虚拟被解释变量和虚拟解释变量。 虚拟被解释变量的研究是当前计量经济学研究的 前沿领域,如MacFadden、Heckmen等人的微观计 量经济学研究,大量涉及到虚拟被解释变量的分析。 本课程只是讨论虚拟解释变量的问题 虚拟变量在回归模型中的角色