26偏回归估计 Partial Regression 26偏回归估计 Partial regression 由分部回归内容 X'Y=X2X1B1+X'2X2B2 x2Y=X2X1(X1X1)-x1Y-(X1X1)-1x1X2B2)+X2X2B2 x2X1(X1X1)-X1Y-X'2X1(X'1X1)-1x1X2B2+X2X2B2 推导 x2(I-X1(X1X1)-1x1)Y=X2(I-X1(X1X1)-1x1)x 有 (X2(I-X1(X'1X1)-1x1)X2)-1x2(I-X1(X1X1)-1x1Y=B2 (I-X1(X1X1)-X1)=M 成立 B2=(X2MX2)-1(X2MY) 因为M是等幂矩阵 B2=(X2M'MX2)(X2M'MY) =(X2X2)-(X2Y*) 其中 =MY=(I-X1(X'1X1)-x1)Y =Y-X1(X1X1)-x1Y 是Y仅以ⅹ1为解释变量建立的模型的残差 以X2对x1回归: X2=X1(X1X1)1x1X 得出残差 x1(X1X1)-x'1X2) =(I-X1(X1X1)-1x1)X2 (2-17) MX 2.7两阶段最小二乘 定义2.1(排斥性约束)假定结构模型 y1=A+1y+B2x1+1 有一个内生解释变量y和一个外生解释变量z1。假定现在我们有两个被排斥在该式之外的外 变量2和23。它们不出现该式,且与误差项不相关的诸假定称为 exclusionrestriction 外生变量的任何线性组合都是有效的IV。为寻找最好的IV,我们选择与y最高度相关的 线性组合。这正是由y的诱导型方程 Reduced ormequation所给出的 y=00+121+2zx-2+323+ 获得OLS估计值,用它做为v的IV。在复工具条件下,Iv估计量也叫做两阶段最小二 乘估计量 twostageleastsquaresestimator。如果z和在上式中不是联合显著的,做IV估 计是在浪费时间
2.6 偏回归估计 Partial Regression 2.6 偏回归估计 Partial Regression 由分部回归内容 X0 2Y = X0 2X1Bˆ 1 + X0 2X2Bˆ 2 得 X0 2Y = X0 2X1((X0 1X1) −1X0 1Y − (X0 1X1) −1X0 1X2Bˆ 2) + X0 2X2Bˆ 2 = X0 2X1(X0 1X1) −1X0 1Y − X0 2X1(X0 1X1) −1X0 1X2Bˆ 2 + X0 2X2Bˆ 2 推导 X0 2(I − X1(X0 1X1) −1X0 1)Y = X0 2(I − X1(X0 1X1) −1X0 1)X2Bˆ 2 有 (X0 2(I − X1(X0 1X1) −1X0 1)X2) −1X0 2(I − X1(X0 1X1) −1X0 1)Y = Bˆ 2 令 (I − X1(X0 1X1) −1X0 1) = M 成立 Bˆ 2 = (X0 2MX2) −1 (X0 2MY ) 因为 M 是等幂矩阵 Bˆ 2 = (X0 2M0MX2) −1 (X0 2M0MY ) = (X∗ 2X∗ 2 ) −1 (X∗ 2Y ∗ ) 其中 Y ∗ = MY = (I − X1(X0 1X1) −1X0 1)Y = Y − X1(X0 1X1) −1X0 1Y 是 Y 仅以 X1 为解释变量建立的模型的残差。 以 X2 对 X1 回归: Xˆ 2 = X1((X0 1X1) −1X0 1X2) 得出残差 X2 − Xˆ 2 = X2 − X1((X0 1X1) −1X0 1X2) = (I − X1(X0 1X1) −1X0 1)X2 = MX2 = X∗ 2 (2-17) 2.7 两阶段最小二乘 定义 2.1 (排斥性约束) 假定结构模型 y1 = β0 + β1y2 + β2z1 + u1 有一个内生解释变量 y2 和一个外生解释变量 z1。假定现在我们有两个被排斥在该式之外的外 生变量 z2 和 z3。它们不出现该式,且与误差项不相关的诸假定称为 exclusionrestriction。 外生变量的任何线性组合都是有效的 IV 。为寻找最好的 IV ,我们选择与 y2 最高度相关的 线性组合。这正是由 y2 的诱导型方程reducedformequation 所给出的: y2 = φ0 + φ1z1 + φ2z − 2 + φ3z3 + v2 获得 OLS 估计值 yˆ2,用它做为 y2 的 IV 。在复工具条件下,IV 估计量也叫做两阶段最小二 乘估计量twostageleastsquaresestimator。如果 z2 和 z3 在上式中不是联合显著的,做 IV 估 计是在浪费时间。 - 12 -
第二章估计方法引论 28交叉估计方法 Across regression 交叉估计也是对模型参数进行部分回归的一种估计方法,但是与上述部分回归估计不同的 是,它将模型的参数按照其性质分类,然后分别用不同的样本观测值,包括被解释变量的样本 观测值,估计各类参数。那么自然地,它只是相对于某类应用模型而言。问题的提出在需求 函数模型中,解释变量一般为收入和价格,这两类变量对商品需求量的影响是不同的。按照协 整理论,商品需求量和收入为流量指标,一般情况下为一阶单整,它们之间可能存在协整关 系,反映了二者之间的长期关系;而价格水平一般是0阶单整,它对商品需求量具有短期影 响。从直观上也可以看出,收入对商品需求量具有长期影响,价格对商品需求量只具有短期影 响。它们的参数分别属于长期弹性和短期弹性,具有不同的性质。而一般说来,时间序列数据 适合于短期弹性的估计,截面数据适合于长期弹性的估计。所以用同一组样本数据同时估计需 求函数模型的所有参数,在理论上是存在问题的 于是就提出了合并时间序列数据和截面数据的估计方法,即交叉估计方法。即用截面数据 为样本估计模型中的一部分反映长期影响的参数,然后再用时间序列数据为样本估计模型中的 另一部分反映短期影响的参数,分两阶段完成模型的估计 为什么时间序列数据适合于短期弹性的估计,而截面数据适合于长期弹性的估计?结合需 求函数模型来看:在截面上,由于价格并不随收入而显著变化,所以对商品需求量起作用的是 收入;而且,在同一截面上,不同的消费者的收入差距可能相当大,使得收入的样本观测值数 据变化较大。两者综合,说明收入对需求量的影·响适宜于用截面数据估计。如果用时间序列数 据,由于收入随时间的变化是缓慢的,不同时间的收入的样本观测值数据变化较小,不宜于揭 示收入对需求量的长期影响。反过来,价格的时间序列数据适宜于揭示价格对需求量的短期影 交叉估计不仅适于需求函数模型的估计,也适用于包含长期影响和短期影响两类解释变量 的其它模型的估计。例如居民储蓄方程。居民新增储蓄由收入水平和利率决定,其中收入水平 具有长期影响,利率具有短期影响,适合于用交叉估计方法进行分析。再如税收方程,以税基 和税率为解释变量,也适合于用交叉估计方法进行估计 估计方法以对数线性需求函数为例,为了简化,假设解释变量中只包括收入和自价格。对 数线性需求函数为 In q=a0+a1In/+a2 Inp+A 现有某一年的截面数据,在这个截面上,价格是常数。按收入分组: In qj=a+a1 Nlj+Aj j=1, 2, 采用经典线性单方程模型的估计方法估计得到a1 当以时间序列数据为样本时,将模型写成 +a1In It+a2 In pt+A yt= In gt -a1 In It 采用经典线性单方程模型的估计方法估计得到全部参数。 在截面分析时,样本观测值取自分组人均数据,而在时序分析时,样本观测值一般取总体 平均数据,这里存在一致性问题。另外,采用的年份不同,得到的a1估计量也不同,这里存 在一个任意性问题。所以,交叉估计作为一种实用方法,尚缺少理论计量经济学的支持
第二章 估计方法引论 2.8 交叉估计方法 Across Regression 交叉估计也是对模型参数进行部分回归的一种估计方法,但是与上述部分回归估计不同的 是,它将模型的参数按照其性质分类,然后分别用不同的样本观测值,包括被解释变量的样本 观测值,估计各类参数。那么自然地,它只是相对于某类应用模型而言。问题的提出 在需求 函数模型中,解释变量一般为收入和价格,这两类变量对商品需求量的影响是不同的。按照协 整理论,商品需求量和收入为流量指标,一般情况下为一阶单整,它们之间可能存在协整关 系,反映了二者之间的长期关系;而价格水平一般是 0 阶单整,它对商品需求量具有短期影 响。从直观上也可以看出,收入对商品需求量具有长期影响,价格对商品需求量只具有短期影 响。它们的参数分别属于长期弹性和短期弹性,具有不同的性质。而一般说来,时间序列数据 适合于短期弹性的估计,截面数据适合于长期弹性的估计。所以用同一组样本数据同时估计需 求函数模型的所有参数,在理论上是存在问题的。 于是就提出了合并时间序列数据和截面数据的估计方法,即交叉估计方法。即用截面数据 为样本估计模型中的一部分反映长期影响的参数,然后再用时间序列数据为样本估计模型中的 另一部分反映短期影响的参数,分两阶段完成模型的估计。 为什么时间序列数据适合于短期弹性的估计,而截面数据适合于长期弹性的估计?结合需 求函数模型来看:在截面上,由于价格并不随收入而显著变化,所以对商品需求量起作用的是 收入;而且,在同一截面上,不同的消费者的收入差距可能相当大,使得收入的样本观测值数 据变化较大。两者综合,说明收入对需求量的影响适宜于用截面数据估计。如果用时间序列数 据,由于收入随时间的变化是缓慢的,不同时间的收入的样本观测值数据变化较小,不宜于揭 示收入对需求量的长期影响。反过来,价格的时间序列数据适宜于揭示价格对需求量的短期影 响。 交叉估计不仅适于需求函数模型的估计,也适用于包含长期影响和短期影响两类解释变量 的其它模型的估计。例如居民储蓄方程。居民新增储蓄由收入水平和利率决定,其中收入水平 具有长期影响,利率具有短期影响,适合于用交叉估计方法进行分析。再如税收方程,以税基 和税率为解释变量,也适合于用交叉估计方法进行估计 估计方法 以对数线性需求函数为例,为了简化,假设解释变量中只包括收入和自价格。对 数线性需求函数为: ln q = α0 + α1 ln I + α2 ln p + µ 现有某一年的截面数据,在这个截面上,价格是常数。按收入分组: ln qj = a + α1 ln Ij + µj j = 1, 2, · · · , m 采用经典线性单方程模型的估计方法估计得到 αˆ1。 当以时间序列数据为样本时,将模型写成: ln qt = α0 + α1 ln It + α2 ln pt + µt 令 yt = ln qt − αˆ1 ln It 有 yt = α0 + α2 ln pt + µt 采用经典线性单方程模型的估计方法估计得到全部参数。 在截面分析时,样本观测值取自分组人均数据,而在时序分析时,样本观测值一般取总体 平均数据,这里存在一致性问题。另外,采用的年份不同,得到的 αˆ1 估计量也不同,这里存 在一个任意性问题。所以,交叉估计作为一种实用方法,尚缺少理论计量经济学的支持。 - 13 -
2.9最大似然估计方法 29最大似然估计方法 回归模型的普通的、非线性的、广义最小二乘和工具变量以及GMM都可以从矩方法中得 出。这里引入另一种基本估计方法极大似然方法。在回归模型误差项正态分布的假设下,极大 似然估计量,简称ML估计量,与我们熟悉的各种最小二乘估计量相同。ML估计量的主要缺 点是它比矩方法要求更强的分布假设。 最大似然估计原理对于最小二乘法,当从模型总体随机抽取η组样本观测值后,最合理 的参数估计量应该使得模型能最好地拟合样本数据。而对于最大或然法,当从模型总体随机抽 取π组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最 大 极大似然方法估计的模型必须是完全设定模型。 定义2.2(完全设定模型)完全设定模型是能够给出明确算法的模型,即只要知道模型参 数值就能模拟岀因变量值。任何一个完全设定的计量经济模型必须为计算机模拟提供一个明确 的算式,如果能够利用模型产生模拟数据,该模型一定是完全设定的 对于这样的模型,一旦参数值给定,则我们就具有模拟因变量所需要的所有信息。要对因变量 进行模拟,必须知道其PDF,即要知道将每个观测看作随机变量的PDF,还要知道将所有样 本看作随机向量时的联合PDF 在很多情况下,样本观测假定为统计独立的。因此,整个样本的联合分布等于各个观测密 度的乘积: 0)=If(m,) (2-18) 习惯上采用对数似然函数。 ML估计量与MM估计量相同的情况十分普遍。但ML的一个优势是不需要求期望值。 另外,如果一个估计量是MLE,它将具有很多理想的渐近性质,这些性质使得标准误差的计 算和检验统计量的计算更加容易 我们首先讨论极大似然方法用于古典正态线性模型 Y=XB+UU~N(0,a21)X外生 因此X条件下,Y服从N(XB,a2)。Y的PDF为 ft(yt, B,a-) EXP( (yt-XLB) 对数似然函数等于所有观测贡献的和 ly, B, a) =-log2x-32 1 (y-XB)(y-XB 关于未知参数β和σ对上式求极大值得出ML估计量。第一步是关于参数σ对(y,B,a) 求极大值。将对数似然函数对σ求导,将导数看作数据和其他参数的函数,从一阶 条件中解出σ并回代到对数似然函数中。这样得到的似然函数称为集中似然函数 concentratedloglikelihoodfunction。第二步关于β对这个函数求极值。从推导中可以看出,极 大化集中对数似然函数等价于极小化残差平方和函数(关于B的函数)。ML估计量必定等于 OLS估计量。β的ML估计量等于OLS估计量依赖于误差项的正态分布假设。从不同的分布 假设出发,可以得到不同的ML估计量。 ML估计量有两种定义 第一类ML估计量在集合θ(参数θ取值的参数空间)上极大化对数似然函数得出的估计量
2.9 最大似然估计方法 2.9 最大似然估计方法 回归模型的普通的、非线性的、广义最小二乘和工具变量以及 GMM 都可以从矩方法中得 出。这里引入另一种基本估计方法:极大似然方法。在回归模型误差项正态分布的假设下,极大 似然估计量,简称 ML 估计量,与我们熟悉的各种最小二乘估计量相同。ML 估计量的主要缺 点是它比矩方法要求更强的分布假设。 最大似然估计原理 对于最小二乘法,当从模型总体随机抽取 n 组样本观测值后,最合理 的参数估计量应该使得模型能最好地拟合样本数据。而对于最大或然法,当从模型总体随机抽 取 n 组样本观测值后,最合理的参数估计量应该使得从模型中抽取该 n 组样本观测值的概率最 大。 极大似然方法估计的模型必须是完全设定模型。 定义 2.2 (完全设定模型) 完全设定模型是能够给出明确算法的模型,即只要知道模型参 数值就能模拟出因变量值。任何一个完全设定的计量经济模型必须为计算机模拟提供一个明确 的算式,如果能够利用模型产生模拟数据,该模型一定是完全设定的。 对于这样的模型,一旦参数值给定,则我们就具有模拟因变量所需要的所有信息。要对因变量 进行模拟,必须知道其 P DF,即要知道将每个观测看作随机变量的 P DF,还要知道将所有样 本看作随机向量时的联合 P DF。 在很多情况下,样本观测假定为统计独立的。因此,整个样本的联合分布等于各个观测密 度的乘积: f(y, θ) = Yn t=1 f(yt , θ) (2-18) 习惯上采用对数似然函数。 ML 估计量与 MM 估计量相同的情况十分普遍。但 ML 的一个优势是不需要求期望值。 另外,如果一个估计量是 MLE,它将具有很多理想的渐近性质,这些性质使得标准误差的计 算和检验统计量的计算更加容易。 我们首先讨论极大似然方法用于古典正态线性模型 Y = Xβ + U U ∼ N(0, σ2 I) X外生 (2-19) 因此 X 条件下,Y 服从 N(Xβ, σ2 )。Yt 的 P DF 为: ft(yt , β, σ2 ) = 1 σ √ 2π EXP(− (yt − Xtβ) 2 2σ 2 (2-20) 对数似然函数等于所有观测贡献的和: ι(y, β, σ) = − n 2 log 2π − n 2 log σ 2 − 1 2σ 2 (y − Xβ) T (y − Xβ) (2-21) 关于未知参数 β 和 σ 对上式求极大值得出 ML 估计量。第一步是关于参数 σ 对 ι(y, β, σ) 求极大值。将对数似然函数对 σ 求导,将导数看作数据和其他参数的函数,从一阶 条 件 中 解 出 σ 并 回 代 到 对 数 似 然 函 数 中 。 这 样 得 到 的 似 然 函 数 称 为 集 中 似 然 函 数 concentratedloglikelihoodfunction。第二步关于 β 对这个函数求极值。从推导中可以看出,极 大化集中对数似然函数等价于极小化残差平方和函数(关于 β 的函数)。ML 估计量必定等于 OLS 估计量。β 的 ML 估计量等于 OLS 估计量依赖于误差项的正态分布假设。从不同的分布 假设出发,可以得到不同的 ML 估计量。 ML 估计量有两种定义: 第一类 ML 估计量 在集合 Θ (参数 θ 取值的参数空间)上极大化对数似然函数得出的估计量。 - 14 -
第二章估计方法引论 第二类ML估计量定义为似然方程的解,似然方程是一阶条件g(y,0)=0。其中,g(y,0)是 梯度向量,或者称为得分向量。其代表元素为 9(0(y,0) a yt, 0) 极大似然估计往往很容易计算。得不到直接表达式时,同其他情形一样,必须采用非线性 极大化程序。牛顿法和拟牛顿法经过少许修改就可以用于ML估计。牛顿法的基本方程是 0-H 拟牛顿法的公式是: 6(+1)=6+aDd)9 ML估计量的渐近性质在相当弱的条件下,ML估计量是一致的,在稍强一些的假设下 是渐近正态的。 致性的证明:首先证明在参数真值处取值的对数似然函数的期望大于在其他处取值的期 望。要证明一致性,还需要有限样本下的可识别条件和渐近可识别条件。 定理2.1( Jensen不等式)如果X是一个实值随机变量,h(是一个凹函数,则 E(h(X)≤h(E(X)。当h0至少在随机变量X的支撑的一部分上是严格凹的,则严格不 等式成立。所谓支撑是指一个实数集合,X的密度在这个集合上不为零,支撑包含的点要多于 将这个不等式应用于比值L(θ*)/L(o),其中是参数真值,θ*为模型参数空间中的任意一个 向量。因为对数似然函数是非负实数上的严格凹函数,并且似然函数是非负函数,从詹森不等 式得出 L Eo log L(0")4 log EoL(Bo) Eo表示在参数向量刻画的DGP下取期望。右边的期望可以用随机向量y支撑上的积分表 L(6*)_L(6*) (o)-)L(00) L(60)dy=1 从而有 Olog L(0o)s Eoc(0")-Eoc(0o)<0 (2-25) (再对对数似然函数应用大数定律。)它可以得出 plim -l(0)<plim -l(eo) 对所有的θ*≠60成立,因为极限中的不等式不一定是严格的。因为MLE是极大化(0): lim=(⊙)≥plim=((o) 两个不等式同时成立说明 致性的证明还需要满足渐近可识别条件:对所有0≠0,都有 plain-1(0*)≠ plan-1u(O)。 考虑不独立模型的似然函数和对数似然函数的构建,如当回归函数中包括滞后因变量的情 形。对于一个用极大似然方法估计的模型,密度函数依赖于k维向量参数 f(",0)=IIf(ely
第二章 估计方法引论 第二类 ML 估计量 定义为似然方程的解,似然方程是一阶条件 g(y, ˆθ) = 0。其中,g(y, θ) 是 梯度向量,或者称为得分向量。其代表元素为 gi(y, θ) ≡ ∂ι(y, θ) ∂θi = Xn t=1 ∂ι(yt , θ) ∂θi 极大似然估计往往很容易计算。得不到直接表达式时,同其他情形一样,必须采用非线性 极大化程序。牛顿法和拟牛顿法经过少许修改就可以用于 ML 估计。牛顿法的基本方程是: θ(j+1) = θj − H −1 (j) g(j) (2-22) 拟牛顿法的公式是: θ(j+1) = θj + αD−1 (j) g(j) (2-23) ML 估计量的渐近性质 在相当弱的条件下,ML 估计量是一致的,在稍强一些的假设下 是渐近正态的。 一致性的证明:首先证明在参数真值处取值的对数似然函数的期望大于在其他处取值的期 望。要证明一致性,还需要有限样本下的可识别条件和渐近可识别条件。 定理 2.1 (Jensen 不等式) 如果 X 是一个实值随机变量,h( ˙ ) 是一个凹函数,则 E(h(X) ≤ h(E(X))。当 h( ˙ ) 至少在随机变量 X 的支撑的一部分上是严格凹的,则严格不 等式成立。所谓支撑是指一个实数集合,X 的密度在这个集合上不为零,支撑包含的点要多于 一个。 将这个不等式应用于比值 L(θ ∗ )/L(θ0),其中 θ0 是参数真值,θ ∗ 为模型参数空间中的任意一个 向量。因为对数似然函数是非负实数上的严格凹函数,并且似然函数是非负函数,从詹森不等 式得出: E0 log L(θ ∗ ) L(θ0) < log E0 L(θ ∗ ) L(θ0) (2-24) E0 表示在参数向量 θ0 刻画的 DGP 下取期望。右边的期望可以用随机向量 y 支撑上的积分表 示: E0 L(θ ∗ ) L(θ0) = Z L(θ ∗ ) L(θ0) L(θ0)dy = 1 从而有 E0 log L(θ ∗ ) L(θ0) = E0ι(θ ∗ ) − E0ι(θ0) < 0 (2-25) (再对对数似然函数应用大数定律。)它可以得出: p lim n→∞ 1 n ι(θ ∗ ) ≤ p lim n→∞ 1 n ι(θ0) (2-26) 对所有的 θ ∗ 6= θ0 成立,因为极限中的不等式不一定是严格的。因为 MLE 是极大化 ι(θ): p lim n→∞ 1 n ι( ˆθ) ≥ p lim n→∞ 1 n ι(θ0) (2-27) 两个不等式同时成立说明: p lim n→∞ 1 n ι( ˆθ) = p lim n→∞ 1 n ι(θ0) 一 致 性 的 证 明 还 需 要 满 足 渐 近 可 识 别 条 件:对 所 有 θ ∗ 6= θ0, 都 有plimn−1 ι(θ ∗ ) 6= plimn−1 ι(θ0)。 考虑不独立模型的似然函数和对数似然函数的构建,如当回归函数中包括滞后因变量的情 形。对于一个用极大似然方法估计的模型,密度函数依赖于 k 维向量参数 θ: f(y n , θ) = Yn t=1 f(yt |y t−1 ; θ) (2-28) - 15 -
2.9最大似然估计方法 其中每个观测的边际密度用条件密度代替。对应的对数似然函数具有和式的形式 (y,)=∑4(y,0) t=1 其中省略了表示整体样本的y的上标 定义表明,梯度向量的每个分量是n个贡献之和,当观测不独立仍然正确;但t关于θ1的 偏导数依赖于y而不再仅仅是y。将这些偏导数写成一个矩阵会带来方便。定义n×k矩阵 G(y,0),其代表性元素为 a(y2,0) 这个矩阵称为梯度贡献矩阵。因为 (y,0) (2-31) 因此,梯度向量的每个分量都是矩阵G(y,0)向量的元素的和。G(v,0)的一个关键性质是,如 果y是由θ 有限信息最大似然法有限信息最大似然法 (LIML, Limitedln formation Macimumlikelihood)是一种以最大似然为准则、通过对 简化式模型进行最大似然估计,以得到结构方程参数估计量的联立方程模型的单方程估计方 法。由 Anderson和 Rubin于1949年提出,早于两阶段最小二乘法。适用于恰好识别和过度 识别结构方程的估计。 在该方法中,以下两个概念是重要的:一是这里的”有限信息”指的是每次估计只考虑一个 结构方程的信息,而没有考虑模型系统中其它结构方程的信息;二是这里的”最大似然法”是针 对结构方程中包含的内生变量的简化式模型的,即应用最大似然法求得的是简化式参数估计 量,而不是结构式参数估计量。 BY+TX≡N 每一个方程(以第一个方程为例)可以改写为如下的形式: Y1=2Y2+613Y8+…+g1Yg1+m1X1+m12X2+……+m1k1Xk1+N1 用矩阵形式表达是 Y1=(Y0,X0) 其中 y21331 Yo=[YY3…Y0]= y22y32 yq, 2 y2n y3n ygu 12x22k12
2.9 最大似然估计方法 其中每个观测的边际密度用条件密度代替。对应的对数似然函数具有和式的形式: ι(y n , θ) = Xn t=1 ιt(y t , θ) (2-29) 其中省略了表示整体样本的 y 的上标。 定义表明,梯度向量的每个分量是 n 个贡献之和,当观测不独立仍然正确;但 ιt 关于 θi 的 偏导数依赖于 y t 而不再仅仅是 yt。将这些偏导数写成一个矩阵会带来方便。定义 n × k 矩阵 G(y, θ),其代表性元素为: Gti(y t , θ) ≡ ∂ιt(y t , θ) ∂θi (2-30) 这个矩阵称为梯度贡献矩阵。因为: gi(y, θ) = Xn t=1 Gti(y t , θ) (2-31) 因此,梯度向量的每个分量都是矩阵 G(y, θ) 向量的元素的和。G(y, θ) 的一个关键性质是,如 果 y 是由 θ 有 限 信 息 最 大 似 然 法 有 限 信 息 最 大 似 然 法 (LIML, LimitedInformationM aximumLikelihood) 是 一 种 以 最 大 似 然 为 准 则 、 通 过 对 简化式模型进行最大似然估计,以得到结构方程参数估计量的联立方程模型的单方程估计方 法。由 Anderson 和 Rubin 于 1949 年提出,早于两阶段最小二乘法。适用于恰好识别和过度 识别结构方程的估计。 在该方法中,以下两个概念是重要的:一是这里的”有限信息”指的是每次估计只考虑一个 结构方程的信息,而没有考虑模型系统中其它结构方程的信息;二是这里的”最大似然法”是针 对结构方程中包含的内生变量的简化式模型的,即应用最大似然法求得的是简化式参数估计 量,而不是结构式参数估计量。 BY + ΓX = N 每一个方程(以第一个方程为例)可以改写为如下的形式: Y1 = β12Y2 + β13Y3 + · · · + β1g1 Yg1 + γ11X1 + γ12X2 + · · · + γ1k1Xk1 + N1 用矩阵形式表达是: Y1 = (Y 0, X0) µ B0 Γ0 ¶ + N1 其中 Y 0 = £ Y2 Y3 · · · Yg1 ¤ = y21 y31 · · · yg11 y22 y32 yg12 . . . . . . . . . y2n y3n yg1n X0 = h X1 X2 · · · X k1 i = x11 x21 · · · xk11 x12 x22 xk12 . . . . . . . . . x1n x2n xk1n B0 = β12 β13 . . . β1g1 Γ0 = γ11 γ12 . . . γ1k1 - 16 -