第二章估计方法引论 y12 第一个结构方程可以表示为 (Yo, Xo) +N1=0 其中 0=(Y1,Yo) BO 该方程包含的内生变量的简化式模型为 0=XI+EO 其对数似然函数 Ln(Yb)=c+2n11-2(92)(-Xmb)(Y-xb)(234) 的最大化等价于广义方差 (Yo-Xlo( 的极小化,得到的就是简化式模型的最大似然估计量 完全信息最大似然估计”完全信意最大似然法( FullInformation Marimumlikelihood,FIML)是一种已有实际应用的联立方程模型的 系统估计方法。 Rothenberg和 Leenders于1964年提出一个线性化的FIML估计量。FIML 是ML的直接推广,是在已经得到样本观测值的情况下,使整个联立方程模型系统的似然函数 达到最大以得到所有结构参数的估计量 2.10贝叶斯估计 贝叶斯( Bayes)统计是由TR. Bayes于19世纪创立的数理统计的一个重要分支,20世纪 50年代,以H. Robbins为代表提出了在计量经济学模型估计中将经验贝叶斯方法与经典方法 相结合,引起了广泛的重视,得到了广泛的应用。贝叶斯估计对经典计量经济学模型估计方法 的扩展在于,它不仅利用样本信息,同时利用非样本信息。 贝叶斯方法的基本原理贝叶斯方法是与传统(也称经典的)计量经济学模型的估计方法 相对的一种统计学方法。它的基本思路是:认为要估计的模型参数是服从一定分布的随机变 量,根据经验给出待估参数的先验分布(也称为主观分布),关于这些先验分布的信息被称为 先验信息;然后根据这些先验信息,并与样本信息相结合,应用贝叶斯定理,求出待估参数的 后验分布;再应用损失函数,得出后验分布的一些特征值,并把它们作为待估参数的估计量。 贝叶斯方法与经典估计方法的主要不同之处是: 关于参数的解释不同:经典估计方法认为待估参数具有确定值,它的估计量才是随机的, 如果估计量是无偏的,该估计量的期望等于那个确定的参数;而贝叶斯方法认为待估参数 是一个服从某种分布的随机变量。 所利用的信息不同经典方法只利用样本信息;贝叶斯方法要求事先提供一个参数的先验 分布,即人们对有关参数的主观认识,被称为先验信息,是非样本信息,在参数估计过程 中,这些非样本信息与样本信息一起被利用 对随机误差项的要求不同:经典方法,除了最大或然法,在参数估计过程中并不要求知道 随机误差项的具体分布形式,但是在假设检验与区间估计时是需要的;贝叶斯方法需要知 道随机误差项的具体分布形式
第二章 估计方法引论 Y1 = y11 y12 . . . y1n N1 = µ11 µ12 . . . µ1n 第一个结构方程可以表示为 (Y 1 0 , X0) µ B 1 0 Γ0 ¶ + N1 = 0 其中 Y 1 0 = (Y1,Y 0) B1 0 = µ −1 B0 ¶ (2-32) 该方程包含的内生变量的简化式模型为: Y 1 0 = XΠ 1 0 + E1 0 (2-33) 其对数似然函数: Ln L(Y 1 0 ) = c + n 2 ln ¯ ¯Ω −1 0 ¯ ¯ − 1 2 tr(Ω−1 0 )(Y 1 0 − XΠ 1 0 ) 0 (Y 1 0 − XΠ 1 0 ) (2-34) 的最大化等价于广义方差 (Y 1 0 − XΠ 1 0 ) 0 (Y 1 0 − XΠ 1 0 ) (2-35) 的极小化,得到的 Πˆ 1 0 就是简化式模型的最大似然估计量。 完 全 信 息 最 大 似 然 估 计 完 全 信 息 最 大 似 然 法( F ullInformationM aximumLikelihood, F IML)是 一 种 已 有 实 际 应 用 的 联 立 方 程 模 型 的 系统估计方法。Rothenberg 和 Leenders 于 1964 年提出一个线性化的 F IML 估计量。F IML 是 ML 的直接推广,是在已经得到样本观测值的情况下,使整个联立方程模型系统的似然函数 达到最大以得到所有结构参数的估计量。 2.10 贝叶斯估计 贝叶斯(Bayes)统计是由 T.R.Bayes 于 19 世纪创立的数理统计的一个重要分支, 20 世纪 50 年代,以 H.Robbins 为代表提出了在计量经济学模型估计中将经验贝叶斯方法与经典方法 相结合,引起了广泛的重视,得到了广泛的应用。贝叶斯估计对经典计量经济学模型估计方法 的扩展在于,它不仅利用样本信息,同时利用非样本信息。 贝叶斯方法的基本原理 贝叶斯方法是与传统(也称经典的)计量经济学模型的估计方法 相对的一种统计学方法。它的基本思路是:认为要估计的模型参数是服从一定分布的随机变 量,根据经验给出待估参数的先验分布(也称为主观分布),关于这些先验分布的信息被称为 先验信息;然后根据这些先验信息,并与样本信息相结合,应用贝叶斯定理,求出待估参数的 后验分布;再应用损失函数,得出后验分布的一些特征值,并把它们作为待估参数的估计量。 贝叶斯方法与经典估计方法的主要不同之处是: • 关于参数的解释不同:经典估计方法认为待估参数具有确定值,它的估计量才是随机的, 如果估计量是无偏的,该估计量的期望等于那个确定的参数;而贝叶斯方法认为待估参数 是一个服从某种分布的随机变量。 • 所利用的信息不同:经典方法只利用样本信息;贝叶斯方法要求事先提供一个参数的先验 分布,即人们对有关参数的主观认识,被称为先验信息,是非样本信息,在参数估计过程 中,这些非样本信息与样本信息一起被利用。 • 对随机误差项的要求不同:经典方法,除了最大或然法,在参数估计过程中并不要求知道 随机误差项的具体分布形式,但是在假设检验与区间估计时是需要的;贝叶斯方法需要知 道随机误差项的具体分布形式。 - 17 -
211渐近方法 选择参数估计量的准则不同经典方法或者以最小二乘,或者以最大或然为准则,求解参 数估计量;贝叶斯方法则需要构造一个损失函数,并以损失函数最小化为准则求得参数估 计量。 贝叶斯定理 9(|Y)=f(Y)g(6) 2.11渐近方法 来自[16第十四章渐近方法。 渐近分布 定义2.3(渐近分布)用T<T2<…<TN表示连续递增样本容量,设在每个样本容量 T下重复抽样,则每个X;都有自己的样本均值和方差利用递增样本可以求得随机样本序列 XT={Xn1,…,XTx},其中每个元素是相应样本容量下的一个随机变量。当TN→∞时,这 些分布收敛于某一分布,则称该分布为渐近分布或极限分布。 相应的,可建立渐近期望和渐近方差概念。 问题21 lim EIXT-E(XT)2=0,即分布退化成一点 用T乘var(X)使TVar(x)→a2。O、o记号随机变量:Op,Op;非随机变量:O,o 设{an}和{bn}是两个实数序列: 定义2.4an=O(bn),读作an是大Obn,若比值|an/bnl对大的n都有界;或,存在 个数K和一个整数n(K)使得当n大于n(K)后总有an|>K|bn|。即,{an}和比较的序 列{bn}有相同的阶 定义2.5an=o(bn),读作an是小obn,若比值lan/bn|收敛于零;或,vε> 0,彐n(),使得当n>n(a)时,就有lan|<εn|。即,{an}和比较的序列{bn}有更小的 阶 想法是比较{bn}对{an}近似的阶或量。一些重要的{bn}是bn=n-1,bn=n-1/2,bn=n,b2= 阶的比较是涉及序列的”大N”的性质而与序列的初始值无关 (1){an}的值是无穷或是对有限个n没有定义,它是不受此影响的 (2)若|anl表示向量an的长度,即 (24)和(2.5)都可用于向量序列{an} ()若c是非零常数,则an=O(bn)与an=O(cbn)是等价的; (4)an=0(1)表示an→0,an=0(1)表示对某个K,只要n充分大就有|an≤K,即lan 本质上是界的 (5)an=O(an)总成立
2.11 渐近方法 • 选择参数估计量的准则不同:经典方法或者以最小二乘,或者以最大或然为准则,求解参 数估计量;贝叶斯方法则需要构造一个损失函数,并以损失函数最小化为准则求得参数估 计量。 贝叶斯定理 g(θ |Y ) = f(Y |θ )g(θ) f(Y ) (2-36) 2.11 渐近方法 来自[16]第十四章渐近方法。 渐近分布 定义 2.3 (渐近分布) 用 T1 < T2 < · · · < TN 表示连续递增样本容量,设在每个样本容量 Ti 下重复抽样,则每个 XTi 都有自己的样本均值和方差利用递增样本可以求得随机样本序列 XT = {XT1 , · · · , XTN },其中每个元素是相应样本容量下的一个随机变量。当 TN → ∞ 时,这 些分布收敛于某一分布,则称该分布为渐近分布或极限分布。 相应的,可建立渐近期望和渐近方差概念。 问题 2.1 lim E[XT − E(XT )]2 = 0,即分布退化成一点。 用 T 乘 V ar(XT ) 使 T V ar(Xˆ) → σ 2。O、o 记号 随机变量: Op, op;非随机变量: O, o。 设 {an} 和 {bn} 是两个实数序列: 定义 2.4 an = O(bn) ,读作 an 是大 Obn,若比值 |an/bn| 对大的 n 都有界;或,存在 一个数 K 和一个整数 n(K) 使得当 n 大于 n(K) 后总有 |an| > K |bn|。即,{an} 和比较的序 列 {bn} 有相同的阶。 定义 2.5 an = o(bn) ,读作 an 是小 obn,若比值 |an/bn| 收敛于零;或,∀ε > 0,∃n(ε),使得当 n > n(ε) 时,就有 |an| < ε |bn|。即,{an} 和比较的序列 {bn} 有更小的 阶。 想法是比较 {bn} 对 {an} 近似的阶或量。一些重要的 {bn} 是 bn = n −1 , bn = n −1/2 , bn = n, bn = n log n。 阶的比较是涉及序列的”大 N”的性质而与序列的初始值无关。 (1) {an} 的值是无穷或是对有限个 n 没有定义,它是不受此影响的; (2) 若 kank 表示向量 an 的长度,即 kank = sX i a 2 ni (2-37) (2.4)和(2.5)都可用于向量序列 {an}; (3) 若 c 是非零常数,则 an = O(bn) 与 an = O(cbn) 是等价的; (4) an = o(1) 表示 an → 0,an = O(1) 表示对某个 K,只要 n 充分大就有 |an| ≤ K,即 |an| 本质上是界的; (5) an = O(an) 总成立; - 18 -
第二章估计方法引论 (6)乘积规律: O(an)O(bn)=O(anbn) O(an ) o(bn)=danby o(an)(bn)=o(anbn) 7)求和规律:和数的阶是被加项中最大的的阶。(当被加的项依赖于n时就不一定对) 例2.1e的近似 序列en是 可先取对数log(en)=nlog(1+m-1),求取对数后的极限再反求对数得到。令f(t)=log(1+t) 泰勒一阶展开: =f(0)+f'(0)t+o(t) 所以 og(en) g(1+n-1) =1+o(1) 因此 log(en)→1 2-42) 问题2.2{en}收敛到e速度比较慢,为此修正en并考虑∫(t)的高阶展开式 定义序列xn为 =log(1+n-) 考虑序列 ((n+c)inI (2-4) 其中c为待定常数。将序列xn二阶展开 f(n-1) +o(n (2-45) 所以 nt c o(n-2) 111 =1+n-2n-2cn-2+m(n-2)+con =1+(c-5)n-1+o(n-1) 选择c=,(n+c)zn收敛于1的阶从o(1)改进到o(n-1)。这样定义一个新序列e e=(1+n-1)n 它的收敛速度比en要快
第二章 估计方法引论 (6) 乘积规律: O(an)O(bn) = O(anbn) O(an)o(bn) = o(anbn) o(an)o(bn) = o(anbn) (2-38) (7) 求和规律:和数的阶是被加项中最大的的阶。(当被加的项依赖于 n 时就不一定对) 例 2.1 e 的近似 序列 en 是: en = (1 + 1 n ) n (2-39) 可先取对数 log(en) = n log(1+n −1 ),求取对数后的极限再反求对数得到。令 f(t) = log(1+t), 泰勒一阶展开: f(t) = f(0) + f 0 (0)t + o(t) = t + o(t) (2-40) 所以 log(en) = n log(1 + n −1 ) = n(n −1 + o(n −1 ) = 1 + o(1) (2-41) 因此 log(en) → 1 (2-42) 问题 2.2 {en} 收敛到 e 速度比较慢,为此修正 en 并考虑 f(t) 的高阶展开式。 定义序列 xn 为 xn = log(1 + n −1 ) (2-43) 考虑序列 {(n + c)xn} (2-44) 其中 c 为待定常数。将序列 xn 二阶展开: xn = f(n −1 ) = n −1 − 1 2 n −2 + o(n −2 ) (2-45) 所以 (n + c)xn = (n + c)(n −1 − 1 2 n −2 + o(n −2 ) = 1 + c n − 1 2 1 n − 1 2 cn−2 + no(n −2 ) + co(n −2 ) = 1 + (c − 1 2 )n −1 + o(n −1 ) (2-46) 选择 c = 1 2,(n + c)xn 收敛于 1 的阶从 o(1) 改进到 o(n −1 )。这样定义一个新序列 e ∗ n: e ∗ n = (1 + n −1 ) n+ 1 2 (2-47) 它的收敛速度比 en 要快。 - 19 -
211渐近方法 同理,可按三阶泰勒展开,考虑{(n+c+dm-1}序列。f(t)=log(1+t)的三阶展开是 f()=t-2+2+or2 (2-48) (n +c+dn-)a =(n+c+dn-1)(n-1-n-2+n-3+o(n-3 可以证明c=是,d=- 随机序列的收敛性依分布收敛渐近方法的众多的重要统计应用之一是计算显著性水平概 率的近似值和给出置信区间,依分布收敛是评判这些近似的技术性工具 若{Xn}是一元随机变量序列,则它的分布函数是 若Xn是离散型随机变量,则Fn(x)是右连续的阶梯函数,只在Xn取值的点上有跳跃。 定义2.6(依分布收敛)设Xn的分布函数是Fn,X的分布函数是F,则当 lim Fn(a)= F() (2-51) 对F的所有连续点x都成立,则称Xn依分布收敛于X。 依概率收敛一个数字的常数C总是看成一个退化的随机变量C,它的分布是全部概率集 中于一个点c上。它的分布函数是 0a<c Fc(a) 1x≥c (2-52) Fn是一个右连续函数,只有一个不连续点x=c 定义27(依概率收敛于常数)如果对每个ε>0,有 limP{|Xn-c≤e}=1 则称{Xn}依概率收敛于c,写成Xnpc 定理22若C是一个退化的随机变量满足P{C=c}=1,则[Xn→xC等价于 X 依分布收敛是依概率收敛于一个常数的推广。 确立依分布收敛的方法直接证明Fn→F要证明对F的所有连续点都有Fn(x)→F(x) 例2.2长等待时间的分布 设Xn有几何分布 PIXn=k=(1-pn) 它的分布函数Gn(x)是一个阶梯函数,在每一个正整数上有跳跃,在它们之间是常数 Gn(x)=P{Xn≤x} (1-pn) (2-5) 等待成功的期望次数是p-1,对p=Pn=Mn-1,A>0,当n→∞时研究几何等待次数的情 令E(Xn) 问题2.3当n→∞时,Xn→∞
2.11 渐近方法 同理,可按三阶泰勒展开,考虑 {(n + c + dn−1} 序列。f(t) = log(1 + t) 的三阶展开是 f(t) = t − 1 2 t 2 + 1 3 t 3 + o(t 3 ) (2-48) 则 (n + c + dn−1 )xn = (n + c + dn−1 )(n −1 − 1 2 n −2 + 2 3 n −3 + o(n −3 ) (2-49) 可以证明 c = 1 2,d = − 1 12。 随机序列的收敛性 依分布收敛 渐近方法的众多的重要统计应用之一是计算显著性水平概 率的近似值和给出置信区间,依分布收敛是评判这些近似的技术性工具。 若 {Xn} 是一元随机变量序列,则它的分布函数是 Fn(x) = P{Xn ≤ x} (2-50) 若 Xn 是离散型随机变量,则 Fn(x) 是右连续的阶梯函数,只在 Xn 取值的点上有跳跃。 定义 2.6 (依分布收敛) 设 Xn 的分布函数是 Fn,X 的分布函数是 F,则当 limn→∞ Fn(x) = F(x) (2-51) 对 F 的所有连续点 x 都成立,则称 Xn 依分布收敛于 X。 依概率收敛 一个数字的常数 C 总是看成一个退化的随机变量 C,它的分布是全部概率集 中于一个点 c 上。它的分布函数是 Fc(x) = ½ 0 x < c 1 x > c (2-52) Fn 是一个右连续函数,只有一个不连续点 x = c。 定义 2.7 (依概率收敛于常数) 如果对每个 ε > 0,有 limn→∞ P {|Xn − c| ≤ ε} = 1 (2-53) 则称 {Xn} 依概率收敛于c,写成 Xn −→p c。 定理 2.2 若 C 是一个退化的随机变量满足 P{C = c} = 1,则 L [Xn] → L [C] 等价于 Xn −→p c。 依分布收敛是依概率收敛于一个常数的推广。 确立依分布收敛的方法 直接证明 Fn → F 要证明对 F 的所有连续点都有 Fn(x) → F(x)。 例 2.2 长等待时间的分布 设 Xn 有几何分布 P {Xn = k} = (1 − pn) k−1 pn (2-54) 它的分布函数 Gn(x) 是一个阶梯函数,在每一个正整数上有跳跃,在它们之间是常数: Gn(x) = P{Xn 6 x} = ½ 1 − (1 − pn) [x] x > 0 0 x 6 0 (2-55) 等待成功的期望次数是 p −1,对 p = pn = λn−1 , λ > 0,当 n → ∞ 时研究几何等待次数的情 况。 令 E(Xn) = λ −1n, 问题 2.3 当 n → ∞ 时,Xn → ∞。 - 20 -
第二章估计方法引论 为避免此一情况,考虑规格化变量 Yn的分布函数是 Fn(x)=P{Yn≤m}=P 目的是求Fn(x)的极限。对x≤0,易知Fn(x)→0。当x>0时 Fn(x)=1-(1-Mn-)(1-Mn (2-58) 易知 (1-A 因此对任一x>0: (2-60) 或当 时,有 1+o(1) 又 所以 Fn(x)→1-e-r (2-63) 因此,几何分布的极限分布是指数分布。 用矩母函数间接证明随机变量或向量的矩母函数MGF是离散分布确立依分布收敛最重 要的工具。设X=(X1,…,XT是一个随机向量,则X的矩母函数由下式给出 t,XI 定理23若(2-64)的期望值在0=(0,…,0)点附近的一个邻域内对(t1,……,tr)都有 01+…+ar E(X1…X= (t1,……,tr)la 定理24设Xn的MGF是Mn(t),X的MGF是M(t),当Mn(t)→M(t)在0= (0,…,0)的一个邻域内对所有t成立,则(Xn→2X 212广义矩方法 GMM就是极小化 q= m(B)w m(B) (2-66) 估计量为 B=arg min(m(B),'w-Im(B)) 权矩阵的选择是矩估计方法的核心问题 Hansen's(1982)提出最佳的权矩阵为 若随机误差项存在异方差且不存在自相关, White(1980)提出权矩阵的估计量为: W 1 若随机误差项存在自相关, Newey和west(1987)提出权矩阵的估计量为: L的选取准则为:使得随机误差项滞后大于的序列相关小到可以忽略不计
第二章 估计方法引论 为避免此一情况,考虑规格化变量 Yn = n −1Xn (2-56) Yn 的分布函数是 Fn(x) = P{Yn ≤ x} = P{Xn ≤ nx} = Gn(nx) (2-57) 目的是求 Fn(x) 的极限。对 x ≤ 0,易知 Fn(x) → 0。当 x > 0时, Fn(x) = 1 − (1 − λn−1 ) nx(1 − λn−1 ) [nx]−nx (2-58) 易知 (1 − λn−1 ) −1 ≥ (1 − λn−1 ) [nx]−nx ≥ 1 (2-59) 因此对任一 x > 0: (1 − λn−1 ) [nx]−nx → 1 (2-60) 或当 n → ∞ 时,有 (1 − λn−1 ) [nx]−nx = 1 + o(1) (2-61) 又 (1 − λn−1 ) nx → e −λx (2-62) 所以 Fn(x) → 1 − e −λx (2-63) 因此,几何分布的极限分布是指数分布。 用矩母函数间接证明 随机变量或向量的矩母函数 MGF 是离散分布确立依分布收敛最重 要的工具。设 X = (X1, · · · , XT 是一个随机向量,则 X 的矩母函数由下式给出: XX(t1, · · · , tT ) = E(e t1X1+···+tT XT ) (2-64) 定理 2.3 若(2-64)的期望值在 0 = (0, · · · , 0) 点附近的一个邻域内对 (t1, · · · , tT ) 都有 限,则 E(X α1 1 · · · X αT T = ∂ α1+···+αT ∂tα1 1 · · · ∂tαT T MX(t1, · · · , tT )|t=0 (2-65) 定理 2.4 设 Xn 的 MGF 是 Mn(t),X 的 MGF 是 M(t),当 Mn(t) → M(t) 在 0 = (0, · · · , 0) 的一个邻域内对所有 t 成立,则 L [Xn] → L [X]。 2.12 广义矩方法 GMM 就是极小化 q = m(β) 0W−1m(β) (2-66) 估计量为 βˆ = arg min (m(β) 0W−1m(β)) (2-67) 权矩阵的选择是矩估计方法的核心问题。 Hansen0 s(1982) 提出最佳的权矩阵为: 若随机误差项存在异方差且不存在自相关,W hite(1980) 提出权矩阵的估计量为: Wˆ = 1 n S0 (2-68) 若随机误差项存在自相关,Newey 和W est(1987) 提出权矩阵的估计量为: L 的选取准则为:使得随机误差项滞后大于的序列相关小到可以忽略不计。 - 21 -