第二章实验、亏值距离 所造成的象是单纯形U(6)上的一个测度,汜它为m,而个 别P,的象则是U(e)上另外一个概率测度P,由此很容易 证明就是#.于是我们得到了另外一个实验哪一{P 6∈6},其中P6(du)一m(dx) 众所周知,从到U()的变换x八M(x)是一个充分 统计量,因此按照第一节距离定义,和d′是等价的 事实上,任何根据(x)的信息而达到的风险,也能从已知x 的信息而达到.因此,d(,d)一0反过来说,称x入(x)是 充分的,就是说在给定v时的条件期望不依赖θ值.在相当弱的 条件下(将空间完备化即可),它的意义是:给定t,x的条 件分布独立于θ.在此情况下,将P转换到P所要用的随机 化概率K不依赖于6。最后,如果我们不用通常的 Markov核K 而用 Markov核的极限,则所用的“弱条件”订以完全去掉 根据上面的构造,m的总质量为,对每个6∈6,|dm=1, 我们称测度#为实验的典型测度,为了明确表示m是从得 来的,有时将m记为m+。d的等价实验啁{P0:0∈日}称为 Blackwell典型表达式,其中P6(da)=9m(dx) 设化集为U(e)上满足下列条件的所有正测度体组成:对 每一个坐标函数m,O∈,∈n满足1wp(un)-1.我们可用 其屮任何一个“来定义一个实验,记它为一{Q6:0∈份}, 2e(du )- Heu(du) 在第一节中提到,任何两个实验和、的距离可以用 △(a,)来度量,也可用任何度量测度m,和m的距离来 度量.这里我们将采用 Dudley以及其他一些作者用的“对偶 Lipschitz距离( dual Lipschitz distance)”.对U()中的任 何两个向量和“",令 -“"|-sup{la6-xll:6∈8} 对U()上的任何两个测度和”,对偶 Lipschitz距离定
522然比, Blackwell表达式 义为 pIdo 其中f满足:升≤1,f(4)-jx)l≤|u-”而峋, M"是U(6)中任何一对向量 下面我们叙述本节的主要结果: 定理1具有下列性质的函数φ:[0,∞]→[0,∞]存在 (1)当 时,小()→0 (2)对任何一对有同样指标6的实验d1和2 △(d1,d2)≤‖m lb≤小(△(d1,62)) 这个定理指出两个实验之伪距离Δ与它们的典型测度m2和 m的对偶 Lipschitz距离‖·lD是等价的。本节下半部分全是 用在证明此定理,证明要分好几步,每一步都有它术身的价值。在 证明定理1之前,我们先详细说明典型测度序列m。收敛到一个 极限m0的意义,此处,所用的收敛定义为‖m,一m0D0 引理1设{mn}为U(6)上的一个典型测度序列,则‖m m《→0当且仅当对每一个定义在U(e)上的有界连续函数Y, 7dmn→ldm 在对偶 Lipschitz度量下,典型测度集M是一合紧集。 这是熟知的引理。详细证明可参看 Le can1986]第34页。 此处我们仅对这项结果略作描述 从连续函数空间C(U)上的收敛来推得在对偶 Lipschitz范 数下的收敛,我们可以利用下列性质:满足|升≤1以及」f() f“")|≤l'-n"|二条件的∫函数集,在8误疮围内,可用另 连续函数集来近,此函数集为有限 至于反面的证明,我们要划用如下结果:所有满不等式 f()-f(x")≤Kla'-n"l的f函数集(K为某一常效),在 连续函数空间C(U)里是一个稠密集(这项结任下面还会用 到).至于证明M是,我们可在C(U)里取一个“数稠密子集{%: i=1,2,…},然后在序列m。里找一个有下州收飯性的子序列
第二章实验、亏值、距离 11 mn;对每一个,它使v;dm,收敛 关于定理1所提到的收敛,有几点需要说明.设lm,mn→ 0,记mn.为对mn有密度的概率测度(闻dm,9-dmn) 如果m。是来自实验啁n={P,:0∈e},则mn,a为P,概率 下向量V.-{…6的分布这里S,-∑…因为映 射a是连续的,因此m→m→m。,→m,。,反之,如果所有 的坐标测度mn,6∈8都收敛,它们的和当然也随着收敛。 其实,我们不一定要利用密度“,另一方法是任意固定 个值,取P,对PB,的密度dP,,此密度是P,被P 所控制的部分、从而获得另一个向量V,…-出Pn:∈6,其 中“.≡1,这就是说V,的θ坐标值恒等于1对°里 dPe 的向量来讲,从V。变换到V。是个乘积,Vn8-V dP 在U(e)里,这个变换是把U(6)中的每个w乘上1,这里需 要>0.因此除了M0的情形,这是个从U(e)到sk 的连续运算.下面我们来考虑极限测度m和m.。(其定义为 mo.(dn)=xm(da),在叫=0的“-集上,m,也无质量因 此,引用通常的证明方法,我们能得到:m→m1→m,。→m,,并 且,经变换k~1w后而产生的mn。的象也会收敛到m的 象 这项收敛是说似然比向量V-{dP∈则在P。概 dp 率下的分布收飯到m,。的象。反过来说,如果在s6上,V
52.2似然比。 Blackwell表达式 在P,下的分布≌(V,|Pa,)收敛到一极限,则每个ma,都 会收敛,从而m,也收敛,因为P是P。被P控制的 dP 那部分密度,因此, d")dP,=1, dP 在有些情况下,这个不等式是严格不等式总之,无论如何,利用 Markov不等式可以证明在6上,{(V,P)}始终是 个相对紧的测度序列 上面的解释指出,要验证m。的收敛,只需尝验证s(V P.)在每一个以∈)值上的收敛.而在第三章我们会看到在 许多情况下,只需验证x(V,1P6)在一个参数点6上的收 敛即可 下面我们来证明定理1中的不等式: △(a1,2)≤m,一m,‖D 比较简便的证明方法是比较两个实验里的 Bayes程序的风险.这 项只需比较 Bayes程序风险的结果是来自极小极大定理。极小 极大定理的叙述方法有好几种,其中之一为 定理2令6为一任意集,R为从到(-∞,+∞]的一个 函数集.设R满足下列三条件 i)苕r∈R,则inf{r(0):6∈6}>-∞ i)若r;∈R,i-1,2,且a∈[0,1],则存在r∈R,在 上满足r3≤ar+(1-a)r2 i)若r∈R且g≥0,则r+g∈R 对每一个在的上有有限支撑( support)的概率测度x,令 x(x)-inf{|r(6)x(4O):r∈R}.记R为R的团包,这里 的闭包是指对所有从的到(一∞,+∞]的函数侬照点态收敛得到 的闭包。则函数f:6(-∞,+∞]属于武的充要条件为:每 一个在创上有有限支撑的概率测度x皆满足
第二章实验、亏值距离 13 f(0x(d)≥x(x) 证明可见 Le cap[1986],此处不另绘出.与此定理有关的 是Sion[1958].…项结果,他的定理比较]泛,所用条件也比较 好.Sion的定理的一个简单证明可在 Berge和 G huila- Hour i 1962]的书中找到 我们需提醒读者,此处考虑的的为有限集.假如只考虑紧决 策空阆z,并且Z上的损失函数W。皆为下半连续,则在第一节 中定义的风阶函数集R(四,W)自然满足()、(i)、(i)三个条 件,扣且R(,W)本身已是一个闭集。这就是说,若要证明亏值 6(,9)≤E,我们只要证明对每个x和W,下列不等式 kv(r)≤x,() 成立,其中0≤W≤1,xm()-if{4:r∈R(,W) 换句话说,要证明△(61,2)≤|m1-m,D,我们只考 虑Baye程序的风险, Torgersen曾经求出这些风险的特征性质, 下述的特征性质与 Torgersen的相似,但略为简单些. 我们可以用“获利”和“平均获利”来讨论特征性质,而不用损 失和风险函数,这就是用获利函数V-1一W取代损失函数W 当然,若0≤W≤1,则0≤V≤1。因此我们去求使 (e)\w(x)p、dz)P6(4x) 取最小值的p,而是去求使平均获利 (d0)Ve()P (dx)Pa(dx) 取最大值的p 利用测度S-∑P和密度f6-“,将平均状利写成 ds Ve(sp, ( ds)fe(x)s(dx) 此处我们可以随意交换积分次序,将平均获表达为 s(dr)e(d*)V,()fe(x)r(do)