22博弈论 表1-1 状态91和2的期望效用支付 决策 3 7 当且仅当下面两个不等式同时被满足: 8p(1)+1(1-p(1)≥5p(1)+3(1-p(61) 8p(④1)+1(1-p(1)≥4p(1)+7(1-p(91) 28这两个不等式中的第一个断定,从a得到的期望效用支付一定要至少和从β得 到的一样多;第二个不等式断定,从a得到的期望效用支付一定要至少和从y 得到的样多。通过简单的代数运算,这两个不等式意味着当p(1)≥0.6 时,a就是最优的 类似地,决策Y是最优的,当且仅当 4p()+7(1-p(1)≥8p(1)+1(1-p(1)) 4p()+7(1-p(61)≥5p(01)+3(1-p(61) 并且在p(0)≤0.6时,这两个不等式是同时满足的。决策β是最优的,当 且仅当 5p(61)+3(1-p(1)≥8p()+1(1-p(G1) 5p(1)+3(1-p(1))≥4p(61)+7(1-p(61) 但没有能同时满足这两个不等式的p(B1)。因此,a和γ都是在某个的概率 区间上最优的,但β为最优的区间是空集。 于是,即使不知道p,我们也能够断定β对决策者而言不可能是最优的决 策。这样的一个对任何信念集都不可能是最优的决策称为强劣的( strongly dominated) 识别这样的劣选择或许有助于对决策问题的分析。注意到,若决策者能肯定 状态为1,则a是最好的;而若决策者肯定状态为a2,则Y是最好的,因此,易 于验证,a和y在这个意义上都不会是劣的。就β在支付表的每一列中既不是最 好也不是最差的选择这一点来说,3是一种中间决策。然而,这样的中间决策不 定是劣的。例如,若决策β的效用支付在两个状态下都换成6,则只要5/7≥ p()≥1/3,就是最优决策。另一方面,若3的效用支付在两个状态下都换 成3,则因为选择y总是好于选择β,所以显然不可能是最优的。 对于上面给出的原支付表而言,有另一种看出B是劣选择的方法。假设决 策者为了确定其决策而考虑下述随机策略:掷一枚硬币,若正面朝上则选择
第一章决茉理论基础23 a,若反而朝上则选择γ,由于选择a和γ的概率都是.5,所以这个策略记为29 5L。若真实状态是θ1,则这个随机策略给出的期望效用支付为 5×8+,5×4=6,这好于从8所得到的效用支付5(回顾一下,由于这些支 付都是效用,所以较高的期望值总是更为决策者所喜爱)。若真实状态是a2 则这个随机策略给出的期望效用攴付为.5×1+.5×7=4,这好于从β所得到 的效用支付3。因此,无论处于什么状态,从.5[a]+.5[Y]得到的期望支 付总是严格高于从B得到的支付,故可以断言,决策者选择是非理性的,因 为无论他关于状态的信念是什么,他从随杋策略.5[a]+.5[y]得到的期望 支付都比从β得到的支付高些。我们可以说,由于随机策略.5a]+,5[Y], 3成了强劣策略。 般地,一个随机策略( randomized strategy)就是决策选择集X上的任 概率分布。通常我们用σ=(a(x)∈x表示这样的一个随机策略,其中 (x)表示选取x的概率。给定效用函数v:X×a→R,我们说X中的一个决 策选择y因△(X)中的一个随机策略而成为强劣的,当且仅当 ∑叭(x)u(x,t)>u(y,t),∈a 也就是说,如果无论在什么状态下,按照期望效用准则,σ总是严格地好于y 那么y就是由d而为强劣的。 目前,我们已经在两种不同的意义上使用了术语“强劣的”。下述定理肯 定了二者之间的等价性。 定理1.6若给定:X×Q→R,其中X和都是非空有眼集,且给定X 中任一y,则在△(X)中存在一个随机策略σ使得y在条件(1.8)的意 义上归σ为强劣策略的充分必要条件是,在Δ(Ω)中不存在任何一个溉率 分布使得y在条件(17)的意义上是最优的。 此定理的证明稍后在19节中给出。 定理16为我们给出了随机策略这一重要概念的第一个应用。然而,值得 注意的是,这个结论并没有断言,理性决策者一定要用随机策略,而只是断30 定,如果我们想证明,不存在关于中状态的信念能让X中的某特定选择y 成为最优决策,那我们就应该尽力找到一个在每个状态都好于y的随机策略。 这样的一个占优随机策略不一定是决策者的最好策略,只是明显地比y要好。 X中的一个决策选择y是由△(X)中的一个随机策略为弱劣的(w dominated),当且仅当 ∑(x)a(x,t)≥u(y,t),Yt∈a x∈X 或者译为y是被a强占优的——译者
24博弈论 并且在身中至少存在一个状态s使得 ∑(x)n(x,s)>(y,s) Ex 也就是说,如果在任何状态下用G都绝不会差于y,并且至少在一种可能的状 态下σ严格地比y好,那么y是由雨为弱劣的。例如,设X={a,},a ,82},且u(…,)如表1-2所示,在这种情况下,B是由a(即La], 它表示选取α的概率为1的随机策略)为弱劣的。值得注意的是,如果决策者 以概率1相信6是真实状态,则β是最优的(与a不分上下)。但是,如果他 赋予乌2任何一个正的概率,那他就不会选择。这一观察由类似于定理1.6的 下一定理而得以推广。 表1-2 状态日1和母2的期望效用支付 决策 0-55 定理17若给定u:X×Q→R,其中X和Ω都是非空的有限集,且给定 X中的任一y,则在Δ(X)中存在一个随机策略σ使得y是由σ而为弱劣 的充分必要条件是,Δ(Q)中不存在任何一个概率分布使得y在条件 (1.7)的意义上是最优的。(回顾△°(Ω)是Q上对D中每一状态都赋予 严格正概率的概率分布集。) 19占优定理的证明 这里对定理16和17的证明使用了线性规划中的对偶定理。有关这一结 论的完整推导可以在线性规划方面的任何一本教科书中找到[参见切沃托 ( Chvatal,1983);或吕恩伯格( Luenberger,1984)]。这一定理的叙述在3.8 节中讨论了二人零和博弈之后给出。对线性规划中对偶定理不熟悉的读者 应该在阅读过3.8节之后,再回头阅读定理16和17的证明。 定理16的证明考虑以下两个线性规划问题。在第一个问题中,变量是δ 和(p(t);∈a: 最小化δ,其约束为 原文误为3.7节—一译者注
第一章庆理论基础25 p(s)≥0,Ms∈a p(t)≥1 p(t)≥ 8+∑p(t)((y,t)-u(x,t))≥0,Vx∈X 在第二个问题中变量是((t):∈,(e1,e2)和(a(x)x∈x: 最大化61-∈2,其约束为7∈R2,e∈R2,o∈R nt)+81-2+∑a(x)(u(y,t)-(x,t)=0,Yt∈ (这里R,表示非负实数集,因此,R就是下标集为Q而各个分量均为非负的 向量集。)当且仅当第一个问题存在一个使(δ)的最优值小于或等于0的解 时,才存在使得y是最优的某个p。另一方面,当且仅当第二个问题存在一个 使(a1-a2)的最优值严格大于0的解时,才存在某个随机簧略a强占优于yo 第二个问题是第一个问题的对偶(参见38节),并且这两个问题的约束条件都 是能够满足的。于是由线性规划的对偶定理可知,这两个间题的最优值必须相 等。因而,当且仅当△(9)中不存在一个概率分布使y是最优选择时,y是由 某个随机策略为强劣的(且两个问题都具有严格正的取值)。 定理1.7的证明考虑以下两个线性规划问题。在第一个问题中,变量是δ 和(p(t));∈a 最小化8,其约束为p(s)+8≥0,Hs∈a ∑p(t)((y,t)-(x,t)≥0,x∈X 在第二个问题中变量是(n(t)∈a,e,和(o(x)2∈x 最大化-∈,其约東为∈R,e≥0,σ∈R ∑m(t) 小)+(-)+∑x)((y,t)-(x,)=0,w∈ 当且仅当第一个问题存在一个使(a的)最优值严格小于0的解时,△(a) 中才存在某个使y成为最优选择的p另一方面,当且仅当第二个间题存在一 个使(-c的)最优值大于或等于0的解时,才存在某个随机策略d弱占优于 y(第二个问题的解向量σ可以是弱占优于y的随机策略的若于正数倍)。第二
26博弈论 个问题是第一个问题的对偶,并且这两个问题的约束条件都是能够满足的。于 33是由线性规划的对偶定理可知,这两个问题的最优值必须相等。因此,当且仅 当△"(2)中不存在个概率分布使得y是最优选择时,y才是由某个随机策 略为弱劣的(且两个问题都有非负值)。■ 11设彩金集X是实数集R的…个有限子集,而彩金x表示给予x美元 个决策者说,如果他知道世界真实状态存在于某个集合T中,那么他将弱 偏好一个彩票∫胜于另一个彩票g(即frg),当且仅当 f(x|s)≥min∑xg(x1s) (也就是说,他偏好那种能在最差的可能状态下带给他较高期望支付的彩票。) 这个偏好关系违背了公理系的哪一条(如果违背了公理系中某个公理的话)? 2将习题11中的偏好关系改为:frg当且仅当 minx1f(x1s)>0≥∑minx|g(x15)>0 sET 这个偏好关系又违背了我们的公理系中的哪一条(如果违背了其中某一个公理 的话)? 3证明公理1.1B蕴含了 若f-sg且 则∫~sh;及 若f>sg且g≥sh,则f>sh 4证明公理1.1A与1.5B一起蕴含了公理1.1B和公理13 1.5一个决策者表达了其对货币彩票的如下偏好序(单位:美元) [600>[400]>0.90[60]+0.10[0] >0.20[600]+0.80[0] >0.25[400]+0.75[0]>[03 34这些偏好与某个状态独立的货币效用相一致吗?如果是,给出一个可以适用的 效用函数。如果不是,说明这个偏好序背离了哪个公理