第一章决策理论基础27 1.6考虑一个决策者,他在可能状态集上的主观概率分布是p=(p (5)∈a。我们让他告诉我们,他的主观概率分布,但他可能会撒谎,而说出 △(Ω)中他想说的任何一个分布。为了引导他说出决策,我们计划给他某种报 酬Y(q,j),这个报酬是他所报告的概率分布q和随后将观察到的自然真实 状态§的一个函数 a.设对于△(a)中的每个q和中的每个s,他对我们所给报酬的效用 函数是u(Y(q,s),s)=q(s),则他所报告的q是其真正的主观概率分 布p吗?若不是,他将报告什么? b.设对于每个q和s,他对我们所给报酬的效用函数是u(Y(q,s),5) n(q(s)}。他所报告的q是其真正的主观概率分布p吗?若不是,他又将 报告什么? 1.7假设效用支付依赖于决策和状态,如表1-3所示。令(p(④1),p(62) 表小决策者在=11,21上的主观概率分布。 表1-3 状态61和母2的期望效用支付 决策 2 B a.首先假设B=35。p(日1)的取值范围是什么时,a才是最优的?p(61) 的取值范围是什么时,才是最优的?p(01)的取值范围是什么时,y才是最 优的?有没有强劣的决策?如果有,它是由哪个随机策略而为强劣的? b.现在假设B=20。p(日1)的取值范闺是什么时,a才是最优的?p(61) 的取值范围是什么时,β才是最优的?p(1)的取值范围是什么时,y才是最 优的?有没有强劣的决策?如果有,它是由哪个随机策略而为强劣的? c.对于参数B是怎样的取值范围,决策β是强劣的? 1.8假设一个函数W:△()→R满足 W(p)=mx∑p(t)(x,t),Hp∈4() x∈K 证明W是一个凸函数,即对△()中任意p和q,及满足0≤入≤1的任一A, 都有 W(λp+(1A)q)≤W(p)+(1-)W(q)
28博弈论 19在这个习题中,我们考虑了一些有用的条作,它们足以保证决策者在观 察到一个较强的信号后不会去选择(期望效用最大值)较低的最优决策。 假设X和g都是非空有限集,X三R,a=.21×a2,Q2SR和2三R。决 策者具有满足下述性质的效用函数v:X×→R和概率函数p:→R:对于 X中的每个x和y,B1中的每个1和t1发a2中的每个2和t2, 若 且(s1,s2)≠(t1,t2) 则 若 且s2>t2,则p(s1,s2)p(t1,t2)=p(s1,t2)p(t1,52) )>0 u所满足的条件表明,X中元素的增加所带来的净收益是随着g中各分量的 增加而增加的[即u具有递增的差额( increasing differences)]。由贝叶斯公 式,如果决策者观察到世界真实状态的第二个分量是s2,则他对真实状态未知 的第一个分量为s1这个事件所赋予的条件概率是 p(51|s2) P(r 证明:若51>t1且s2>t2,则p(51|s2)/p(t1|52)≥(s1t2)/p( t2)[这被称为单调似然比性质( monotone likelihood ratio property)。参见米 尔格龙( Milgrom,1981);及米尔格龙和韦伯( Weber,1982)。 b.假设对于决策而言,如果他观察到真实状态的第二个分量是s2时,y 36是其最优决策,而如果他观察到真实状态的第二个分量是t2时,其最优决策 为x,即 ∑p(n11s2)u(y,r1,)xmx∑(r1|2)u(x,n p(r t2)u(x, ri, 2)=max p(r1 1 t2)u( 证明:若52>t2,则y≥x
基本模型 2.1展开型博弈 对任何一个博弈或冲突局势的分析都必须从描述该博奔的一个模型的特性37 出发。因而,我们必须细致地考虑通常用来描述博弈的模型的一般形式或结 构。一个过于简单的模型结构可能迫使我们忽略实际博弈中我们想去研究的重 要因素,而一个过于复杂的模型结构则可能使简单问题变得模糊而让我们的分 析难以进行。为了避免这两种极端情况,有几个常规的形式被用于博弈的表 示,其中最重要的就是展开( extensive)型和策略( strategic)或正规(nor- ma)]型。展开型是描述博弈局势最富于结构的一种方式。现已在博弈论方面大 多数文献中标准化的展开型的定义,乃源于库恩( Kuhn,1953),他修改了冯 诺依曼和摩根斯特恩(1944)所使用过的早期定义(也可参见克雷普斯和威尔逊 对展开型的另一个定义,1982)。策略型及其推广——贝叶斯( bayesian)型在概 念上相对简单,对于一般分析的目的而言也更为方便,只是被普遍地认为是出展 开型引伸而得来的。 为了引入展开型,让我们考虑一个两人玩的简单摊牌游戏,这两个人被称 为“局中人1”和“局中人2”。(贯穿仝书,我们遵循奇数编号的局中人为男 性而偶数编号的局中人为女性之约定。当局中人被认为是变量和性别不确定 时,一般用男性的代词表示。) 在博弈开始时,局中人1和2各放1美元在一只罐中。然后,局中人1从38 洗好的一副牌中抽取一张牌,且这副牌中有一半红色牌(方块和红心)和一半 黑色牌(草花和黑桃)。局中人1私下看看这张牌后决定是加注还是摊牌。如 果局中人1摊牌,那他就把这张牌给局中人2看,游戏也就结束,此时若牌是 红色,则局中人1得到罐中的钱;若牌是黑色,则局中人2得到罐中的钱。如 果局中人1次定加注,那么他就再放1美元到罐中,并轮到局中人2必须决定 是对抗还是放弃。若局中人2决定放弃,则游戏结束,且局中人1取走罐中的 钱。若局中人2决定对抗,则她必须也再放一美元在罐中,局中人1将牌摊给 她看,游戏结束。此时,若牌是红色,则局中人1得到罐中的钱;若牌是黑 色,则局中人2得到罐中的钱
30博弈论 图2·1是一个树图,它表示了这个摊牌傅弈中所有可能发生的可能事件。 这棵树是由一个枝( branches)(或线段)集组成,每个枝连接着两个称之为结 点( nodes)的点。树中最左端的结点是树的根(root),它表示博弈的开始 树中有六个结点向右没有另外的枝继于其后,这类结点被称为终结点 并表示这个博奔可能结束的可能方式。博弈中可能发生的每一可 能的事件序列都用一个从根到这些终结点之一的一条由枝形成的路径来表 当这个博弈实际地进行时,出将发生的实际的事件序列所表示的路径被称为局 路径( path of play)。博弈论分析的目标就是试图去预测这条局路径。 在图21的每个终结点处都给出 角22 加注(标为R 的以放弃 了一对数字,用以表示如果局路径在 △11该终结点结束,局中人1和2将分别 对抗 得到的支付。例如,一个可能的事件 1加注(标为r)2 22序列是,局中人1抽到一张红色牌, 他加注且局中人2对抗。此时,局中 人1将得到支付+2,而局中人2得到 的支付将是-2。这个事件序列在图2 图2·1 1中是用从根到右边最高终结点的路 径表示的,且在此终结点处指出了支付向量(2,-2)。另一个可能的事件序 列是,局中人可能抽到一张黑牌,然后摊牌。这个序列在图21中是用从根到 靠近树图中部的最底端终结点的路径表示的,此处局中人1得到的支付是-1, 而局中人2得到的支付是+1 在向右继有多于一枝的非终结点处,这些后继的枝表示可供选择的事件, 其中最多只有一个能够发生。决定这些可供选择事件中哪一个将会发生,要么 受控于一个局中人,要么受制于机会。如果事件由机会决定,那我们就给这个 结点一个标号“0”,即是说,一个具有标号“0”的非终结点是机会结点 ( chance node),机会结点在局路径中的下一枝将由某种随机机制按照机会结点 后继枝上所示的概率而决定。在图2·1中,根具有标号“0”,这是因为局中人 1所取牌的颜色是由机会决定的(局中人1不到抽出牌后是不能看他的牌的)。 根后继两枝,每枝都有概率0.5,这是因为这些牌中有一半红色和一半黑色。 一个标号不为0的非终结点是一个决策结点( decision node),从它引出的局路 径中的下一枝是由被标号命名的局中人所决定的。在抽取了他的牌后,局中人 l决定是加注还是摊牌,因此,紧随着根的两个结点由局中人1控制并具有标 号“1”。 不过,图2·1不是我们简单摊牌博弈的一个尽如人意的表述。在图21 中,我们没有在任何地方标示了这样一个关键事实,即局中人1知道牌的颜 色,而局中人2不知道牌的颜色。如果你只看了图2·1,你可能会预料:如果 1握有红色牌而加注时2将放弃(因为那时她将偏好支付-1胜于-2);但如
第二章基本模型31 果1握一张黑色牌而加注时,2将对抗(因为那时她将偏好支付2胜于-1) 然而,在这两个结点处2的预期行为必须相同,因为她在对抗与放弃之间做出 选择之际,并不知道1手中牌的颜色。另一方面,局中人1可以计划在持有 张红色牌时加注而在持有一张黑色牌时摊牌,因为他能区分他所控制的这两个 结点。为了在这个博弈中标出每个局中人在他或她行动时的信息,我们需要把40 这个树图扩充如图2·2所示。 在图2·2中,每个决策结点 具有两个标号,它们是用小数点 M●2,2 隔开的。在小数点的左边,我们 。2。 写上局中人标号( player label) 用以表示控制该结点的局中人名 称;而在小数点的右边,我们写 上信息标号( information label), 11 用以标出这个局中人在该结点行 动时他或她的信息状态( informa 图22 tion state)。因此,标号“1,a 标示了局中人1在信息状态“a”行动的一个结点;而标号“2.0”标示了局中 人2在信息状态“0行动的一个结点。为各种信息状态命名所用的字母和数 字可以是相当随意的。在图2·2中,1的信息状态“A”是其持有一张红色牌 的状态,1的信息状态“b”是其持有一张黑色牌的状态,而2的信息状态 “0”是其知道1已经加了注的状态。信息标号的唯一重要之处在于它标出了那 些由某个局中人控制但不能加以区分的结点集。所以,由于局中人1的结点有 不同的信息标号,而局中人2的结点有相同的信息标号,故图22的读者知 道,局中人1在他行动时能够区分他的两个结点,而局中人2在她行动时不能 区分她的两个结点。为了强调那些不能被区分的结点的集合,我们还可以将每 个具有相同的局中人标号和信息标号的结点集用虚线圈起来。 图2·2是用展开型表示我们简单摊牌博弈的一个完整描述。值得指出的 是,在图21中机会结点后面的枝上标有的“红”和“黑”两个标记在图224 中都被省略了,但其他枝上的标记都保留了下来。不难看出,将局中人1置于 致胜位置的实际牌色对分析这个博弈而言是无关紧要的,因此,我们不必在表 示机会事件的枝上加以标记。然而,在表示局中人决策的枝上的行动标号 nove labels)却是描述这个博弈的一个实质部分。 在不知道他或她在其中所必须选择的项是什么的情况下,一个人是不可能 做出有意义的选择的。因此,当局中人2在不知道自己处在哪个结点上的情况 下做出决策时,她不可能选择某一特定的枝。她所必须实际选择的只是一个行 动(move):“对抗”或者“放弃”;并且局路径屮的下一枝将是当前结点后具 有这个行动标号的那个枝。为了保证一个局中人在博弈的每一点上总是知道可