起作用的简单例子 战斗机和轰炸机 在第二次世界大战中,战斗机飞行员通常是从阳光方向突 然俯冲向轰炸机来攻击他们的,这是一种称为“阳光下的野蛮 人'策略的手段.但当每架飞机应用此策略时,轰炸机飞行乐就 只要戴上他们的太阳镜并目不转睛地盯着太阳寻找战斗机.因 此就出现了从下面径直向上攻击的第二个策略.当战斗机未被 发现时,这种办法证明是很有效的,但如果战斗机飞行员被发现 了,那对他来说总是致命的,因为当飞机爬高时总比飞机俯冲吋 要慢很多.因为这个策略儿乎与日本神风突击队员( Kamikaze) 的攻击风格截然相反,我们给它标名为“Ezak-lmak”策略 (“ Kamikaze的倒拼②).所以现在我们就有了一个战斗机飞行 员和轰炸机机组人员之间的两人零和对策.战斗机或能使用阻 光下的野蛮人策略,或Ezak-hmak策略,与之同时,轰炸机机组 人员能通过枪炮手的炮塔或仰视或俯视.如果我们同意把在 次单独作战任务中幸存下来的机会作为对战斗机飞行员的支付 的度量的话,那么我们就可以用由以下的支付矩阵中给出的典 型的幸存概率来描述对策理论局势 轰炸机机组人员 仰视俯视 战斗机飞行员 阳光下的野蛮人 ezak-Emak 这显然是一个没有鞍点的对策(为什么?).所以不存在即 ①译注: Kapital为第二次世界大战期间日本空军敢死队,队员 驾驶装载炸弹的飞机撞市乍舰等目标,与之同归于尽 ②译注:反神风突击队员式的策略,逃跑向上爬高之意
使其劝手得知了对方选择的消息后也无法利用的战斗机飞行员 和轰炸机机组人员能选择的纯策略.作为替代,双方都必须混 合他们的行动,有时这样行动,有时又那样行动;他们必频在 L19任一给定的出击中从对他们可利用的各种可能的行动中随机地 选择一个行动.当然,这并不意味着要采取的选择具有相等的 可能性.战斗机飞行员的支付表明阳光下的野蛮人策略几乎总 是成功的,同时Eak-mak策略是十分冒险的,因为如果轰炸 机机组人员碰巧i好是俯视的话,那么它就必死无疑.因此, 直觉使人联想到在阳光下的野蛮人和Ezak-lmak之间的最优混 合将强烈地偏爱前者,只是为了使轰炸机机组人员公平合理地 按规姆进行,战斗机飞行员才偶尔选择有风险的Fzak-lmak行 动.用后面我们将要讨论的方法,将让明的结果为,战斗机飞 行员的最佳混合策略是在每21次出击中使用阳光下的野蛮人 策略20次 战斗机飞行员可以这样来执行这个策略,即把20个白球和 1个黑球放在一个门袋里并摇动它们然后在每次战斗任务之 前他从袋中取出一个球,白球意味着背向太阳(阳光下的野蛮人 策略)出击,黑球告诉飞行员从下方进行攻击.结果表明对竅炸 机机组人员而言,仰视和俯视之间的最优混合是在21次中的俯 视20次.重要的是要注意这些比例是在平均意义上应用的,所 以,例如,对于轰炸机机组人员的策略并不意味着如果他们已俯 视过了20次,这次他们就应是仰视了.战斗机飞行员和轰炸机 机组人员双方在升始每次飞行之前,他们每人都从袋中选个 球,然后按他们拿到的球的颜色所下的命令行动 用下节的方法,战斗机飞行员和轰炸机机组人员的这些混 合策略导致的期望的安全水平为0.9524,稍高于总是遵循阳光 下的野蛮人策略的战斗机飞行员的肯定安全水平0.95.当然, 为获得这个稍高的幸存下来的期望水平,战斗机飞行员必接 受由于战斗机飞行员和轰炸机机组人员双方同时拿到黑球而必
死无疑的可能性(其概率是21×21=0.003)现在我们来看 下这些数是怎么来的 计箅最优混合策略 这里我们只考虑一个局中人或另-个局中人(但不必是双 方)至多有两个可利用的行动(郎,两个纯策略)的对策.计算局 中人双方都有两个以上纯策略的一般情形的最优混合策略的厅20」 法比我们能在这里描述的方法要稍微复杂一些对于-般情形 的细节,读者可以查阅文献目录中引用的文献 为了解这些比较简单的对策的最优混合策略的计算中包含 了什么内容,我们来看下局中人A有两个纯策略,而局中人B 有∴个纯策略的一个对策的下列支付矩阵 局中人 局中人A 假定局中人A的蛟优混合策略是以采用策略A-⊥对局的 次数所占的部分为x,而以1-x用AⅡ对局.局中人A对抗 局中人B的三个策略的期望支付或平均支付为: Ox+1(1-x)-1 对抗策略B-I, 2+3 对抗策略B_Ⅱ,(*) x+(1 3-1。对抗策略B-Ⅲ 通过画出作为局中人A运用策略A-1的次数所占部分这 个量x的函数.即每个期望支付函数的图形来图示这些结果是 有启发性的表小这些期望支付的每条曲线恰好是如图1.3中 2J
所示的一条直线.对于x的每个值,在该点处直线的高度代表 了局中人A选择A-所占次数的部分为x及选择A-Ⅱ所占 次数的部分为1-x时局中人A对抗局中人B的三个策略的支 B 6 3/4 1/2 1/2 B- A的支付 0 图王.3对策的图形解 局中人A关心的是对每个可以选到的x的每个可能值,他 或她能得到的最小支付.从几何上说,这个最小期望支付是在三 条直线在x的每个值处的最低点上.因此局中人A力图选择 x,使得其最小支付尽可能大.换句话说,A将寻找x值使之相 应于三条直线的最低点中的最高点.这出现在极大极小点处,即 21在图中的x=Q处.这相应于三条线的下包络上的最高点P,距 离PQ表示先前我们用v来表示的对策的值,而距离x=0Q表 示局中人∧应使用策略A-I以便得到这个最优期望支付所占 的次数的部分,当然,距离1-x=1-0Q则表示局中人A应使 用策略A-Ⅱ所占次数的部分 注意以下一点是重要的;表示策略B-Ⅲ的直线整条都处 在三条策略线的下包络的上面.这意味着对于局中人B而言, 纯策略B-Ⅲ是不值得考虑的,因为运用此策略对抗局中人A 的最优混合策略将导致局中人B的支付不会好于运用另外两 种策略的某种组合所能达到的支付对于局中人B这是不好
的,局中人B是极小化的局中人,因此他要得到最小可能的支 付,而不是最大的攴付.所以,局中人B可从不考虑策略B-Ⅲ (这从以下的事实来看是显而易见的:局中人B的最优混合策 略中,该策略出现的概率为零) 从对策的几何表示看到极大极小点通常只位于局中人B 的策略线中两条线的交点处是相当明显的,因为三条或多条线 交于单一点处是一组非常特殊的情形但假设图1.3中B-Ⅲ 线下移并使之通过点P这时,策略B-Ⅲ仍然不是局中人B的 最优混合策略之一,因为使用该策略不能给局中人B带来比使 用纯策略B1和B-0组合更多的利益.当然,如果直线R Ⅲ再往下降,极大极小点变成B-Ⅱ和B-Ⅲ的交点,这时就不[22 考虑策略B-Ⅰ了.这种情形完全是普遍的;局中人A的极大极 小点将总是位于局中人B的两个纯策略线的交点处.这使我们 能把局中人双方的最优混合策略的计算减少为一个2×2对策 的最优混合策略的计算 我们通常要的是比从图1.3展示的图形解中读出更精确的 对策的解计算两个局中人精确的混合策略的方法是利用早先 指出过的对策理论的论据,即当局中人A使用最优混合策略对 抗纯策略B-I或B-Ⅱ中时,局中人A必须收到恰好同样的 期望收益,即,我们所谓的对策的值.在石头—纸—剪刀对策中 有过这种例子,其中Max使用任一混合策略得到的都是同样的 平均收益——恰好是只要Min继续运用她的最优混合策略的平 均收益.从前面给的方程(x),我们知道局中人A对抗纯策略 B-I和B-Ⅱ的两个期望支付是: E(对抗B-Ⅰ)=1-x, E(对抗B-l) 十x 令这两个表达式相等,得到x=3.把这个值代入到上面关系式 23