新除 尼只能得到一天的轰炸时间.但如果日方航行南线,邡么肯尼将 得到3天的轰炸时间.所以为避免-且他查明日方已决定做什 么而有任何遗憾,肯尼应选择他能轰炸日本舰队的最少天数中 的最大值(极大化).这意味着他应搜索北线.由类似的一串推 理,日方司令官的不会感到遗憾的选择是航行北线,因为这是一 个使日方船队暴露给同盟国轰炸机的最多天数中的最小值(极 小化)的决定 从肯尼将军和日方词令所面临的这种局势的初等而常识性 的分析拓广一下,我们得到结论:明白事理的决策者将寻求能在 最坏处境下给他(或她)最好可能支付的行动方向,也就是,其对 手采取他(或她)的最佳对抗行动所取的最好支付值.显然,这导 致局中人每人都采取可以称作为“不愿冒风险”的决策:为∫避 5]免招致不必要的输而舍弃可能的羸的决策.现在让我们来看看 怎样能直接从对策的支付矩阵得到这些不愿冒风险、合理的行 动方向 回想一下俾斯麦海战的支付矩阵,行局中人(同盟国)想极 大化其极小的支付所以我们在矩阵的每一行写下极小的表值, 表示肯尼将军能采取的行动的支付.类似地,列局中人(日方司 令)想极小化使他们被暴露而受轰炸的最大天数.从而我们写下 矩阵每列的极大值.做了这个练习之后,我们得到如下所示的 阵列 日方 航行北线 航行南线 行极小 搜案北线 2天 2天 同盥国 搜囊南线 1天 3天 列极大 按照我们关于什么是构成一种合理选择的不愿冒风险的概 念,同盟国要求行极小中的最大值,而日方要求列极大中的最小
值.嗨,你瞧!这两个数字(在阵列中用黑体表示)在一对决: 同盟国搜索北线,日方航行北线处的值是一样的.这样的行动组 在该处,行极小中的极大值(“极大极小”)等于列极大中的极 小值(“极小极大”)称为对策的平衡点.这是因为由选择这些行 为,两个局中人确保了他们自己的某种极小支付—一而不用管 他们的对手采取什么行动.因此,两个局中人都不会单方面背离 他或她的平衡决策.而且,一旦得知对手的选择,局中人都不会 对其决策感到遗憾.因闪为双方都注意到,考虑到他们对手的选 择,若作不同的选择,他或她的结果可能会更坏,换句话说,在如 下意义下平衡解是防弹的”或稳定的,即任一个局中人都能先 于其对手声称他或她的选择在知道其对手不可能利用此情报来 得到更好的支付的情况下是安全的 z·丑(xy) 图1.2对策论的鞍点 这类的平衡决策点常常称之为鞍点出于把对策的一局的 支付z想象为由-…个依赖于称之为x的行局中人作出的选择以 及我们将称之为y的列局中人的决策的数所给出,就产生!这 样的命名换句话说,支付是x和y的一个实值函数,我们将记
作a(x,y).若x,y和a(x,y)都是实数,则函数a(x,y)能由 图12所示的三维空间中的一个曲面儿何地表示出来.把这个 曲面看作…幅高程图,其中选择x和y分别是纬度和经度不变 的直线,于是,支付z=a(x,y)仅仅是这两条线相交处的高度 而已.行局中人想得到这个曲面上的最高峰值,与之同时.列局 中人想得到最低谷的值所以如果有像图中的S那样的一点, 它同时是x方向的最高点和y方向的最低点,那么我们就有看 起来像图中所示的马鞍形曲面这样的出面这就是导致术语“鞍 点”的这种局势的几何结构这样一点也常常称作极小极大点 在俾斯麦海战中,-对选择x=搜素北线和y=航行北线 恰好就是这样个鞍点,有趣的是在实际的俾斯麦海战中,两个 司令官确实采取了这些决策(结果导致了日方的惨败) 鞍点的重要性就在于它表示了两个局中人的一种决策局 「7中人都不能由单方面背离它而做出改进.总之,任何一个局中人 都能先于另一个局中人宜称这样一种选择并且不会因这样做而 造成任何损失.所以,每个局中人的最佳选择是在鞍点处的决 策,这称为纯策略对策的一个“解”这是因为不论对策进行多少 次,每个局中人的最伟选择总是取他或她的鞍点决策 但我们已从几何上看到鞍点同时处于支付曲面的一个力向 上的最高点以及另一方向上的最低点.利用支付矩阵,用代数术 语来说,鞍点处于行极小的最大值和列极大的最小值相等的地 方.但的确容易想象有不存在鞍点的支付矩阵和几何曲面在这 种倩况下,对于一个局中人来说,没有易于理解的方法可用来避 免不被碰巧事先获悉该屙中人将要做什么的对手所利用.但因 为总是存在有关局中人意图的情报“泄漏”给对手的可能性,在 这种情况下,明白事理的局中人应如何继续前进呢?这正是作 为对策的所有数学理论的支柱的中心问题但在回答这个问题 之前,让我们暂停一卜,先来阐述一下迄今为止我们从俾斯麦海 战这个简单例子中学习到的对策论知识
算效详 策略的对策 以上给出的俾斯麦海战的观点.尽管它是实际局势的-个 粗糙而过分简化的描述,但仍完美地说明∫数学家所思考的¨策 略的对策”所涉及的是什么概念,归纳为基本原则,策略射对策 由二个相联系的部分组成 ●莴中人:…个对策包括最少两个具有不同利益的局中 人 ●行动:在局的每个阶段,局中人从--组可能的决策(对每 个局中人通常是不同的)中选择他们的行动步骤.屙中人 常常慎重考虑-个行动步骤,必须在不知道其他局中人 所釆取的行动的惰况下作出他们的决策.我们述假定每8 个局中人只有有限个叮能的决策,虽然某些令人感兴趣 和重要的对使用了无穷决策集(例如、一个实数区问) ●支付:在决策作出之后,每个局中人都得到对所有局中人 按共同单位度量的某种支付 由f术语的原因,让我们冋意把选择行动的-条规则和之 为策略.如果规则听表达的总是采取相同的行动,就称之为纯策 略;否则就称之为泯合策略.对策的—个解只不过是每个局中人 所采取的一个策略,在不会感到遗憾的意义下它给每个局中 人以最好可能的支付 这些条件的进一步细化发展导致许多不同类型的对策,其 中的某些将在后面予以讨论.例如.如果对策包含每个局中人的 系列选掸,我们就得到所谓的多阶段对策或选代对策.我们]眼 下特别关心的是像俾斯麦海战那样的对策,其中只有两个利益 截然相反的局中人我们称这种局势为两人零和对策,因为求极 大的局中人的支付好是求极小的局屮人得到的支付的负值 因此,两个局中人的全部支付总计为零我们稍为详细一点夹讲
讲这类对策 两人零和对策 当我们思量日常生活中的对策时,我们通常会想到诸如性 别之战、商业对策、战争对策或甚至如扑克或强手棋 ( Monopoly)①之类的事情.这些对策似乎都比刚概述过的那类 策略的对策远为复杂.其复杂特征之一就是它们往往会包括多 个局中人所以,这看起来似乎比做一个只有两个局中人的对策 方面的教学练习所花的精力要稍多些,至少当我们的目的是 要使我们的理论联系实际的时候是这样的情况不过,研究两人 零和对策有着实际的和数学的理由 首先,两人对策有着极大的吸引力:当局中人的利益截然相 反(零和情况)时,这类对策得到了完全的解决.这意味着我们能 精确地计算这类对策中每个局中人的最优策略应该是什么.对 于多人对策的研究而言,这些解法给我们以坚实的出发点,并提 [9}供了与更复杂局势中的近似结果相比较的基准.此外,在现霎生 活中初看起来像是多人对策的许多局势能被简化为两个局中人 的情形.例如,美国参议院中像预算案这种事情上的政治冲突, 初看起来好像是有100个局中人的对策,其中每个参议员都要 对付9个对手.然而,不用很仔细地阅读每天的报纸就可看到 这种对策常可简化为两个局中人的情形:例如,自由派对保守 派,民主党对共和党,或工商界与劳工的对抗局中人的这类合 并常常是实际局勢的一种好的近似,并使我们能应用两个局中 人情形的全部数学方法 但是在两人零和对策中固有的纯粹竞争的思想常常是个 ①译注:由2-6人参加,按骰子所掷点数走棋,以筹码币进行房地 产交易,以赢得多数房地产为胜;源出商标名