9博弈对策模型 9.1引言 在大多数决策问题中,我们的收益(和损失)不仅仅由我们的决策来确定,而且还受外 部力量(例如,竞争对手和气候)的影响。我们可以将这种外部力量分为两大类:一类是无 关紧要的外部力量,一类是有害的外部力量。这种分类是有作用的。例如,如果我们对在暴 风雨期间有没有带雨伞和是否刚洗过车并不介意,那么,我们就认为气候也是属于无关紧要 的外部力量。当然,作为一个竞争对手通常要考虑我们可以做的各种可能的决策,选择那些 可以使得我们的利益受损的对策。在这一章里,我们要分析一些具有害外部力量的对策问题。 用标准的学术术语来说就是研究博弈。在市场或价格策略的选择过程中,在国际事物,军事 对抗和商务谈判中都会遇到博弈问题。例如,面对竞争对手可能的石油禁运,我们就要对是 否需要建立一个石油战略储备策略做出选择。博弈问题的实质常常是确定两个或更多的合作 成员如何“分馅饼”。也就是如何分配一个联合项目的利润。 9.2两人博弈 在所谓的两人博弈理论中,关键是任何一个局中人要在不考虑对方决策的条件做出一个 确定性的决策。只有在两个人都承诺做出了决策以后,一个人才可以知道另一个人的决策。 任何一个人的赢利取决于两个独立的决策。两人博弈又可以按照赢利总和是否为常数分为常 数赢利总博弈和或非常数赢利总和博弈两大类。在两人常数总和博弈中,各个局中人的赢利 总和是常数。通常,这个常数是零。所以,一个局中人的赢利就是另一个局中人的损失。下 面的例子就是一个两人常数总和博弈。 假设Blue和Gold玩一个同时移动博弈。每一个局中人要在不知对方决策的前提下,做 出一个移动的决定。两个局中人的移动结果确定以后,一个局中人将按照下面表格规定的数 据向另一个局中人收取(或支付)赢利
1 9 博弈对策模型 9.1 引言 在大多数决策问题中,我们的收益(和损失)不仅仅由我们的决策来确定,而且还受外 部力量(例如,竞争对手和气候)的影响。我们可以将这种外部力量分为两大类:一类是无 关紧要的外部力量,一类是有害的外部力量。这种分类是有作用的。例如,如果我们对在暴 风雨期间有没有带雨伞和是否刚洗过车并不介意,那么,我们就认为气候也是属于无关紧要 的外部力量。当然,作为一个竞争对手通常要考虑我们可以做的各种可能的决策,选择那些 可以使得我们的利益受损的对策。在这一章里,我们要分析一些具有害外部力量的对策问题。 用标准的学术术语来说就是研究博弈。在市场或价格策略的选择过程中,在国际事物,军事 对抗和商务谈判中都会遇到博弈问题。例如,面对竞争对手可能的石油禁运,我们就要对是 否需要建立一个石油战略储备策略做出选择。博弈问题的实质常常是确定两个或更多的合作 成员如何“分馅饼”。也就是如何分配一个联合项目的利润。 9.2 两人博弈 在所谓的两人博弈理论中,关键是任何一个局中人要在不考虑对方决策的条件做出一个 确定性的决策。只有在两个人都承诺做出了决策以后,一个人才可以知道另一个人的决策。 任何一个人的赢利取决于两个独立的决策。两人博弈又可以按照赢利总和是否为常数分为常 数赢利总博弈和或非常数赢利总和博弈两大类。在两人常数总和博弈中,各个局中人的赢利 总和是常数。通常,这个常数是零。所以,一个局中人的赢利就是另一个局中人的损失。下 面的例子就是一个两人常数总和博弈。 假设 Blue 和 Gold 玩一个同时移动博弈。每一个局中人要在不知对方决策的前提下,做 出一个移动的决定。两个局中人的移动结果确定以后,一个局中人将按照下面表格规定的数 据向另一个局中人收取(或支付)赢利
2 Gold从Blue中得到的赢利矩阵: Blue的移动 -6 Gold的移动 b -5 8 c 3 4 Blue必须在两个移动(a)或(b)中选择一个,而Gold可以在三个移动(a)、(b)和(c)中选择 一个。例如,如果Gold选择了移动(b),Blue选择了移动(a),那么,Gold要支付给Blue5美 元:如果Gold选择(c),Blue选择(a),那么,Blue要支付给Gold3美元。 ●最小最大策略 对于博奔来说,任何一个局中人都不会有显而易见的策略。如果Gold试图移动到(b)以 便获得8美元的奖金,而Blue将试图移动到(a)以便获得5美元的奖金。就这个例子而言, 很显然,每一个决策者都要考虑一个随机策略。如果任何一个局中人总是做出同样的移动, 那么,他马上就会失败。所以,我们定义: BM=Blue做出移动i的概率,i=a或b, GM:=Gold做出移动i的概率,i=ab或c. Blue将如何选择概率BM,?Blue也许注意到: 如果Gold选择移动(a),Blue的期望损失是: 4 BMA -6 BMB 如果Gold选择移动(b),Blue的期望损失是: -5 BMA +8 BMB 如果Gold选择移动(c),Blue的期望损失是: 3 BMA-4 BMB 所以,按照Gold做出的可能决策,Blue有三种可能的期望损失。如果Blue比较保守, 那么,一个比较合理的决策标准是选择BM使得最大的期望损失达到最小。这种观点就是最 小最大损失决策标准。换句话说就是:无论Gold做出什么样的决策,Blue要选择概率BM
2 Gold 从 Blue 中得到的赢利矩阵: Blue 的移动 a b a 4 -6 Gold 的移动 b -5 8 c 3 -4 Blue 必须在两个移动(a)或(b)中选择一个,而 Gold 可以在三个移动 (a)、(b)和(c)中选择 一个。例如,如果 Gold 选择了移动(b),Blue 选择了移动(a),那么,Gold 要支付给 Blue 5 美 元;如果 Gold 选择(c),Blue 选择(a),那么,Blue 要支付给 Gold 3 美元。 ⚫ 最小最大策略 对于博弈来说,任何一个局中人都不会有显而易见的策略。如果 Gold 试图移动到(b)以 便获得 8 美元的奖金,而 Blue 将试图移动到(a)以便获得 5 美元的奖金。就这个例子而言, 很显然,每一个决策者都要考虑一个随机策略。如果任何一个局中人总是做出同样的移动, 那么,他马上就会失败。所以,我们定义: BMi = Blue 做出移动 i 的概率, i = a 或 b, GMi = Gold 做出移动 i 的概率, i = a, b 或 c. Blue 将如何选择概率 BMi?Blue 也许注意到: 如果 Gold 选择移动(a),Blue 的期望损失是: 4 BMA - 6 BMB 如果 Gold 选择移动(b),Blue 的期望损失是: -5 BMA + 8 BMB 如果 Gold 选择移动(c),Blue 的期望损失是: 3 BMA – 4 BMB 所以,按照 Gold 做出的可能决策,Blue 有三种可能的期望损失。如果 Blue 比较保守, 那么,一个比较合理的决策标准是选择 BMi 使得最大的期望损失达到最小。这种观点就是最 小最大损失决策标准。换句话说就是:无论 Gold 做出什么样的决策,Blue 要选择概率 BMi
3 使得Blue的最大期望损失达到最小。如果LB表示Blue最大的期望损失,这个问题就可以 用下面的LP模型表示: MODEL: MIN LB; !概率总和等于1; BMA BMB =1; !如果Gold选择(a),B1ue的期望损失: -LB 4 BMA -6 BMB <0; !如果Gold选择(b),B1ue的期望损失; -LB -5 BMA 8 BMB <=0; !如果Gold选择(c),Blue的期望损失: -LB 3 BMA 4 BMB <0; END 解答是: Global optimal solution found at step: 5 Objective value: 0.2000000 Variable Value Reduced Cost LB 0.2000000 0.0000000 BMA 0.6000000 0.0000000 BMB 0.4000000 0.0000000 从上面的解答中可知:如果Blue选择移动到(a)的概率是0.6,选择移动到(b)的概率是0.4, 那么,无论Gold采取怎样的决策,Bue的期望损失决不会超过0.2。 如果我们对Gold也进行类似的讨论,不过我们考察的是赢利而不是损失。我们所用的 决策标准是最大最小期望赢利决策标准,那么,Gold的模型是: MODEL: MAX PG; !概率总和等于1; GMA GMB +GMC =1; !如果Blue选择(a),Gold的期望赢利;
3 使得 Blue 的最大期望损失达到最小。如果 LB 表示 Blue 最大的期望损失,这个问题就可以 用下面的 LP 模型表示: MODEL: MIN = LB; ! 概率总和等于 1; BMA + BMB = 1; ! 如果Gold选择(a),Blue的期望损失; -LB + 4 * BMA - 6 * BMB <= 0; ! 如果Gold选择(b),Blue的期望损失; -LB - 5 * BMA + 8 * BMB <= 0; ! 如果Gold选择(c),Blue的期望损失; -LB + 3 * BMA - 4 * BMB <= 0; END 解答是: Global optimal solution found at step: 5 Objective value: 0.2000000 Variable Value Reduced Cost LB 0.2000000 0.0000000 BMA 0.6000000 0.0000000 BMB 0.4000000 0.0000000 从上面的解答中可知:如果 Blue 选择移动到(a)的概率是 0.6,选择移动到(b)的概率是 0.4, 那么,无论 Gold 采取怎样的决策,Blue 的期望损失决不会超过 0.2。 如果我们对 Gold 也进行类似的讨论,不过我们考察的是赢利而不是损失。我们所用的 决策标准是最大最小期望赢利决策标准,那么,Gold 的模型是: MODEL: MAX = PG; ! 概率总和等于 1; GMA + GMB + GMC = 1; ! 如果Blue选择(a),Gold的期望赢利;
4 -PG 4 GMA -5 GMB 3 GMC >=0; !如果Blue选择(b),Gold的期望赢利; -PG -6 GMA +8 GMB -4 GMC >=0; END Gold问题的解答是: Global optimal solution found at step: 5 Objective value: 0.2000000 Variable Value Reduced Cost PG 0.2000000 0.0000000 GMA 0.0000000 0.1999999 GMB 0.3500000 0.0000000 GMC 0.6500000 0.0000000 从上面的解答中可知:如果Gold选择移动到(b)的概率是0.35,选择移动到(c)的概率是 0.65,从不选择移动(a),那么,无论Blue采取怎样的决策,Gold的期望赢利决不会少于0.2。 注意,Gold的最低期望赢利就是Blue的最高期望损失。从Blue的观点来看,至少有O.2的 赢利转移到Gold。最可能转移量就是0.2。这意味着如果两个局中人都按照各自的随机决策 玩博弈,一天下来,将会有0.2的赢利从Blue转到Gold。这个博奔是以Gold一天赢利0.2 美元为基础而设计的。这种可以进行随机的选择以对付对手的猜测的策略有时也被称为一个 混合策略。 如果你再仔细看看Blue模型和Gold模型的解答,你将会注意到它们与我们前面介绍的 对偶问题非常相似。Blue模型的对偶价格等于Gold模型的概率,而Gold模型的对偶价格的 负值等于Bue模型的概率。再看仔细一下,你会注意到,两个模型确实互为对偶问题。这个 结论在我们刚刚讨论的两人零和博弈中成立。数学家曾经为这样的事实而兴奋不已。 9.3两人非常数总和博弈 在许多情况下,一个人的福利、效用和赢利不仅仅取决于自己的决策,而且也取决于其 他人的决策。上面介绍的两人博弈只是其中的一个特殊情况: 1)只有两个局中人/决策者
4 -PG + 4 * GMA - 5 * GMB + 3 * GMC >= 0; ! 如果Blue选择(b),Gold的期望赢利; -PG - 6 * GMA + 8 * GMB - 4 * GMC >= 0; END Gold 问题的解答是: Global optimal solution found at step: 5 Objective value: 0.2000000 Variable Value Reduced Cost PG 0.2000000 0.0000000 GMA 0.0000000 0.1999999 GMB 0.3500000 0.0000000 GMC 0.6500000 0.0000000 从上面的解答中可知:如果 Gold 选择移动到(b)的概率是 0.35,选择移动到(c)的概率是 0.65,从不选择移动(a),那么,无论 Blue 采取怎样的决策,Gold 的期望赢利决不会少于 0.2。 注意,Gold 的最低期望赢利就是 Blue 的最高期望损失。从 Blue 的观点来看,至少有 0.2 的 赢利转移到 Gold。最可能转移量就是 0.2。这意味着如果两个局中人都按照各自的随机决策 玩博弈,一天下来,将会有 0.2 的赢利从 Blue 转到 Gold。这个博弈是以 Gold 一天赢利 0.2 美元为基础而设计的。这种可以进行随机的选择以对付对手的猜测的策略有时也被称为一个 混合策略。 如果你再仔细看看 Blue 模型和 Gold 模型的解答,你将会注意到它们与我们前面介绍的 对偶问题非常相似。Blue 模型的对偶价格等于 Gold 模型的概率,而 Gold 模型的对偶价格的 负值等于 Blue 模型的概率。再看仔细一下,你会注意到, 两个模型确实互为对偶问题。这个 结论在我们刚刚讨论的两人零和博弈中成立。数学家曾经为这样的事实而兴奋不已。 9.3 两人非常数总和博弈 在许多情况下,一个人的福利、效用和赢利不仅仅取决于自己的决策,而且也取决于其 他人的决策。上面介绍的两人博弈只是其中的一个特殊情况: 1) 只有两个局中人/决策者
5 2)每一个局中人必须做出一个决策, 3)无视其他局中人的决策, 4)有一个取决于两个局中人决策的损失函数。 两人常数总和博弈(通常常数取为0,称为零和博弈)就是上面的一种特殊情况: 4a)双方的损失都是用同一个标准来度量(例如,美元), 4b)总损失是不受决策影响的一个常数。 因此,在一个两人常数总和博弈中,决策的唯一效果就是确定如何分配常数大小的馅饼。 普通的线性规划模型可以用来求解两人常数总和博弈问题。 当(1)、(2)和(3)成立,而(4b)不成立时,那么,我们得到一个两人非常数总和博弈问题。 普通的线性规划算法是不能用于求解两人非常数总和博弈问题的。当然,我们可以用一些线 性规划的补充算法来求解他们。有时,两人非常数总和博弈也被称为是一个双矩阵博弈。 下面我们来介绍一个实例。假设有两个公司,他们都打算引进一种家喻户晓的消费产品 的改进型。这些改进型也是很类似的,所以,一个公司的利润不仅仅受自己广告决策的影响, 也受竞争对手广告决策的影响。假设每个公司的主要决策就是做广告。损失函数由图9.1确 定(单位是美元)。这个例子说明了每一个局中人的收益总和不需要严格相等。 图9.1两人非常数总和博弈 公司A 无广告 中等广告 高广告 -4 -3 无广告 -4 -2 1 公司B -1 -2 -1 有广告 -5 0 注意,损失的负值就是利润
5 2) 每一个局中人必须做出一个决策, 3) 无视其他局中人的决策, 4) 有一个取决于两个局中人决策的损失函数。 两人常数总和博弈(通常常数取为 0,称为零和博弈)就是上面的一种特殊情况: 4a) 双方的损失都是用同一个标准来度量(例如,美元), 4b) 总损失是不受决策影响的一个常数。 因此,在一个两人常数总和博弈中,决策的唯一效果就是确定如何分配常数大小的馅饼。 普通的线性规划模型可以用来求解两人常数总和博弈问题。 当(1)、(2)和(3)成立,而(4b)不成立时,那么,我们得到一个两人非常数总和博弈问题。 普通的线性规划算法是不能用于求解两人非常数总和博弈问题的。当然,我们可以用一些线 性规划的补充算法来求解他们。有时,两人非常数总和博弈也被称为是一个双矩阵博弈。 下面我们来介绍一个实例。假设有两个公司,他们都打算引进一种家喻户晓的消费产品 的改进型。这些改进型也是很类似的,所以,一个公司的利润不仅仅受自己广告决策的影响, 也受竞争对手广告决策的影响。假设每个公司的主要决策就是做广告。损失函数由图 9.1 确 定(单位是美元)。这个例子说明了每一个局中人的收益总和不需要严格相等。 图 9.1 两人非常数总和博弈 公司 A 无广告 中等广告 高广告 公司 B 无广告 -4 -4 -3 -2 -5 1 有广告 -1 -5 -2 -1 -1 0 注意,损失的负值就是利润