筹 反之,劣势策略则是指在博弈中,不论其他参与人采取什么策略,某一参与人可能采取 的策略中,对自己严格不利的策略,劣势策略是我们在日常生活中不可以选择的行动。劣势 策略是与优势策略相对应的概念,笔者这里就不多做介绍 3.房地产博弈、警察捉小偷博弈与纳什均衡 实际上,在上一小节,每个参与人都有优势策略的情况下,优势策略均衡是非常合乎逻 辑的。一个优势策略优于其他仼何策略,同样,一个劣勢策略则劣于其他仼何策略。假如你 有一个优势策略,你可以选择采用,并且知道你的对手若是有一个优势策略他也会照办;同 样,假如你有一个劣势策略,你应该避免采用,并且知道你的对手若是有一个劣势策略他也 会规避。 但遗憾的是不是所有博弈都有优势策略,哪怕这个博弈只有两个个参与者。实际上,优 势策略只是博弈论的一种特例。虽然出现一个优势策略可以大大简化行动的规则,但这些规 则却并不适用于大多数现实生活中的博弈 来看这样一个房地产开发博弈的例子。假定北京市的房地产市场需求有限,A、B两个 开发商都想开发一定规模的房地产,但是市场对房地产的需求只能满足一个房地产的开发 量,而且,每个房地产商必须一次性开发这一定规模的房地产才能获利。在这种情况下,无 论是对开发商A还是开发商B,都不存在一种策略完全优于另一种策略,也不存在一个策略 完全劣于另一个策略。因为,如果A选择开发,则B的最优策略是不开发:如果A选择不开 发,则B的最优策略是开发;类似地,如果B选择开发,则A的最优策略是不开发:如果B 选择不开发,则A的最优策略是开发。这样就形成了一个循环选择 根据纳什均衡含义就是:给定你的策略,我的策略是最好的策略:;给定我的策略,你的 策略也是你最好的策略。即双方在对方给定的策略下不愿意调整自己的策略。这个博弈的纳 什均衡点不止一个,而是两个:要么A选择开发,B不开发;要么A选择不开发,B选择 开发。在这种情况下,A与B都不存在优势策略,也就是A和B不可能只要选择某一个策 略而不考虑对方的所选择的策略。实际上,在有两个或两个以上纳什均衡点的博弈中,其最 后结果难以预测。在房地产博弈中,我们无法知道,最后结果是A开发,B不开发还是A 不开发,B开发 再来看这样一个警察捉小偷博弈的例子。某个村庄上只有一名警察,他要负责整个村 治安。小村的两头住着两个全村最富有的村民A和B,A、B分别需要保护的财产为2万元、 1万元。整个小村某一天来了个小偷,要在村中偷盜A和B的财产,这个消息被警察得知 因为分身乏术,警察一次只能在一个地方巡逻;而小偷也只能偷盗其中一家。若警察在某家 看守财产,而小偷也选择了去该富户家,就会被警察抓住:若警察没有看守财产的富户家而 小偷去了,则小偷偷盗成功 一般人会凭着感觉认为,警察当然应该看守富户A家财产,因为A2万元的财产而B 只有1万元的财产。实际上,对于警察的一个最好的做法是,警察抽签决定去A还是B家 因为A家的财产是B家的2倍,所以用两个签代表A家,比如如果抽到1、2号签去A家, 抽到3号签去B家。这样警察有2/3的机会去A家进行做看守,1/3的机会去B家做看 守。而小偷的最优选择是:以同样抽签的办法决定去A家还是去B家实施偷盗,只是抽到 1、2号签去A家,抽到3号签去B家,那么,小偷有1/3的机会去A家,2/3的机会去 B家。这些数值是可以通过联立方程准确计算出的,笔者这里就不给出具体的数学计算过程。 细心的读者会发现,警察捉小偷博弈与前面所举的两个博弈案例有一个很大的差别,就 是用到了概率的知识,警察与小偷没有一个一定要选择某个策略的纳什均衡,而只有选择某
11 筹。 反之,劣势策略则是指在博弈中,不论其他参与人采取什么策略,某一参与人可能采取 的策略中,对自己严格不利的策略,劣势策略是我们在日常生活中不可以选择的行动。劣势 策略是与优势策略相对应的概念,笔者这里就不多做介绍。 3.房地产博弈、警察捉小偷博弈与纳什均衡 实际上,在上一小节,每个参与人都有优势策略的情况下,优势策略均衡是非常合乎逻 辑的。一个优势策略优于其他任何策略,同样,一个劣势策略则劣于其他任何策略。假如你 有一个优势策略,你可以选择采用,并且知道你的对手若是有一个优势策略他也会照办;同 样,假如你有一个劣势策略,你应该避免采用,并且知道你的对手若是有一个劣势策略他也 会规避。 但遗憾的是不是所有博弈都有优势策略,哪怕这个博弈只有两个个参与者。实际上,优 势策略只是博弈论的一种特例。虽然出现一个优势策略可以大大简化行动的规则,但这些规 则却并不适用于大多数现实生活中的博弈。 来看这样一个房地产开发博弈的例子。假定北京市的房地产市场需求有限,A、B两个 开发商都想开发一定规模的房地产,但是市场对房地产的需求只能满足一个房地产的开发 量,而且,每个房地产商必须一次性开发这一定规模的房地产才能获利。在这种情况下,无 论是对开发商A还是开发商B,都不存在一种策略完全优于另一种策略,也不存在一个策略 完全劣于另一个策略。因为,如果A选择开发,则B的最优策略是不开发;如果A选择不开 发,则B的最优策略是开发;类似地,如果B选择开发,则A的最优策略是不开发;如果B 选择不开发,则A的最优策略是开发。这样就形成了一个循环选择。 根据纳什均衡含义就是:给定你的策略,我的策略是最好的策略;给定我的策略,你的 策略也是你最好的策略。即双方在对方给定的策略下不愿意调整自己的策略。这个博弈的纳 什均衡点不止一个,而是两个:要么 A 选择开发,B 不开发;要么 A 选择不开发,B 选择 开发。在这种情况下,A 与 B 都不存在优势策略,也就是 A 和 B 不可能只要选择某一个策 略而不考虑对方的所选择的策略。实际上,在有两个或两个以上纳什均衡点的博弈中,其最 后结果难以预测。在房地产博弈中,我们无法知道,最后结果是 A 开发,B 不开发还是 A 不开发,B 开发。 再来看这样一个警察捉小偷博弈的例子。某个村庄上只有一名警察,他要负责整个村的 治安。小村的两头住着两个全村最富有的村民 A 和 B,A、B 分别需要保护的财产为 2 万元、 1 万元。整个小村某一天来了个小偷,要在村中偷盗 A 和 B 的财产,这个消息被警察得知。 因为分身乏术,警察一次只能在一个地方巡逻;而小偷也只能偷盗其中一家。若警察在某家 看守财产,而小偷也选择了去该富户家,就会被警察抓住;若警察没有看守财产的富户家而 小偷去了,则小偷偷盗成功。 一般人会凭着感觉认为,警察当然应该看守富户 A 家财产,因为 A2 万元的财产而 B 只有 1 万元的财产。实际上,对于警察的一个最好的做法是,警察抽签决定去 A 还是 B 家。 因为 A 家的财产是 B 家的 2 倍,所以用两个签代表 A 家,比如如果抽到 1、2 号签去 A 家, 抽到 3 号签去 B 家。这样警察有 2/3 的机会去 A 家进行做看守,1/3 的机会去 B 家做看 守。而小偷的最优选择是:以同样抽签的办法决定去 A 家还是去 B 家实施偷盗,只是抽到 1、2 号签去 A 家,抽到 3 号签去 B 家,那么,小偷有 l/3 的机会去 A 家,2/3 的机会去 B 家。这些数值是可以通过联立方程准确计算出的,笔者这里就不给出具体的数学计算过程。 细心的读者会发现,警察捉小偷博弈与前面所举的两个博弈案例有一个很大的差别,就 是用到了概率的知识,警察与小偷没有一个一定要选择某个策略的纳什均衡,而只有选择某
个策略是多少几率的纳什均衡。 在博弈论中,可以选择出某个策略的纳什均衡,这个策略叫做纯策略,凡是用到概率(并 且几率不能为0和1,否则就退化为纯策略,可以想见,纯策略的纳什均衡只是博弈的一种 特例)的纳什均衡。用专业的话来说,所谓纯策略是指参与者在他的策略空间中选取惟一确 定的策略。但至少存在一个混合策略均衡点。所谓混合策略是指参与者采取的不是惟一的策 略,而是其策略空间上的概率分布。这就是纳什于1950年证明了的纳什定理。而这个博弈 没有纯策略纳什均衡点,而有混合策略均衡点。这个混合策略均衡点下的策略选择是每个参 与者的混合策略选择, 最常见混和策略就是猜硬币游戏。比如在足球比较开场,裁判将手中的硬币抛掷到空中, 让双方队长猜硬币落下的正反面。由于硬币落下是正是反是随机的,概率应该都是1/2。那 么,猜硬币游戏的参与者都是1八2的概率选择正与反,这时博弈达到混和策略纳什均衡。再 比如我们儿时玩的“剪、布、锤”就不存在纯策略均衡,对每个小孩来说,自己采取出“剪”、 布”还是“锤”的策略应当是随机的。一旦一方知道另一方出其中某个策略的可能性增大, 那么这个对弈者在游戏中输的可能性就增大。因此,每个小孩的最优混合策略是采取每个策 略的可能性是1/3。在这样的博弈中,每个小孩各取三个策略的1/3是纳什均衡。由此可 见:纯策略是参与者一次性选取的,并且坚持他选取的策略:而混合策略是参与者在各种备 选策略中采取随杋方式选取的。在博弈中,参与者可以改变他的策略,而使得他的策略选取 满足一定的概率。当博弈是零和博弈时,即一方所得是另外一方的所失时,此时只有混合策 略均衡。对于任何一方来说,此时不可能有纯策略的占优策略。 4.位置博弈与商家策略 有这么一个大家都很熟悉的现象,那就是在每个大大小小的城市街道上,经常见到一些 地段上的商店十分拥挤,构成一个繁荣的商业中心区,但另一些地段却十分冷僻,没什么商 店。更有意思的是,往往在一个同类型的商家总是聚集在比较近的地方,比如在任何城市肯 德基、麦当劳之间总是津津相邻。再如超市现象,前两年有很多人对超市的布局发表了一些 议论。因为有人注意到,如果在一条街上有2~3家超市的话,这几家超市经常性地会“相 依为邻”,选址离得很近,倘若它们稍微分散地布置于街上,无疑对市民的购物提供相当的 便利,因此他们认为超市“拥挤”在一起属于资源浪费。 类似的事情发生于电视台的节目播放。很多电视迷会发现,大部分电视台总是将最精彩 的节目放在相同的时间段,甚至有些时候是在相同时间段播放类似的节目,比如你播“快乐 大本营”,我就播“超级总动员”:你播“玫瑰有约”,我就播“单身男女”。人都说文人相轻, 电视台也是这么相煎太急。 博弈论能够对这个现象作出科学的解释。首先看一个简单的博弈模型进行叙述: 假设有条完全笔直的公路,连接城市A到城市B之间的交通。这条公路上每天行驶着 大量的车辆,并且车流量在公路上是均匀分布的。假设有两家快餐店,我们不妨假设为靠高 速公路起家的麦当劳与肯德基,它们要在这条公路上选择一个位置开设快餐,招揽来往车辆 为了能够更加清晰的说明这个博弈,我们不得不画一张图 1/4麦当劳1/23/4肯德基B 图1位置博弈 再对该模型作一个合乎逻辑的假定:通常情况下,车辆总是乐意到距自己最近的快餐店 购买食物。根据这个原则,从资源的最佳配置来看,麦当劳、肯德基应该分别开在1/4、3/4
12 个策略是多少几率的纳什均衡。 在博弈论中,可以选择出某个策略的纳什均衡,这个策略叫做纯策略,凡是用到概率(并 且几率不能为 0 和 1,否则就退化为纯策略,可以想见,纯策略的纳什均衡只是博弈的一种 特例)的纳什均衡。用专业的话来说,所谓纯策略是指参与者在他的策略空间中选取惟一确 定的策略。但至少存在一个混合策略均衡点。所谓混合策略是指参与者采取的不是惟一的策 略,而是其策略空间上的概率分布。这就是纳什于 1950 年证明了的纳什定理。而这个博弈 没有纯策略纳什均衡点,而有混合策略均衡点。这个混合策略均衡点下的策略选择是每个参 与者的混合策略选择。 最常见混和策略就是猜硬币游戏。比如在足球比较开场,裁判将手中的硬币抛掷到空中, 让双方队长猜硬币落下的正反面。由于硬币落下是正是反是随机的,概率应该都是 1/2。那 么,猜硬币游戏的参与者都是 1/2 的概率选择正与反,这时博弈达到混和策略纳什均衡。再 比如我们儿时玩的“剪、布、锤”就不存在纯策略均衡,对每个小孩来说,自己采取出“剪”、 “布”还是“锤”的策略应当是随机的。一旦一方知道另一方出其中某个策略的可能性增大, 那么这个对弈者在游戏中输的可能性就增大。因此,每个小孩的最优混合策略是采取每个策 略的可能性是 l/3。在这样的博弈中,每个小孩各取三个策略的 1/3 是纳什均衡。由此可 见:纯策略是参与者一次性选取的,并且坚持他选取的策略;而混合策略是参与者在各种备 选策略中采取随机方式选取的。在博弈中,参与者可以改变他的策略,而使得他的策略选取 满足一定的概率。当博弈是零和博弈时,即一方所得是另外一方的所失时,此时只有混合策 略均衡。对于任何一方来说,此时不可能有纯策略的占优策略。 4.位置博弈与商家策略 有这么一个大家都很熟悉的现象,那就是在每个大大小小的城市街道上,经常见到一些 地段上的商店十分拥挤,构成一个繁荣的商业中心区,但另一些地段却十分冷僻,没什么商 店。更有意思的是,往往在一个同类型的商家总是聚集在比较近的地方,比如在任何城市肯 德基、麦当劳之间总是津津相邻。再如超市现象,前两年有很多人对超市的布局发表了一些 议论。因为有人注意到,如果在一条街上有 2~3 家超市的话,这几家超市经常性地会“相 依为邻”,选址离得很近,倘若它们稍微分散地布置于街上,无疑对市民的购物提供相当的 便利,因此他们认为超市“拥挤”在一起属于资源浪费。 类似的事情发生于电视台的节目播放。很多电视迷会发现,大部分电视台总是将最精彩 的节目放在相同的时间段,甚至有些时候是在相同时间段播放类似的节目,比如你播“快乐 大本营”,我就播“超级总动员”;你播“玫瑰有约”,我就播“单身男女”。人都说文人相轻, 电视台也是这么相煎太急。 博弈论能够对这个现象作出科学的解释。首先看一个简单的博弈模型进行叙述: 假设有条完全笔直的公路,连接城市 A 到城市 B 之间的交通。这条公路上每天行驶着 大量的车辆,并且车流量在公路上是均匀分布的。假设有两家快餐店,我们不妨假设为靠高 速公路起家的麦当劳与肯德基,它们要在这条公路上选择一个位置开设快餐,招揽来往车辆。 为了能够更加清晰的说明这个博弈,我们不得不画一张图。 1/4 麦当劳 1/2 3/4 肯德基 0 A 1 B 再对该模型作一个合乎逻辑的假定:通常情况下,车辆总是乐意到距自己最近的快餐店 购买食物。根据这个原则,从资源的最佳配置来看,麦当劳、肯德基应该分别开在 1/4、3/4 图 1 位置博弈
处是最优。在这种均匀散布的情况下,每家快餐店所有拥有的客户从距离最近的城市到两家 快餐店的中心为止,因此都拥有1/2的顾客量,同时对于开车的人们总体来说,这种策略的 选择,车辆到快餐店的总的距离最短。 然而,,天总不能遂人之愿。肯德基与麦当劳都是百年老店,自然是精明之至,从经济 学上就是具有经济理性。他们只要手段合法,总是希望自己的生意尽可能地红火,至于其他 人的生意的好坏则与己无关。出于这种理性,肯德基分店经理肯定会想到:如果我将店铺从 3/4点处向左移一点,那麽14点之间的中点不在是1/2点处,而是位于12点的靠左边一点 这等于说,这一移位,肯德基将从麦当劳抢夺走部分顾客,这对于肯德基单方面来说无疑是 个好主意。当然麦当劳也不甘示弱,作为一个“理性人”,麦当劳自然也应该想到将自己 的店铺从1A4点处向右移动以争取更多的顾客。不难想象,双方博弈的结果将使他们的店铺 设置在12中点附近达到纳什均衡状态,甲乙两人相依为邻且相安无事地做起快餐生意。如 果我们放宽条件,不是两家快餐店,而是很多家快餐店,很容易分析得到结果:这些快餐店 仍然会在1/2处设店达到纳什均衡。 同样的道理,如果地段的繁华等其他原因在一条路上上都可以认为到处相同的话,没有 个商家会将自己安置于某条路的一头,只要条件许可,超市将几乎趋向于相依为邻,这种 现象完全可以看作公正的市场竞争的合理结果。这就是很多城市商业中心形成的原理,在博 弈论中称为位置博弈 电视台之间在时间段上的重叠问题在本质上就是位置博弈。事实上,我们只要将时间设 想为上述案例中的公路,就不难分析到它们都将得到大部分观众青睐的精彩节目放在同一黄 金时段完全是市场竞争的结果。在这种情况下,电视台之间的竞争会更加激烈,为了获得收 视率,电视台只能在制作质量上下功夫,获得真正实惠的依然是广大观众 5.猎鹿模型的合作哲学 来看这样一个“狩猎”故事:设想在原始社会,人们靠狩猎为生。某一天有两个猎人围 住了一头鹿,他们各卡住鹿可能逃跑的两个路口中的一个。只要他们齐心协力,鹿就会成为 他们的猎物,不过仅凭一个人的力量是无法猎捕到鹿的。如果此时周围跑过一群兔子,两位 猎人中的任何一个只要去抓兔子一定会获得成功,他会抓住4只兔子。从能够填饱肚子的角 度来看,4只兔子可以供一个人吃4天,1只鹿如果被抓住将被两个猎人平分,可供每人吃 10天。这里不妨假设两个猎人叫A和B。我们引入一种矩阵式的对两人博弈的描述方法, 见下图。 猎人A 抓兔 打鹿 0 抓兔 猎人B 图2猎鹿模型 在这个矩阵图中,每一个格子都代表一种博弈的结果。具体说来,在左上角的格子表示 猎人A和B都抓兔子,结果是猎人A和B都能吃饱4天;在左下角的格子表示,猎人A抓 兔子,猎人B打鹿,结果是猎人A可以吃饱4天,B则一无所获;在右上角,猎人A打鹿, 猎人B抓兔子,结果是猎人A一无所获,猎人B可以吃饱4天:在右下角,猎人A和B合 作抓捕鹿,结果是两人平分猎物,都可以吃饱10天
13 处是最优。在这种均匀散布的情况下,每家快餐店所有拥有的客户从距离最近的城市到两家 快餐店的中心为止,因此都拥有 1/2 的顾客量,同时对于开车的人们总体来说,这种策略的 选择,车辆到快餐店的总的距离最短。 然而,,天总不能遂人之愿。肯德基与麦当劳都是百年老店,自然是精明之至,从经济 学上就是具有经济理性。他们只要手段合法,总是希望自己的生意尽可能地红火,至于其他 人的生意的好坏则与己无关。出于这种理性,肯德基分店经理肯定会想到:如果我将店铺从 3/4 点处向左移一点,那麽 1/4 点之间的中点不在是 1/2 点处,而是位于 1/2 点的靠左边一点。 这等于说,这一移位,肯德基将从麦当劳抢夺走部分顾客,这对于肯德基单方面来说无疑是 一个好主意。当然麦当劳也不甘示弱,作为一个“理性人”,麦当劳自然也应该想到将自己 的店铺从 1/4 点处向右移动以争取更多的顾客。不难想象,双方博弈的结果将使他们的店铺 设置在 l/2 中点附近达到纳什均衡状态,甲乙两人相依为邻且相安无事地做起快餐生意。如 果我们放宽条件,不是两家快餐店,而是很多家快餐店,很容易分析得到结果:这些快餐店 仍然会在 1/2 处设店达到纳什均衡。 同样的道理,如果地段的繁华等其他原因在一条路上上都可以认为到处相同的话,没有 一个商家会将自己安置于某条路的一头,只要条件许可,超市将几乎趋向于相依为邻,这种 现象完全可以看作公正的市场竞争的合理结果。这就是很多城市商业中心形成的原理,在博 弈论中称为位置博弈。 电视台之间在时间段上的重叠问题在本质上就是位置博弈。事实上,我们只要将时间设 想为上述案例中的公路,就不难分析到它们都将得到大部分观众青睐的精彩节目放在同一黄 金时段完全是市场竞争的结果。在这种情况下,电视台之间的竞争会更加激烈,为了获得收 视率,电视台只能在制作质量上下功夫,获得真正实惠的依然是广大观众。 5.猎鹿模型的合作哲学 来看这样一个“狩猎”故事:设想在原始社会,人们靠狩猎为生。某一天有两个猎人围 住了一头鹿,他们各卡住鹿可能逃跑的两个路口中的一个。只要他们齐心协力,鹿就会成为 他们的猎物,不过仅凭一个人的力量是无法猎捕到鹿的。如果此时周围跑过一群兔子,两位 猎人中的任何一个只要去抓兔子一定会获得成功,他会抓住 4 只兔子。从能够填饱肚子的角 度来看,4 只兔子可以供一个人吃 4 天,1 只鹿如果被抓住将被两个猎人平分,可供每人吃 10 天。这里不妨假设两个猎人叫 A 和 B。我们引入一种矩阵式的对两人博弈的描述方法, 见下图。 4 4 0 4 4 0 10 10 在这个矩阵图中,每一个格子都代表一种博弈的结果。具体说来,在左上角的格子表示, 猎人 A 和 B 都抓兔子,结果是猎人 A 和 B 都能吃饱 4 天;在左下角的格子表示,猎人 A 抓 兔子,猎人 B 打鹿,结果是猎人 A 可以吃饱 4 天,B 则一无所获;在右上角,猎人 A 打鹿, 猎人 B 抓兔子,结果是猎人 A 一无所获,猎人 B 可以吃饱 4 天;在右下角,猎人 A 和 B 合 作抓捕鹿,结果是两人平分猎物,都可以吃饱 10 天。 猎人 A 猎人 B 抓 兔 子 打 鹿 子 打 鹿 子 抓 兔 子 图 2 猎鹿模型
在这个博弈中,根据纳什均衡的定义,应用博弈论中的“严格劣势删除法”(有兴趣的 读者可以找本书参考文献中的相关书籍阅读,这里不做详细介绍。)可以得到该博弈有两个 纳什均衡点,那就是:要么分别打兔子,每人吃饱4天;要么合作,每人吃饱10天。 两个纳什均衡,就是两个可能的结局。两种结局到底哪一个最终发生,这无法用纳什均 衡本身来确定。比较[0,10和[4,4]两个纳什均衡,明显的事实是,两人一起去猎鹿比各 自去抓兔子可以让每个人多吃12天。按照经济学的说法,合作猎鹿的纳什均衡,分头抓打 兔子的纳什均衡,具有帕累托优势。与[4,4相比,[10,10不仅有整体福利改进,而且每 个人都得到福利改进。换一种更加严密的说法就是,[10,10与[4,4]相比,其中一方收益 增大,而其它各方的境况都不受损害。这就是10,10对于[4,4]具有帕累托优势的含义 在经济学中,帕累托效率准则是:经济的效率体现于配置社会资源以改善人们的境况, 主要看资源是否已经被充分利用。如果资源已经被充分利用,要想再改善我就必须损害你或 别的什么人,要想再改善你就必须损害另外某个人,一句话,要想再改善任何人都必须损害 别的人了,这时候就说一个经济已经实现了帕累托效率。相反,如果还可以在不损害别人的 情况下改善任何人,就认为经济资源尚未充分利用,就不能说已经达到帕累托效率。 目前在世界上比比皆是的企业强强联合就很接近于猎鹿模型的帕累托改善,跨国汽车公 司的联合、日本两大银行的联合等等均属此列,这种强强联合造成的结果是资金雄厚、生产 技术先进、在世界上占有的竞争地位更优越,发挥的影响更显赫。总之,他们将蛋糕做得更 大,双方的效益也就越高。比如宝山钢铁公司与上海钢铁集团强强联合也好,最重要的就是 将蛋糕做大。在宝钢与上钢的强强联合中,宝钢有着资金、效益、管理水平、规模等各方面 的优势,上钢也有着生产技术与经验的优势。两个公司实施强强联合,充分发挥各方的优势, 发掘更多更大的潜力,形成一个更大更有力的拳头,将蛋糕做得比原先两个蛋糕之和还要大。 猎鹿模型的讨论,我们的思路实际只停留在考虑整体效率最高这个角度,而没有考虑蛋 糕做大之后的分配。猎鹿模型是假设猎人双方平均分配猎物。 我们不妨做这样一种假设,猎人A比猎人B狩猎的能力水平要略高一筹,但B猎人却 是酋长的之子,拥有较高的分配权。可以设想,A猎人与B猎人合作猎鹿之后的分配不是 两人平分成果,而是A猎人仅分到了够吃2天的鹿肉,B猎人却分到了够吃18天的鹿肉。 在这种情况下,整体效率虽然提高,但却不是帕累托改善,因为整体的改善反而伤害到猎人 A的利益。我们假想,具有特权的猎人B会通过各种手段方法让猎人A乖乖就范。但是猎 人A的狩猎热情遭到伤害,这必然会导致整体效率的下降。进一步推测,如果不是两个人 进行狩猎,而是多人狩猎博弈,根据分配可以分成既得利益集团与弱势群体,这和我国的现 状非常相似 我国改革进程根据著名经济学家左大培先生的研究,在九十年代中期以前是一种帕累托 改善的过程。但是随着国企改制失误、教育体制改革失误、医疗改革失误、腐败等因素的影 响,逐渐是极少数既得利益集团获得最大的利益(中国千万富翁超过24万人),基尼指数接 近06,社会极度不平等,贫富差距极度拉大,帕累托改善已不存在。很显然,这种情况如 果继续下去,社会稳定和改革深化会受到决定性的冲击。 第三章“囚徒困境”的启示 “囚徒困境”的深刻哲理 在前面的章节,笔者讨论一个“囚徒困境”( Prisoner' s dilemma)变形博弈,很明显
14 在这个博弈中,根据纳什均衡的定义,应用博弈论中的“严格劣势删除法”(有兴趣的 读者可以找本书参考文献中的相关书籍阅读,这里不做详细介绍。)可以得到该博弈有两个 纳什均衡点,那就是:要么分别打兔子,每人吃饱 4 天;要么合作,每人吃饱 10 天。 两个纳什均衡,就是两个可能的结局。两种结局到底哪一个最终发生,这无法用纳什均 衡本身来确定。比较[10,10]和[4,4]两个纳什均衡,明显的事实是,两人一起去猎鹿比各 自去抓兔子可以让每个人多吃 12 天。按照经济学的说法,合作猎鹿的纳什均衡,分头抓打 兔子的纳什均衡,具有帕累托优势。与[4,4]相比,[10,10]不仅有整体福利改进,而且每 个人都得到福利改进。换一种更加严密的说法就是,[10,10]与[4,4]相比,其中一方收益 增大,而其它各方的境况都不受损害。这就是[10,10]对于[4,4]具有帕累托优势的含义。 在经济学中,帕累托效率准则是:经济的效率体现于配置社会资源以改善人们的境况, 主要看资源是否已经被充分利用。如果资源已经被充分利用,要想再改善我就必须损害你或 别的什么人,要想再改善你就必须损害另外某个人,一句话,要想再改善任何人都必须损害 别的人了,这时候就说一个经济已经实现了帕累托效率。相反,如果还可以在不损害别人的 情况下改善任何人,就认为经济资源尚未充分利用,就不能说已经达到帕累托效率。 目前在世界上比比皆是的企业强强联合就很接近于猎鹿模型的帕累托改善,跨国汽车公 司的联合、日本两大银行的联合等等均属此列,这种强强联合造成的结果是资金雄厚、生产 技术先进、在世界上占有的竞争地位更优越,发挥的影响更显赫。总之,他们将蛋糕做得更 大,双方的效益也就越高。比如宝山钢铁公司与上海钢铁集团强强联合也好,最重要的就是 将蛋糕做大。在宝钢与上钢的强强联合中,宝钢有着资金、效益、管理水平、规模等各方面 的优势,上钢也有着生产技术与经验的优势。两个公司实施强强联合,充分发挥各方的优势, 发掘更多更大的潜力,形成一个更大更有力的拳头,将蛋糕做得比原先两个蛋糕之和还要大。 猎鹿模型的讨论,我们的思路实际只停留在考虑整体效率最高这个角度,而没有考虑蛋 糕做大之后的分配。猎鹿模型是假设猎人双方平均分配猎物。 我们不妨做这样一种假设,猎人 A 比猎人 B 狩猎的能力水平要略高一筹,但 B 猎人却 是酋长的之子,拥有较高的分配权。可以设想,A 猎人与 B 猎人合作猎鹿之后的分配不是 两人平分成果,而是 A 猎人仅分到了够吃 2 天的鹿肉,B 猎人却分到了够吃 18 天的鹿肉。 在这种情况下,整体效率虽然提高,但却不是帕累托改善,因为整体的改善反而伤害到猎人 A 的利益。我们假想,具有特权的猎人 B 会通过各种手段方法让猎人 A 乖乖就范。但是猎 人 A 的狩猎热情遭到伤害,这必然会导致整体效率的下降。进一步推测,如果不是两个人 进行狩猎,而是多人狩猎博弈,根据分配可以分成既得利益集团与弱势群体,这和我国的现 状非常相似。 我国改革进程根据著名经济学家左大培先生的研究,在九十年代中期以前是一种帕累托 改善的过程。但是随着国企改制失误、教育体制改革失误、医疗改革失误、腐败等因素的影 响,逐渐是极少数既得利益集团获得最大的利益(中国千万富翁超过 24 万人),基尼指数接 近 0.6,社会极度不平等,贫富差距极度拉大,帕累托改善已不存在。很显然,这种情况如 果继续下去,社会稳定和改革深化会受到决定性的冲击。 第三章 “囚徒困境”的启示 1.“囚徒困境”的深刻哲理 在前面的章节,笔者讨论一个“囚徒困境”(Prisoner’s dilemma)变形博弈,很明显
该警察局长所采取的策略必然不能够使得两名囚犯坦白罪行。其实,只有改变游戏规则,利 用“囚徒困境”模型策略才可以达到目的。“坦白从宽,抗拒从严”的道理人人都懂,从博 弈论的角度来看,其实就是一个囚徒困境模型的应用。我们前面所讨论的爱情博弈其实也是 囚徒困境的一种形式。 这里我们继续前面的讨论,这个警察局局长C如果足够明智的话,必然不要求两名囚犯 都招供,而是让两名囚犯中的任何一名坦白,招出另外一个人。这样警察局局长C就要确定, 对不坦白的人施以最严厉的刑罚 这种情况下,警察局局长C对囚犯A和B作成如下许诺:如果他们之中有一人坦白,而 另一人不坦白,则坦白者无罪释放,而不坦白者要被判无期徒刑,囚禁终生;如果两人都坦 白,则两人都被判有期徒刑5年;如果两人都不坦白,则两人都被判2年监禁。 囚徒困境仍然需要2个前提预设:囚徒A和B两人都是自利理性的个人,即只要给出两 种可选的策略,每一方将总是选择其中对他更有利的那种策略;两人无法沟通,要在不知道 对方所选结果的情况下,独自进行策略选择。在这种条件下,从囚犯A的立场来看,共有 种可能情况:第一种可能是B采取坦白的策略,这时如果囚犯A也坦白,则要入狱5年,如 果不坦白,则要囚禁终生,两相比较,结论是应该坦白。第二种可能是囚犯B采取沉默的态 度,这时若甲也沉默,要入狱2年,如果囚犯A坦白,则可获得自由,两相比较结论是应该 坦白。因此,无论囚犯B是坦白还是沉默,囚犯A采取坦白的策略对自己更为有利。同样以 上推理对于囚犯B也适用。结果两个囚徒都坦白了,都被判刑5年。囚徒困境的“困境”在 于如果甲乙二人都保持沉默,则都只被判刑一年,显然比两人都坦白的结果要好 两名囚犯都作出招供的选择,这对他们个人来说都是最佳的,即最符合他们个体理性的 选择。照博弈论的说法,这是惟一的纳什均衡点。除了这个均衡点,A与B的任何一人单方 面改变选择,他只会得到更加不经济的结果。而在其它的结果中,比如两人都不坦白的情况 下,都有一人可以通过单方面改变选择,来减少自己的刑期。可是两人经过一番理性计算后, 却选择了一个使自己陷入不利的结局 其实“囚徒困境”不允许囚犯A和B进行沟通的假设,与实际生活中大部分情况的现实 是有差异的。比如,在爱情博弈中,很多恋人会经常花前月下、彻夜厮守:在企业的价格战 中,企业之间也会多有沟通,价格:即使是二十世纪下半世纪的美苏军备竞赛中,两个超级 大国也会经常进行外交交谈,及时交换信息。 笔者不妨将条件放宽,允许囚犯A和B在审讯室李一起单独呆上10分钟,然后再决定 是否坦白。很明显,双方交流的主旨就是建立攻守同盟,克服自利心理,甚至可能订立一个 口头协议,要求双方都不去坦白。然后,双方再单独被提审。我们不妨设想,囚犯A的心理 他一定会认为,如果囚犯B遵守约定的话,则自己坦白就可获得自由:如果囚犯B告密的话, 若不坦白就会被终生囚禁。事实上,囚犯A的策略并没有因为简单的沟通或协议而摆脱两难 境地。 恋人们在恋爱中的海誓山盟,最终还是分手;企业之间相互沟通信誓旦旦,价格战仍然 会爆发:美苏两国经常会晤,甚至签订核不扩散条约,但军费一年高过一年。这些现象都反 映了上面所说明的问题 在本节所举的囚徒困境的游戏规则,能够让狡猾的罪犯招供,得到应有的惩罚,固然不 是坏事。然而,我们不妨假设囚徒A和B都是完全清白的大大的具有理性的良民,这个博弈 的纳什均衡并不会因为他们的清白而改变。如果在现实生活中,加上对身体的残害,完全会 造成屈打成招的冤假错案。在中国历史上,这种事情并不是多么稀有的个案。 在更深刻的意义上,囚徒困境模型动摇了传统社会学、经济学理论基础,这是经济学 重大革命 传统经济学的鼻祖亚当·斯密在其传世经典《国民财富的性质和原因的研究》中这样描
15 该警察局长所采取的策略必然不能够使得两名囚犯坦白罪行。其实,只有改变游戏规则,利 用“囚徒困境”模型策略才可以达到目的。“坦白从宽,抗拒从严”的道理人人都懂,从博 弈论的角度来看,其实就是一个囚徒困境模型的应用。我们前面所讨论的爱情博弈其实也是 囚徒困境的一种形式。 这里我们继续前面的讨论,这个警察局局长 C 如果足够明智的话,必然不要求两名囚犯 都招供,而是让两名囚犯中的任何一名坦白,招出另外一个人。这样警察局局长 C 就要确定, 对不坦白的人施以最严厉的刑罚。 这种情况下,警察局局长 C 对囚犯 A 和 B 作成如下许诺:如果他们之中有一人坦白,而 另一人不坦白,则坦白者无罪释放,而不坦白者要被判无期徒刑,囚禁终生;如果两人都坦 白,则两人都被判有期徒刑 5 年;如果两人都不坦白,则两人都被判 2 年监禁。 囚徒困境仍然需要 2 个前提预设:囚徒 A 和 B 两人都是自利理性的个人,即只要给出两 种可选的策略,每一方将总是选择其中对他更有利的那种策略;两人无法沟通,要在不知道 对方所选结果的情况下,独自进行策略选择。在这种条件下,从囚犯 A 的立场来看,共有 2 种可能情况:第一种可能是 B 采取坦白的策略,这时如果囚犯 A 也坦白,则要入狱 5 年,如 果不坦白,则要囚禁终生,两相比较,结论是应该坦白。第二种可能是囚犯 B 采取沉默的态 度,这时若甲也沉默,要入狱 2 年,如果囚犯 A 坦白,则可获得自由,两相比较结论是应该 坦白。因此,无论囚犯 B 是坦白还是沉默,囚犯 A 采取坦白的策略对自己更为有利。同样以 上推理对于囚犯 B 也适用。结果两个囚徒都坦白了,都被判刑 5 年。囚徒困境的“困境”在 于如果甲乙二人都保持沉默,则都只被判刑一年,显然比两人都坦白的结果要好。 两名囚犯都作出招供的选择,这对他们个人来说都是最佳的,即最符合他们个体理性的 选择。照博弈论的说法,这是惟一的纳什均衡点。除了这个均衡点,A 与 B 的任何一人单方 面改变选择,他只会得到更加不经济的结果。而在其它的结果中,比如两人都不坦白的情况 下,都有一人可以通过单方面改变选择,来减少自己的刑期。可是两人经过一番理性计算后, 却选择了一个使自己陷入不利的结局。 其实“囚徒困境”不允许囚犯 A 和 B 进行沟通的假设,与实际生活中大部分情况的现实 是有差异的。比如,在爱情博弈中,很多恋人会经常花前月下、彻夜厮守;在企业的价格战 中,企业之间也会多有沟通,价格;即使是二十世纪下半世纪的美苏军备竞赛中,两个超级 大国也会经常进行外交交谈,及时交换信息。 笔者不妨将条件放宽,允许囚犯 A 和 B 在审讯室李一起单独呆上 10 分钟,然后再决定 是否坦白。很明显,双方交流的主旨就是建立攻守同盟,克服自利心理,甚至可能订立一个 口头协议,要求双方都不去坦白。然后,双方再单独被提审。我们不妨设想,囚犯 A 的心理, 他一定会认为,如果囚犯 B 遵守约定的话,则自己坦白就可获得自由;如果囚犯 B 告密的话, 若不坦白就会被终生囚禁。事实上,囚犯 A 的策略并没有因为简单的沟通或协议而摆脱两难 境地。 恋人们在恋爱中的海誓山盟,最终还是分手;企业之间相互沟通信誓旦旦,价格战仍然 会爆发;美苏两国经常会晤,甚至签订核不扩散条约,但军费一年高过一年。这些现象都反 映了上面所说明的问题。 在本节所举的囚徒困境的游戏规则,能够让狡猾的罪犯招供,得到应有的惩罚,固然不 是坏事。然而,我们不妨假设囚徒 A 和 B 都是完全清白的大大的具有理性的良民,这个博弈 的纳什均衡并不会因为他们的清白而改变。如果在现实生活中,加上对身体的残害,完全会 造成屈打成招的冤假错案。在中国历史上,这种事情并不是多么稀有的个案。 在更深刻的意义上,囚徒困境模型动摇了传统社会学、经济学理论基础,这是经济学的 重大革命。 传统经济学的鼻祖亚当·斯密在其传世经典《国民财富的性质和原因的研究》中这样描