中国最古老的围棋最初的功能形态就是模拟战争。围棋包含最多的是军事内涵,如围 而歼之,生死存亡为先,争地夺利为上。围棋以获得最大的利益为胜,抽象出战争的本质和 目的,非常符合战争规律 围棋游戏的规则极其简单,不过是两气生,一气死,附加帖目、打劫等辅助规则,最 终以所占地盘大小定胜负。但其作为一项智力游戏,与战争在很多方面都相通。围棋棋手在 小小棋盘上较量,就是战争、战场、战斗在棋盘上的演绎 战争理念和战争指导思想是“基于毁伤”,以破坏、消耗、摧毁敌方为上。现代西方 国家提出“基于效果”的作战思想,美国人将这一战争理念上的革命称为新的战争哲学。基 于效果就是,着眼于敌方整个作战系统的控制,使之丧失作战能力。美军在伊拉克发动“斩 首行动”的前一天,还专门召开了推出基于效果作战理念的新闻发布会,接着就发动了进攻。 围棋模拟出“基于效果”的战争理念,强调从全局上控制,而不是基于蝇头小利。即所 有的作战方法都必须是有效的,着子要看在全局中是否有用、有效,而不再是基于棋理、棋 道、棋风等虚幻的在形式。基于效果的思想就是赢棋第一,实事求是。比如韩国棋手李昌镐 就是基于效果的典范。 现在很多世界级公司都已经明白智力游戏的作用。比如著名的微软公司在招聘员工时出 过非常“儿童化”的招聘考题,题目是这样的:“某合唱团的4名成员A、B、C、D往演出现 场,他们途中要经过一座小桥。当他们赶到桥头时,天已经黑了,周围没有灯。他们只有一 只手电筒。现在规定:一次最多只许两人一起过桥,过桥人手里必须有手电筒,而且手电筒 不能用扔的方式传递。4个人的步行速度都不同,若两人同行,则以较慢者的速度为准。A 需花1分钟过桥,B过桥需花2分钟,C需花5分钟过桥,D需花10分钟过桥。请问:他们能在17 分钟内过桥吗?”这可不是微软公司的别出心裁,据说世界上许多跻身世界500强的公司在 招收新员工时,都要出类似的智力题 智力游戏可以锻炼人的思维能力,培养人的思维方法。良好的思维方法能使我们从错 综复杂的现象中找到事物的本质,从纷繁的因素中找到事物变化的主要原因,使事物呈现出 条理性。思维方法是抽象的,它不像1+1=2那么简单,只有通过自己的想像,亲自动手操 作,经历失败,才能逐步形成。思维科学化程度越高的人,工作中发现问题、解决问题的能 力就越强。这一点已成为人们的共识 在许多智力游戏中,都存在这么一个共同的特点,就是参与者所选择的策略对于胜负 有着举足轻重的影响。一个游戏一点规则制订好之后,策略选择的好坏就成了游戏参加者所 能自由运用的左右游戏结果的最关键因素。特别是在围棋、象棋之类参与者的初始条件完全 相同的游戏中,策略选择就成了游戏结果的唯一决定因素 至于从围棋初段段到九段之间的差别,从博弈论的角度去看,就是他们之间策略选择 的技巧高低不同而已。博弈论的策略思维是一种技巧。策略思维从一些基本技巧出发,考虑 的是怎样将这些基本技巧最大限度地发挥出来 任何游戏都有自己的规则( Rule of the game)。实际现实自然也是如此,这就是法律 道德和各种成文或不成文的规章制度和惯例等。当然,这些规则也不是一成不变的,它会随 着情况的改变和人们的要求不断修正,但是只要规则存在,这个规则就是确定了人们行为的 前提条件。因此博弈与游戏都有一个重要的共同特征,那就是这些规则规定游戏参加者可以 做什么,不可以作什么,按照什么次序去做,什么时候结束游戏,一旦参与者犯规将受到怎 样的处罚等 游戏者的策略有相互依存的关系。每一个游戏者从游戏所得结果的好坏不仅取决于自 身的策略选择,同时也取决于其它参加者的策略选择。有时甚至一个坏的策略会给选它的 方带来并不坏的结果,原因是其它方选择了更坏的利他而不利己的策略。这一点也是游戏与 博弈重要的相似之处
6 中国最古老的围棋最初的功能形态就是模拟战争。围棋包含最多的是军事内涵,如围 而歼之,生死存亡为先,争地夺利为上。围棋以获得最大的利益为胜,抽象出战争的本质和 目的,非常符合战争规律。 围棋游戏的规则极其简单,不过是两气生,一气死,附加帖目、打劫等辅助规则,最 终以所占地盘大小定胜负。但其作为一项智力游戏,与战争在很多方面都相通。围棋棋手在 小小棋盘上较量,就是战争、战场、战斗在棋盘上的演绎。 战争理念和战争指导思想是“基于毁伤”,以破坏、消耗、摧毁敌方为上。现代西方 国家提出“基于效果”的作战思想,美国人将这一战争理念上的革命称为新的战争哲学。基 于效果就是,着眼于敌方整个作战系统的控制,使之丧失作战能力。美军在伊拉克发动“斩 首行动”的前一天,还专门召开了推出基于效果作战理念的新闻发布会,接着就发动了进攻。 围棋模拟出“基于效果”的战争理念,强调从全局上控制,而不是基于蝇头小利。即所 有的作战方法都必须是有效的,着子要看在全局中是否有用、有效,而不再是基于棋理、棋 道、棋风等虚幻的在形式。基于效果的思想就是赢棋第一,实事求是。比如韩国棋手李昌镐 就是基于效果的典范。 现在很多世界级公司都已经明白智力游戏的作用。比如著名的微软公司在招聘员工时出 过非常“儿童化”的招聘考题,题目是这样的:“某合唱团的4名成员A、B、C、D往演出现 场,他们途中要经过一座小桥。当他们赶到桥头时,天已经黑了,周围没有灯。他们只有一 只手电筒。现在规定:一次最多只许两人一起过桥,过桥人手里必须有手电筒,而且手电筒 不能用扔的方式传递。4个人的步行速度都不同,若两人同行,则以较慢者的速度为准。A 需花1分钟过桥,B过桥需花2分钟,C需花5分钟过桥,D需花10分钟过桥。请问:他们能在17 分钟内过桥吗?” 这可不是微软公司的别出心裁,据说世界上许多跻身世界500强的公司在 招收新员工时,都要出类似的智力题。 智力游戏可以锻炼人的思维能力,培养人的思维方法。良好的思维方法能使我们从错 综复杂的现象中找到事物的本质,从纷繁的因素中找到事物变化的主要原因,使事物呈现出 条理性。思维方法是抽象的,它不像1+1=2那么简单,只有通过自己的想像,亲自动手操 作,经历失败,才能逐步形成。思维科学化程度越高的人,工作中发现问题、解决问题的能 力就越强。这一点已成为人们的共识。 在许多智力游戏中,都存在这么一个共同的特点,就是参与者所选择的策略对于胜负 有着举足轻重的影响。一个游戏一点规则制订好之后,策略选择的好坏就成了游戏参加者所 能自由运用的左右游戏结果的最关键因素。特别是在围棋、象棋之类参与者的初始条件完全 相同的游戏中,策略选择就成了游戏结果的唯一决定因素。 至于从围棋初段段到九段之间的差别,从博弈论的角度去看,就是他们之间策略选择 的技巧高低不同而已。博弈论的策略思维是一种技巧。策略思维从一些基本技巧出发,考虑 的是怎样将这些基本技巧最大限度地发挥出来。 任何游戏都有自己的规则(Rule of the game)。实际现实自然也是如此,这就是法律、 道德和各种成文或不成文的规章制度和惯例等。当然,这些规则也不是一成不变的,它会随 着情况的改变和人们的要求不断修正,但是只要规则存在,这个规则就是确定了人们行为的 前提条件。因此博弈与游戏都有一个重要的共同特征,那就是这些规则规定游戏参加者可以 做什么,不可以作什么,按照什么次序去做,什么时候结束游戏,一旦参与者犯规将受到怎 样的处罚等。 游戏者的策略有相互依存的关系。每一个游戏者从游戏所得结果的好坏不仅取决于自 身的策略选择,同时也取决于其它参加者的策略选择。有时甚至一个坏的策略会给选它的一 方带来并不坏的结果,原因是其它方选择了更坏的利他而不利己的策略。这一点也是游戏与 博弈重要的相似之处
3.博弈论不是“万金油” 博弈论并不是“万金油”,正如诺贝尔经济学奖得主莱因哈德·泽尔滕教授所说,“博 弈论并不是疗法,也不是处方,它不能帮我们在赌博中获胜,不能帮我们通过投机来致富, 也不能帮我们在下棋或打牌中赢对手。它不告诉你该付多少钱买东西,这是计算机或者字典 的任务 要求博弈论能够完全刻画真实的世界,那么这命中注定会徒劳无功。根据著名的哥德尔 不完备定理,任何一个理论体系必定是不完全的,任何理论包含了既不能证明为真也不能证 明为假的命题。对这个世界的最好描述可能只有其本身,但是正如罗宾逊夫人的妙语“比例 尺是一比一的地图是没用的”。 博弈论也是这样,博弈论力图用最简单的假设下得到最大范围的推理应用。博弈论的这 种方法与很多应用广泛学科都是相似的。如欧几里德几何的基本假设是两点之间直线,推演 出庞大而严密的几何体系,可以说,在生活中或工程应用中,欧几里德几何学的思想方法是 无处不在、无时不有。其基本公设之一就是,人是理性的( rational)。所谓理性的人是指行 动者具有推理能力,在具体策略选择时的目的是使自己的利益最大化。而现实生活中,人们 再做决策时往往是有限理性。 所谓有限理性,也就是说人不是机器,人的理性是有限度的。比方说,某人要签署一份 合同,有三种方法可供选择:一种是计划好,安排好一切,然后不动脑筋按部就班地照计划 进行:另一种是做进度安排的时候都留一点余地,可供签订合同双方私下协商解决:最后 种是完全没有安排,凭着当时的感情与直觉任意为之,这种方法当然不可能是理性的。 后两种一眼就可看出完全不满足博弈论意义上的理性,即使是第一种方法也不是真正意 义上的经济理性。这是因为人们很难对每个措施将要产生的结果具有完全的了解和正确的预 测,常常要在缺乏完全了解的情况下,一定程度地根据主观意识进行决策,个人或企业的决 策都是在有限理性的条件下进行的。完全理性,意味着对每个抉择的确切后果都有完完全全 的了解。事实上,一个人对自己的行动条件的了解,从来都只能是零碎的:至于使他得以从 对当前状况的了解去推想未来后果的那些规律和法则,他也是所知甚微的 人类的精力和时间永远是有限的,人不可能具备完全理性,不可能掌握所有知识和信息 人类也不可能搜寻到所需的全部的信息。另一方面也要意识到信息的搜寻需要成本,而不是 毫不费成本的,因为人类必须为此付出大量的时间、精力和财力等等。意图搜寻到所有信息, 企图做出收益最优的决策行为有时反而是最不理性的行为 但当我们退而求其次时,博弈论可以得到对现实的客观世界描述的近似。所以博弈论仍 然是我们目前所能得到的最好但非唯一的工具。就像并不完美的力学是自然科学的哲学和数 学一样,博弈论是社会科学的力学和数学。没有牛顿力学我们连最简单的物理现象都无法理 解,马用了多大的力拉动一车货物?上帝说“让牛顿来做吧”,于是我们知道了马用的力相 当于克服摩擦力。同样的道理,没有博弈论我们也无法解释分析很多现实的社会现象。 著名的博弈论大师鲁宾斯坦( Rubinstein)说过,“一个博弈模型是我们关于现实的观念 的近似,而不是现实的客观描述的近似”。看来“理论之树是灰色的,生命之树常青!”这 句话,我们应该谨记于心
7 3.博弈论不是“万金油” 博弈论并不是“万金油”,正如诺贝尔经济学奖得主莱因哈德·泽尔滕教授所说,“博 弈论并不是疗法,也不是处方,它不能帮我们在赌博中获胜,不能帮我们通过投机来致富, 也不能帮我们在下棋或打牌中赢对手。它不告诉你该付多少钱买东西,这是计算机或者字典 的任务。” 要求博弈论能够完全刻画真实的世界,那么这命中注定会徒劳无功。根据著名的哥德尔 不完备定理,任何一个理论体系必定是不完全的,任何理论包含了既不能证明为真也不能证 明为假的命题。对这个世界的最好描述可能只有其本身,但是正如罗宾逊夫人的妙语“比例 尺是一比一的地图是没用的”。 博弈论也是这样,博弈论力图用最简单的假设下得到最大范围的推理应用。博弈论的这 种方法与很多应用广泛学科都是相似的。如欧几里德几何的基本假设是两点之间直线,推演 出庞大而严密的几何体系,可以说,在生活中或工程应用中,欧几里德几何学的思想方法是 无处不在、无时不有。其基本公设之一就是,人是理性的(rational)。所谓理性的人是指行 动者具有推理能力,在具体策略选择时的目的是使自己的利益最大化。而现实生活中,人们 再做决策时往往是有限理性。 所谓有限理性,也就是说人不是机器,人的理性是有限度的。比方说,某人要签署一份 合同,有三种方法可供选择:一种是计划好,安排好一切,然后不动脑筋按部就班地照计划 进行;另一种是做进度安排的时候都留一点余地,可供签订合同双方私下协商解决:最后一 种是完全没有安排,凭着当时的感情与直觉任意为之,这种方法当然不可能是理性的。 后两种一眼就可看出完全不满足博弈论意义上的理性,即使是第一种方法也不是真正意 义上的经济理性。这是因为人们很难对每个措施将要产生的结果具有完全的了解和正确的预 测,常常要在缺乏完全了解的情况下,一定程度地根据主观意识进行决策,个人或企业的决 策都是在有限理性的条件下进行的。完全理性,意味着对每个抉择的确切后果都有完完全全 的了解。事实上,一个人对自己的行动条件的了解,从来都只能是零碎的;至于使他得以从 对当前状况的了解去推想未来后果的那些规律和法则,他也是所知甚微的。 人类的精力和时间永远是有限的,人不可能具备完全理性,不可能掌握所有知识和信息。 人类也不可能搜寻到所需的全部的信息。另一方面也要意识到信息的搜寻需要成本,而不是 毫不费成本的,因为人类必须为此付出大量的时间、精力和财力等等。意图搜寻到所有信息, 企图做出收益最优的决策行为有时反而是最不理性的行为。 但当我们退而求其次时,博弈论可以得到对现实的客观世界描述的近似。所以博弈论仍 然是我们目前所能得到的最好但非唯一的工具。就像并不完美的力学是自然科学的哲学和数 学一样,博弈论是社会科学的力学和数学。没有牛顿力学我们连最简单的物理现象都无法理 解,马用了多大的力拉动一车货物?上帝说“让牛顿来做吧”,于是我们知道了马用的力相 当于克服摩擦力。同样的道理,没有博弈论我们也无法解释分析很多现实的社会现象。 著名的博弈论大师鲁宾斯坦(Rubinstein)说过,“一个博弈模型是我们关于现实的观念 的近似,而不是现实的客观描述的近似”。看来“理论之树是灰色的,生命之树常青!”这 句话,我们应该谨记于心
第二章纳什均衡、纯策略与混和策略 1.从围棋定式谈纳什均衡 我们已经知道,博弈论的基本前提是,某人或某物的行为效果如何,有赖于他人或他物 的行为。由于世上人间的事物很少不依赖于其他事物而存在。非合作博弈强调利益的冲突, 即非合作甚至对抗状态。比如,“零和博弈”就是典型的非合作博弈,它是指博弈各方的所 得之和为零,在特殊情况下如两人博弈时,一方所得与另一方所失相等。从严格的数学角度 来看,围棋19×19的361个交叉点就是围棋对弈者所得的总和,因此围棋棋手非输即赢,可 见围棋明显是数学意义上的严格的零和博弈 世事如棋局,而棋局是可以用博弈思维加以概括的。比如过分的“骗着”,“本手”与“缓 着”之间,一般都会选择本手,着法过分如不遇反击,可能占到便宜,如遇反击则可能亏损, 因此如果棋力相当,则应考虑到对手的反击手段。对手也同样考虑到在追求利益中不可能占 尽便宜。这就导致双方都能接受的方案 围棋定式从策略层面看,如一方的策略是抢占实地,另一方是获得外势,而结果相当, 互有所得,双方就愿意那样下。抢占实地考虑现实利益,获得外势考虑将来发展,这便形成 个双方的“均衡”;另一方面,可以从具体行棋效果来看,如果一步棋能考虑到对手各种 应手而依然成立,对手也运用同样法则找到应对,则可以说双方达成了“均衡”。 在经济学中,均衡( equilibrium)意即相关量处于稳定值。比如在经典的供需分析中,若 某一商品的市场价格使得欲购买该商品的人均能买到,同时想卖的人均能将商品卖出去,此 时该商品的供求达到了均衡。这个市场价格可称之为均衡价格,产量可称之为均衡产量。均 衡分析是经典经济学中的重要方法。 在讲解纳什均衡之前,我们再来看这样一个例子。一般对博弈论稍微有些了解的人,都 会知道“囚徒困境”这个名词。这个例子就是在“囚徒困境”的基础上所作的修改 A和B是两个因盗窃而被抓的惯犯。警察局局长C正在调查该局管辖区域内的一宗悬 而未决的银行抢劫案,并且他根据一系列的线索判定A和B是这桩案子的凶犯。因为该局 管辖地区治安一向混乱不堪,C的上级对C非常恼火,直接威胁C如果银行案破不了,就 要撤销C局长的职位,给予降级惩罚。C在上级的压力下不得不耗费大量时间、精力提审A 和B。为了能够让两个囚犯认罪,C想让A和B明白,假如只有他们其中的一人坦白认罪 则这个人可能受到的最严厉的惩罚是什么,但向他们遵守承诺,若两个人都坦白,则会从轻 发落。 于是,这个警察局长C分别与A、B立下许诺:如果只有一个人坦白认罪,则认罪的 方会收到所有指控,会因银行抢劫而判无期徒刑,另一个人则不会再加刑罚。如果无人认 罪,两个人都会因盗窃罪而判刑2年。如果两个人都坦白,则两个人都被判处有期徒刑5 这样,警察局长C给A和B构造了一个博弈。不妨假设,A和B都是极其精明的会打 小算盘的自私自利不讲“江湖义气”的人,同时A和B被分别审査不能够进行沟通。在这 种情况下,A会在脑子里打小算盘,他会想:如果选择坦白,那么B选择坦白时将判刑5 年,B选择不坦白时将判刑20年,因此选择坦白时最坏的打算就把牢底坐穿:若是选择不 坦白,那么B选择坦白时将无罪释放获得自由,B选择不坦白时将判有期徒刑5年,因此 选择不坦白时最坏的可能就是被囚禁5年。两害相权,取其轻。因此在这种情况下,A必然 会选择不坦白,同样的道理,B也会选择不坦白。这个时候,博弈达到了这样一种局面,这
8 第二章 纳什均衡、纯策略与混和策略 1.从围棋定式谈纳什均衡 我们已经知道,博弈论的基本前提是,某人或某物的行为效果如何,有赖于他人或他物 的行为。由于世上人间的事物很少不依赖于其他事物而存在。非合作博弈强调利益的冲突, 即非合作甚至对抗状态。比如,“零和博弈”就是典型的非合作博弈,它是指博弈各方的所 得之和为零,在特殊情况下如两人博弈时,一方所得与另一方所失相等。从严格的数学角度 来看,围棋 1919 的 361 个交叉点就是围棋对弈者所得的总和,因此围棋棋手非输即赢,可 见围棋明显是数学意义上的严格的零和博弈。 世事如棋局,而棋局是可以用博弈思维加以概括的。比如过分的“骗着”,“本手”与“缓 着”之间,一般都会选择本手,着法过分如不遇反击,可能占到便宜,如遇反击则可能亏损, 因此如果棋力相当,则应考虑到对手的反击手段。对手也同样考虑到在追求利益中不可能占 尽便宜。这就导致双方都能接受的方案。 围棋定式从策略层面看,如一方的策略是抢占实地,另一方是获得外势,而结果相当, 互有所得,双方就愿意那样下。抢占实地考虑现实利益,获得外势考虑将来发展,这便形成 一个双方的“均衡”;另一方面,可以从具体行棋效果来看,如果一步棋能考虑到对手各种 应手而依然成立,对手也运用同样法则找到应对,则可以说双方达成了“均衡”。 在经济学中,均衡(equilibrium)意即相关量处于稳定值。比如在经典的供需分析中,若 某一商品的市场价格使得欲购买该商品的人均能买到,同时想卖的人均能将商品卖出去,此 时该商品的供求达到了均衡。这个市场价格可称之为均衡价格,产量可称之为均衡产量。均 衡分析是经典经济学中的重要方法。 在讲解纳什均衡之前,我们再来看这样一个例子。一般对博弈论稍微有些了解的人,都 会知道“囚徒困境”这个名词。这个例子就是在“囚徒困境”的基础上所作的修改。 A 和 B 是两个因盗窃而被抓的惯犯。警察局局长 C 正在调查该局管辖区域内的一宗悬 而未决的银行抢劫案,并且他根据一系列的线索判定 A 和 B 是这桩案子的凶犯。因为该局 管辖地区治安一向混乱不堪,C 的上级对 C 非常恼火,直接威胁 C 如果银行案破不了,就 要撤销 C 局长的职位,给予降级惩罚。C 在上级的压力下不得不耗费大量时间、精力提审 A 和 B。为了能够让两个囚犯认罪,C 想让 A 和 B 明白,假如只有他们其中的一人坦白认罪 则这个人可能受到的最严厉的惩罚是什么,但向他们遵守承诺,若两个人都坦白,则会从轻 发落。 于是,这个警察局长 C 分别与 A、B 立下许诺:如果只有一个人坦白认罪,则认罪的 一方会收到所有指控,会因银行抢劫而判无期徒刑,另一个人则不会再加刑罚。如果无人认 罪,两个人都会因盗窃罪而判刑 2 年。如果两个人都坦白,则两个人都被判处有期徒刑 5 年。 这样,警察局长 C 给 A 和 B 构造了一个博弈。不妨假设,A 和 B 都是极其精明的会打 小算盘的自私自利不讲“江湖义气”的人,同时 A 和 B 被分别审查不能够进行沟通。在这 种情况下,A 会在脑子里打小算盘,他会想:如果选择坦白,那么 B 选择坦白时将判刑 5 年,B 选择不坦白时将判刑 20 年,因此选择坦白时最坏的打算就把牢底坐穿;若是选择不 坦白,那么 B 选择坦白时将无罪释放获得自由,B 选择不坦白时将判有期徒刑 5 年,因此 选择不坦白时最坏的可能就是被囚禁 5 年。两害相权,取其轻。因此在这种情况下,A 必然 会选择不坦白,同样的道理,B 也会选择不坦白。这个时候,博弈达到了这样一种局面,这
种局面就是纳什均衡( Nash Equilibrium) 纳什均衡的思想其实并不复杂,在博弈达到纳什均衡时,局中的每一个博弈者都不可能 因为单方面改变自己的策略而增加获益,于是各方为了自己利益的最大化而选择了某中最优 策略,并与其他对手达成了某种暂时的平衡。这种平衡在外界环境没有变化的情况下,倘若 有关各方坚持原有的利益最大化原则并理性面对现实,那么这种平衡状况就能够长期保持稳 再简单一点说,一策略组合中,所有的参与者面临这样的一种情况:当其他人不改变策 略时,他此时的策略是最好的。也就是说,此时如果他改变策略,他的收益将会降低。在纳 什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动 由此可见,纳什均衡是一稳定的博弈结果。打一个比方,如果把一个乒乓球,放到一个 光滑的铁锅里,不论其初始位置在何处,最终乒乓球都会稳定地停留在锅底,这时的锅底就 可称为是一个纳什均衡点。相反,如果锅是扣在地上的,那么锅底部位是很难放稳一个乒乓 球的,因为往任何方向的一点点移动,都会使球彻底离开锅底。这时的锅底部位就不是一个 纳什均衡点了 博弈的结果并不都能成为均衡。博弈的均衡是稳定的,则必然可以预测。纳什均衡的另 层含义是:在对方策略确定的情况下,每个参与者的策略是最好的,此时没有人愿意先改 变或主动改变自己的策略。在上面的“囚徒困境”变形的博弈中,A和B都不坦白就是 个纳什均衡,这对双方来说都是最优选择。同时在这个博弈中,其均衡对双方来说是全局最 优的。当然博弈达到纳什均衡,并不一定是对参与者最有利的结果,更不意味着是对整个社 会作为一个整体而言最有利的结果,比如“囚徒困境”的例子导致了整体的不利 围棋与这个博弈的例子是有所不同的。上面的这个例子是A和B双方没有信息交换下 的博弈,这就是博弈论中的静态博弈概念。围棋则是对弈双方相继按照一先一后次序行动的 博弈。对于一人一步的相继行动的博弈,每个参与者都必须向前展望或预期,估计对手的意 图,从而倒后推理,决定自己这一步应该怎么走。这是一条线性的推理链:“假如我这么做, 他就会那么做——若是那样,我会这么反击”,后面的步骤依此类推。也就是说,你怎么走 棋,完全取决于对手的上一招。这在博弈论上叫做“倒推法”。在动态博弈中,存在明显的 马太效应,也就是说凡是少的,连他仅有的也夺过来;凡是多的,就加给他,让他更多。比 如在围棋上,就有“一招不慎,满盘皆输”的谚语,当然我们也要应用动态博弈的马太效应 原理,在获得优势的情况能够保持优势扩大优势,直至最后成功。 而在同时行动的静态博弈里,没有一个博弈者可以在自己行动之前得知另一个博弈者的 整个计划。在这种情况下,互动推理不是通过观察对方的策略进行,而是必须通过看穿对手 的策略才能展开。要想做到这一点,单单假设自己处于对手的位置会怎么做还不够。即便你 那样做了,你只会发现,你的对手也在做同样的事情,即他也在假设自己处于你的位置会怎 么做。因此,每一个人不得不同时担任两个角色,一个是自己,一个是对手,从而找出双方 的最佳行动方式。与一条线性的推理链不同,这是一个循环,即“假如我认为对方认为我认 为……”。 这样来看,定式是一系列纳什均衡的累计直至局部达到稳定的一种变化,直到一方认为 可以根据形势选择任何变化或脱先而无局部受损之虞。由于定式是在大量实战基础上不断被 验证并长期积累而成。 因此在动态博弈中,纳什均衡的要义在于:即使在对抗条件下,双方可以通过向对方提 出威胁和要求,找到双方能够接受的解决方案而不至于因为各自追求自我利益而无法达到妥 协,甚至两败俱伤。稳定的均衡点建立在找到各自的“占优策略”( dominant strategy),即无 论对方作何选择,这一策略优于其他策略
9 种局面就是纳什均衡(Nash Equilibrium)。 纳什均衡的思想其实并不复杂,在博弈达到纳什均衡时,局中的每一个博弈者都不可能 因为单方面改变自己的策略而增加获益,于是各方为了自己利益的最大化而选择了某中最优 策略,并与其他对手达成了某种暂时的平衡。这种平衡在外界环境没有变化的情况下,倘若 有关各方坚持原有的利益最大化原则并理性面对现实,那么这种平衡状况就能够长期保持稳 定。 再简单一点说,一策略组合中,所有的参与者面临这样的一种情况:当其他人不改变策 略时,他此时的策略是最好的。也就是说,此时如果他改变策略,他的收益将会降低。在纳 什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。 由此可见,纳什均衡是一稳定的博弈结果。打一个比方,如果把一个乒乓球,放到一个 光滑的铁锅里,不论其初始位置在何处,最终乒乓球都会稳定地停留在锅底,这时的锅底就 可称为是一个纳什均衡点。相反,如果锅是扣在地上的,那么锅底部位是很难放稳一个乒乓 球的,因为往任何方向的一点点移动,都会使球彻底离开锅底。这时的锅底部位就不是一个 纳什均衡点了。 博弈的结果并不都能成为均衡。博弈的均衡是稳定的,则必然可以预测。纳什均衡的另 一层含义是:在对方策略确定的情况下,每个参与者的策略是最好的,此时没有人愿意先改 变或主动改变自己的策略。在上面的“囚徒困境”变形的博弈中,A 和 B 都不坦白就是一 个纳什均衡,这对双方来说都是最优选择。同时在这个博弈中,其均衡对双方来说是全局最 优的。当然博弈达到纳什均衡,并不一定是对参与者最有利的结果,更不意味着是对整个社 会作为一个整体而言最有利的结果,比如“囚徒困境”的例子导致了整体的不利。 围棋与这个博弈的例子是有所不同的。上面的这个例子是 A 和 B 双方没有信息交换下 的博弈,这就是博弈论中的静态博弈概念。围棋则是对弈双方相继按照一先一后次序行动的 博弈。对于一人一步的相继行动的博弈,每个参与者都必须向前展望或预期,估计对手的意 图,从而倒后推理,决定自己这一步应该怎么走。这是一条线性的推理链:“假如我这么做, 他就会那么做——若是那样,我会这么反击”,后面的步骤依此类推。也就是说,你怎么走 棋,完全取决于对手的上一招。这在博弈论上叫做“倒推法”。在动态博弈中,存在明显的 马太效应,也就是说凡是少的,连他仅有的也夺过来;凡是多的,就加给他,让他更多。比 如在围棋上,就有“一招不慎,满盘皆输”的谚语,当然我们也要应用动态博弈的马太效应 原理,在获得优势的情况能够保持优势扩大优势,直至最后成功。 而在同时行动的静态博弈里,没有一个博弈者可以在自己行动之前得知另一个博弈者的 整个计划。在这种情况下,互动推理不是通过观察对方的策略进行,而是必须通过看穿对手 的策略才能展开。要想做到这一点,单单假设自己处于对手的位置会怎么做还不够。即便你 那样做了,你只会发现,你的对手也在做同样的事情,即他也在假设自己处于你的位置会怎 么做。因此,每一个人不得不同时担任两个角色,一个是自己,一个是对手,从而找出双方 的最佳行动方式。与一条线性的推理链不同,这是一个循环,即“假如我认为对方认为我认 为……”。 这样来看,定式是一系列纳什均衡的累计直至局部达到稳定的一种变化,直到一方认为 可以根据形势选择任何变化或脱先而无局部受损之虞。由于定式是在大量实战基础上不断被 验证并长期积累而成。 因此在动态博弈中,纳什均衡的要义在于:即使在对抗条件下,双方可以通过向对方提 出威胁和要求,找到双方能够接受的解决方案而不至于因为各自追求自我利益而无法达到妥 协,甚至两败俱伤。稳定的均衡点建立在找到各自的“占优策略”(dominant strategy),即无 论对方作何选择,这一策略优于其他策略
2.从爱情故事谈起:优势策略与房地产开发博弈 “原地高天,堪叹古今情难尽;痴男怨女,可怜风月债难偿。”我们来先看欧·亨利的小 说《麦吉的礼物》描述的这样一个爱情故事。新婚不久的MM和GG,很是穷困潦倒。除了M 那一头美丽的金色长发,GG那一只祖传的金怀表,便再也没有什么东西可以让他们引以为傲 了。虽然生活很累很苦,他们却彼此相爱至深。每个人关心对方都胜过关心自己。为了促进 对方的利益,他们愿意奉献和牺牲自己的一切 话说明天就是圣诞节了,小两口都是身无余钱。为了让爱人过得好一点,每个人还是想 悄悄儿准备一份礼物给对方。GG卖掉了心爱的怀表,买了一套漂亮发卡,去配M那一头金色 长发。MM剪掉心爱的长发,拿去卖钱,为GG的怀表买了表链和表袋 最后,到了交换礼物的时刻,他们无可奈何地发现,自己如此珍视的东西,对方已作为 礼物的代价而出卖了。花了惨痛代价换回的东西,竟成了无用之物。出于无私爱心的利他主 义行为,结果却使得双方的利益同时受损 欧·亨利在小说中写道:“聪明的人,送礼自然也很聪明。大约都是用自己有余的物事 来交换送礼的好处。然而,我讲的这个平平淡淡的故事里,两个住公寓的傻孩子,却是笨到 极点,彼此为了对方,白白牺牲了他们屋檐下最珍贵的财富。”从这段文字看,欧亨利似乎 并不认为这小两口是理性的。且让我们暂时抛开爱情的温馨,单从利益的角度来解读。我们 假定,他们每个人,有一个“亳不利己专门利人”的偏好系统,毫不考虑自身利益,专门谋 求别人的幸福。这样,个人选择付出还是不付出,只看对方能不能得益,与自己是否受损无 关。以这样的偏好来衡量,最好的结果自然是自己付出而对方不付出,对方收益增大:次好 的结果是大家都不付出,对方不得益也不牺牲:再次的结果是大家都付出:最坏的结果是别 人付出而自己不付出,靠牺牲别人来使自己得益。我们不妨可用数字来代表个人对这四种结 果的评价:第一种结果给3分,第二种结果给1分,第三种结果给1分,最后那种给0分。 不难看出,无论对方选择付出,还是选择不付出,个人自己的最佳选择都是付出。然而 这并不是对大家都有利的选择。事实上,大家都选择不付出,明显优于大家都选择付出的境 况,这就达到了上文提到的纳什均衡 实际上,这里的例子是一个博弈论中所说的占优策略均衡。通俗地说,在占优策略均衡 中,不论所有其他参与人选择什么策略,一个参与人的占优策略都是他的最优策略。显然, 这一策略一定是所有其他参与人选择某一特定策略时该参与人的占优策略。因此,占优策略 均衡一定是纳什均衡。在这个例子中,M选择不付出,也就是不剪掉金发对于M来说是一个 优势策略,也就是说M不付岀,GG不管选择什么策略,M所得的结果都好于GG。同理,G 不卖掉怀表对于GG来说也是一个优势策略 再举个简单的例子:一名篮球前锋和队友在蓝下面对着对方的一个后卫时,形成了二打 的局面,该前锋可以选择直接投篮,也可以选择传球给队友,根据经验,传球过人的成功 率更大,那么传球就是该前锋的优势策略。即某些时候它胜于其他策略,且任何时候都不会 比其他策略差。如果一个球员具有这样一种策略,无论其他球员怎么做,这个策略都会高出 一筹,那么这个球员就有一个优势策略。当然如果一个球员有这么一个优势策略,他的决策 就会变得非常简单,只要直接采用该策略而完全不必考虑对手的应对策略 还有一个要注意的问题是,采用优势策略得到的最坏结果并不一定比采用另外一个策略 得到的最佳结果要好,这是很多博弈论普及书中容易出错的一个问题。应该说,对局者采用 优势策略在对方采取任何策略时,总能够显示出优势。比如就这个例子来说,就MM来说, 她采用不付出的策略,无论GG付出或不付出,MM的不付出策略总是占有优势。GG的优 势策略也是一样。但是,MM选择不付出的最坏结果是1,二选择付出的最好结果是3,很 明显,MM的优势策略得到的最坏结果并不比采用另外一个策略得到的最佳结果要高出 10
10 2.从爱情故事谈起:优势策略与房地产开发博弈 “原地高天,堪叹古今情难尽;痴男怨女,可怜风月债难偿。”我们来先看欧·亨利的小 说《麦吉的礼物》描述的这样一个爱情故事。新婚不久的MM和GG,很是穷困潦倒。除了MM 那一头美丽的金色长发,GG那一只祖传的金怀表,便再也没有什么东西可以让他们引以为傲 了。虽然生活很累很苦,他们却彼此相爱至深。每个人关心对方都胜过关心自己。为了促进 对方的利益,他们愿意奉献和牺牲自己的一切。 话说明天就是圣诞节了,小两口都是身无余钱。为了让爱人过得好一点,每个人还是想 悄悄儿准备一份礼物给对方。GG卖掉了心爱的怀表,买了一套漂亮发卡,去配MM那一头金色 长发。MM剪掉心爱的长发,拿去卖钱,为GG的怀表买了表链和表袋。 最后,到了交换礼物的时刻,他们无可奈何地发现,自己如此珍视的东西,对方已作为 礼物的代价而出卖了。花了惨痛代价换回的东西,竟成了无用之物。出于无私爱心的利他主 义行为,结果却使得双方的利益同时受损。 欧·亨利在小说中写道:“聪明的人,送礼自然也很聪明。大约都是用自己有余的物事, 来交换送礼的好处。然而,我讲的这个平平淡淡的故事里,两个住公寓的傻孩子,却是笨到 极点,彼此为了对方,白白牺牲了他们屋檐下最珍贵的财富。”从这段文字看,欧亨利似乎 并不认为这小两口是理性的。且让我们暂时抛开爱情的温馨,单从利益的角度来解读。我们 假定,他们每个人,有一个“毫不利己专门利人”的偏好系统,毫不考虑自身利益,专门谋 求别人的幸福。这样,个人选择付出还是不付出,只看对方能不能得益,与自己是否受损无 关。以这样的偏好来衡量,最好的结果自然是自己付出而对方不付出,对方收益增大;次好 的结果是大家都不付出,对方不得益也不牺牲;再次的结果是大家都付出;最坏的结果是别 人付出而自己不付出,靠牺牲别人来使自己得益。我们不妨可用数字来代表个人对这四种结 果的评价:第一种结果给3分,第二种结果给1分,第三种结果给1分,最后那种给0分。 不难看出,无论对方选择付出,还是选择不付出,个人自己的最佳选择都是付出。然而 这并不是对大家都有利的选择。事实上,大家都选择不付出,明显优于大家都选择付出的境 况,这就达到了上文提到的纳什均衡。 实际上,这里的例子是一个博弈论中所说的占优策略均衡。通俗地说,在占优策略均衡 中,不论所有其他参与人选择什么策略,一个参与人的占优策略都是他的最优策略。显然, 这一策略一定是所有其他参与人选择某一特定策略时该参与人的占优策略。因此,占优策略 均衡一定是纳什均衡。在这个例子中,MM选择不付出,也就是不剪掉金发对于MM来说是一个 优势策略,也就是说MM不付出,GG不管选择什么策略,MM所得的结果都好于GG。同理,GG 不卖掉怀表对于GG来说也是一个优势策略。 再举个简单的例子:一名篮球前锋和队友在蓝下面对着对方的一个后卫时,形成了二打 一的局面,该前锋可以选择直接投篮,也可以选择传球给队友,根据经验,传球过人的成功 率更大,那么传球就是该前锋的优势策略。即某些时候它胜于其他策略,且任何时候都不会 比其他策略差。如果一个球员具有这样一种策略,无论其他球员怎么做,这个策略都会高出 一筹,那么这个球员就有一个优势策略。当然如果一个球员有这么一个优势策略,他的决策 就会变得非常简单,只要直接采用该策略而完全不必考虑对手的应对策略。 还有一个要注意的问题是,采用优势策略得到的最坏结果并不一定比采用另外一个策略 得到的最佳结果要好,这是很多博弈论普及书中容易出错的一个问题。应该说,对局者采用 优势策略在对方采取任何策略时,总能够显示出优势。比如就这个例子来说,就 MM 来说, 她采用不付出的策略,无论 GG 付出或不付出,MM 的不付出策略总是占有优势。GG 的优 势策略也是一样。但是,MM 选择不付出的最坏结果是 1,二选择付出的最好结果是 3,很 明显,MM 的优势策略得到的最坏结果并不比采用另外一个策略得到的最佳结果要高出一