理性与经验 第12章 ·传统博弈理论:每个人都是理性的,并且理 性和博弈结构是共同知识每个人都在选 演进博弈与自发秩序 择战略最大化自己的利益;只要知道博弈 的结构,就可以预测均衡结果; 张维迎 ·但其他社会科学家一直对理性人假设抱 北京大学光华管理学院 有怀疑 进化博弈 演化稳定战略 John Maynard Smith and G Price, 1973; Maynard ESS: evolutionary stable strategies Smith, 1982, Evolution and the Theory of Games ·种群中可以持续存在的行为方式; CUP ·静态:一个特定的行为方式被称为是演化稳定 ·生物博弈是基因之间的博弈 的如果它的种群不能被变异所成功侵入;或者 ·生物行为(战略)是由基因( genes决定的基因的 说任何偏离行为的个体具有更低的生存能力 生存和繁殖由自然选择决定;最适合生存的基因 种群将会恢复到原来的状态 不断繁衍,而不适合生存的基因被淘汰;生物进 ·动态:假定初始状态存在多样的行为方式,随着 化是一个自然选择的过程;最后可能导致一个稳 间的推移,如果某个特定的行为方式能逐步主 定状态 导整个种群,这个特定的行为方式就是ESS ESS与纳什均衡 生物进化与社会演进 ·ESS一定是纳什均衡,但并非所有的纳什 我略: 均衡都是 生物行为是基因决定的,个人没有选择性; 社会行为并不完全取决于基因而是与社会环境、文化、教 ·演化过程可以帮助选择特定的纳什均衡 育、以及个体的经验等因素等有关:个体有选择性 ·适应性( fitness):基因的繁殖能力:总的或平均的报酬 传递:基因遗传 人将信息传输给朋友、同 事:好的行为方式 习、模仿:人们也会有意识 地通过“试错”的办 好的战略:所以社会和教育 机制更为重要
第12章 演进博弈与自发秩序 张维迎 北京大学光华管理学院 理性与经验 • 传统博弈理论:每个人都是理性的,并且理 性和博弈结构是共同知识;每个人都在选 择战略最大化自己的利益;只要知道博弈 的结构,就可以预测均衡结果; • 但其他社会科学家一直对理性人假设抱 有怀疑. 进化博弈 • John Maynard Smith and G Price, 1973; Maynard Smith, 1982, Evolution and the Theory of Games, CUP; • 生物博弈是基因之间的博弈; • 生物行为(战略)是由基因(genes)决定的;基因的 生存和繁殖由自然选择决定;最适合生存的基因 不断繁衍,而不适合生存的基因被淘汰;生物进 化是一个自然选择的过程;最后可能导致一个稳 定状态. 演化稳定战略 • ESS: evolutionary stable strategies: • 种群中可以持续存在的行为方式; • 静态: 一个特定的行为方式被称为是演化稳定 的,如果它的种群不能被变异所成功侵入;或者 说,任何偏离行为的个体具有更低的生存能力, 种群将会恢复到原来的状态; • 动态: 假定初始状态存在多样的行为方式, 随着 时间的推移,如果某个特定的行为方式能逐步主 导整个种群, 这个特定的行为方式就是ESS; ESS与纳什均衡 • ESS一定是纳什均衡,但并非所有的纳什 均衡都是ESS; • 演化过程可以帮助选择特定的纳什均衡; 生物进化与社会演进 • 战略: – 生物行为是基因决定的,个人没有选择性; – 社会行为并不完全取决于基因,而是与社会环境、文化、教 育、以及个体的经验等因素等有关;个体有选择性 • 适应性(fitness):基因的繁殖能力;总的或平均的报酬 (payoff); • 传递:基因遗传;成功的人将信息传输给朋友、同 事;好的行为方式会被学习、模仿;人们也会有意识 地通过“试错”的办法寻找好的战略;所以社会和教育 机制更为重要;
单元均衡与多元均衡 协调博弈:左撇子与右撇子 ·演化稳定状态可能只有一个战略(行为 ·设想总人口中有两类人:一类人是左撇 方式),也可能包含多个具有同样适应 子;另一类人是右撇子 性的行为方式 ·任意挑选其中的一对进行博弈 前者称为单元均衡( monomorphic 支付矩阵如下图所示; equilibrium ·注意:战略是先天决定的,参与者并不 后者称为多元均衡( polymorphic 在两种战略之间选择。 左撇子与右撇子 谁最适合生存? 答案依赖与初始的人口分布。直观。 ·假定总人口中有x的比例是左撇子,1-x 左撇子 右撇子 的比例是右撇子。那么,左撇子的预期 支付为 左撇子1,1 ·右撇子的预期支付:x0+(1-x)l=-x, 右撤子 三个均衡 图示 ·如果x>1/2,左撇子更具生存能力,他们 生存能力 的比例将增加,直到100%;单元均衡 ·如果x<l/2,右撇子更具有生存能力,他 右撤 们的比例将增加,直到100%;单元均 衡 如果x=12,两类人的生存能力相同;二 元均衡 ·但只有前两个均衡是ESS:单元均衡
单元均衡与多元均衡 • 演化稳定状态可能只有一个战略(行为 方式),也可能包含多个具有同样适应 性的行为方式; • 前者称为单元均衡(monomorphic equilibrium); • 后者称为多元均衡(polymorphic equilibrium). 协调博弈:左撇子与右撇子 • 设想总人口中有两类人:一类人是左撇 子;另一类人是右撇子; • 任意挑选其中的一对进行博弈; • 支付矩阵如下图所示; • 注意:战略是先天决定的,参与者并不 在两种战略之间选择。 左撇子与右撇子 左撇子 右撇子 左撇子 右撇子 1,1 0,0 0,0 1,1 谁最适合生存? • 答案依赖与初始的人口分布。直观。 • 假定总人口中有x的比例是左撇子,1-x 的比例是右撇子。那么,左撇子的预期 支付为:x1+(1-x)0=x; • 右撇子的预期支付:x0+(1-x)1=1-x; • x>(1-x) x>1/2 三个均衡 • 如果x>1/2,左撇子更具生存能力,他们 的比例将增加,直到100%;单元均衡; • 如果x<1/2, 右撇子更具有生存能力,他 们的比例将增加,直到100%;单元均 衡; • 如果x=1/2, 两类人的生存能力相同;二 元均衡。 • 但只有前两个均衡是ESS;单元均衡。 图示 1 1 0 X=1 1/2 生存能力 右撇子 左撇子
与理性人博弈比较 父母怎样教育孩子? ·如果战略是理性人选择的结果,这个博弈也有 旦使用右手成为主导习惯,少数左撇 个均衡:(左撇子,左撇子):(右撇子, 右撤子);(12左,12右) 子并不能改变结果 ·所以,并非所有的纳什均衡都是演化稳定均 所以为了孩子的利益,父母会教育孩子 用右手 ·但与“混合战略均衡”解释不同:每个人都是纯 ·用手的习惯既有基因的遗传,也有后天 战略,只是一半人用左手,另一半人用右手 的训练。 演化稳定性为选择特定的纳什均衡提供了新的 这可能是社会行为的典型特征。 依据 ·演化稳定单元均衡:战略是对自身的最优反应 交通博弈 协调博弈:婚姻 靠左行 靠右行 物质型 感情型 靠左行 物质型 靠右行 多情型0,0 2,2 谁将生存? 均衡 ·假定总人口中,物质型的比例为x,感情 ·如果x>2/3,物质型更适合生存,将演化 型的比例为(1-x); 成稳定均衡 那么,对任何一个个体而言,物质型的 ·如果ⅹ<2/3,感情型更适合生存,将演化 预期支付:x1+(1-x)0=x 成稳定均衡 ·感情型的预期支付:x0+(1-x)2=2(1-x) 如果x=2/3,两类人有同样的适应性,但 ·x=2/3 这一(二元)均衡是非稳定的 ·演化均衡不一定是帕累托最优均衡
与理性人博弈比较 • 如果战略是理性人选择的结果,这个博弈也有 三个均衡:(左撇子,左撇子);(右撇子, 右撇子);(1/2左,1/2右); • 所以,并非所有的纳什均衡都是演化稳定均 衡; • 但与“混合战略均衡”解释不同:每个人都是纯 战略,只是一半人用左手,另一半人用右手; • 演化稳定性为选择特定的纳什均衡提供了新的 依据; • 演化稳定单元均衡:战略是对自身的最优反应 (reply) 父母怎样教育孩子? • 一旦使用右手成为主导习惯,少数左撇 子并不能改变结果; • 所以为了孩子的利益,父母会教育孩子 用右手; • 用手的习惯既有基因的遗传,也有后天 的训练。 • 这可能是社会行为的典型特征。 交通博弈 靠左行 靠右行 靠左行 靠右行 1,1 -1,-1 -1,-1 1,1 协调博弈:婚姻 物质型 感情型 物质型 感情型 1,1 0,0 0,0 2,2 谁将生存? • 假定总人口中,物质型的比例为x,感情 型的比例为(1-x); • 那么,对任何一个个体而言,物质型的 预期支付:x1+(1-x)0=x; • 感情型的预期支付:x0+(1-x)2=2(1-x); • x=2/3 均衡 • 如果x>2/3, 物质型更适合生存,将演化 成稳定均衡; • 如果x<2/3, 感情型更适合生存,将演化 成稳定均衡; • 如果x=2/3, 两类人有同样的适应性,但 这一(二元)均衡是非稳定的; • 演化均衡不一定是帕累托最优均衡
图示 婚姻的习俗 生存能力 ·找对象的主流模式影响个体的行为 质主义盛行的社会,任何人都难以 感情型 波逐流 ·门当户对 ·信息与感情型:即使物质型大于2/3,感 情型也可能生存下来 锁定与路径依赖 囚徒困境 ·演化均衡意味着技术、社会制度都可能 长时间锁定在非帕累托状态 但不同制度之间的竞争可能打破非帕累 合作 不合作 托均衡; ·如全球化对公司治理结构以及其他制度 合作 的影响。 不合作 6,-1 一次性博弈 博弈重复两次 ·“不合作演化稳定均衡; 一般地,如果存在占优战略( dominant strategy),该占优战略是ESS ALL-C TE ALL-D TFT8,88,8-1,6
图示 2 1 0 X=1 2/3 生存能力 感情型 物质型 婚姻的习俗 • 找对象的主流模式影响个体的行为;物 质主义盛行的社会,任何人都难以不随 波逐流; • 门当户对; • 信息与感情型:即使物质型大于2/3,感 情型也可能生存下来。 锁定与路径依赖 • 演化均衡意味着技术、社会制度都可能 长时间锁定在非帕累托状态; • 但不同制度之间的竞争可能打破非帕累 托均衡; • 如全球化对公司治理结构以及其他制度 的影响。 囚徒困境 合作 不合作 合作 不合作 4,4 -1,6 6,-1 0,0 一次性博弈 • “不合作”演化稳定均衡; • 一般地,如果存在占优战略(dominant strategy), 该占优战略是ESS; 博弈重复两次 ALL-C ALL-D ALL-C ALL-D 8,8 -2,12 12,-2 0,0 TFT TFT 8,8 8,8 8,8 -1,6 6,-1
谁将生存? 两类:ALL-D和TFT ·首先注意到,幼稚的合作型 TFT,与TF 特有到相局友支如 付,但如果遇到ALL-D,则比TFT更遭 TFT ALL-D 所以TFT比ALL-C更能生存; 如果初始人口由ALLC和ALL-D组成,TFT将 TE 8,8 可以成功的侵入 ·如果初始人口全是ALLC或由ALLC和TFT组 成,ALL-D将可以成功入侵 ALL-D 6. 所以ALL-C不是ESS 谁将生存? 均衡 ·假定初始人口中TFT的比例为x,ALL-D ·如果x>1/3,TFT生存;稳定均衡 的比例为(1-x) ·如果x<1/3,ALL-D生存;稳定均衡 ·TFT的预期支付:8x-(1x)=9x-1; ·如果ⅹ=1/3,二者同样生存,但不是稳定 ALL-D的预期支付:6x+0(1-x)=6x 均衡 图示 N次博弈 生存能力 TFT: 9x-I TFI ALL-D TE ALL-D
谁将生存? • 首先注意到,幼稚的合作型生存能力最差:如 果遇到ALL-C和TFT,与TFT得到相同的支 付,但如果遇到ALL-D,则比TFT更遭; • 所以TFT比ALL-C更能生存; • 如果初始人口由ALL-C和ALL-D组成,TFT将 可以成功的侵入; • 如果初始人口全是ALL-C或由ALL-C和TFT组 成,ALL-D将可以成功入侵; • 所以ALL-C不是ESS。 两类:ALL-D和TFT TFT ALL-D TFT ALL-D 8,8 -1,6 6,-1 0,0 谁将生存? • 假定初始人口中TFT的比例为x,ALL-D 的比例为(1-x); • TFT的预期支付:8x-(1-x)=9x-1; • ALL-D的预期支付:6x+0(1-x)=6x; • 9x-1>6x • x>1/3 均衡 • 如果x>1/3, TFT生存;稳定均衡; • 如果x<1/3, ALL-D生存;稳定均衡; • 如果x=1/3,二者同样生存,但不是稳定 均衡; 图示 8 8 0 x=1 1/3 生存能力 ALL-D:6x TFT:9x-1 -1 N次博弈 TFT ALL-D TFT ALL-D 4n,4n -1,6 6,-1 0,0