序惯博弈与重复博弈 第6章 序惯博弈(: :参与人在前一个决 策点的选择决定随后的子博弈的结构,因此 重复博弈与合作行为 后一个决策点开始的子博弈不同于从前 决策点开始的子博弈,或者说,同样结构的子 张维迎教授 博弈只出现一次 北京大学光华管理学院 重复博弈( repeated game):同样结构的博弈重 复多次,其中的每次博弈被称为“阶段博弈 重复博弈的三个特征 重复博弈和信誉问题 ·阶段博弈之间没有物质上的联系,也就 如果博弈不是一次的,而是重复进行的,参与 是说,前一阶段的博弈不改变后一阶段 过去行动的历史是可以观察到的,参与人就 的结构 以将自己的选择依赖于其他人之前的行动 所有参与人观察到博弈过去的历史; 因而有了更多的战略可以选择,均衡结果可能 与一次博弈大不相同 ·参与人的总支付(报酬)是所有阶段博 重复博弈理论的最大贡献是对人们之间的合作 弈支付的贴现值之和 行为提供了理性解释:在囚徒困境中,一次博 弈的唯一均衡是不合作(即坦白)。但如果博 弈无限重复,合作就可能出现 囚徒困境博弈 重复博弈与战略空间的扩展 假定上属博弈重复多次或无限次:那么,每个参与人 有多个可以选择的战略:仅举几例: 合作 不合作 AD:不论过去什么发生,总是选择不合作 AlC:不论过去什么发生,总是选择合作 ·合作不合作交替进行 tfor-tat:从合作开始,之后每次选择对方前一阶段的 0,0 trigger strateges:从合作开始,一直到有一方不合作, 然后永远选择不合作
第6章 重复博弈与合作行为 张维迎 教授 北京大学光华管理学院 序惯博弈与重复博弈 • 序惯博弈(sequential game):参与人在前一个决 策点的选择决定随后的子博弈的结构,因此, 从后一个决策点开始的子博弈不同于从前一个 决策点开始的子博弈,或者说,同样结构的子 博弈只出现一次; • 重复博弈(repeated game):同样结构的博弈重 复多次,其中的每次博弈被称为“阶段博弈” (stage game). 重复博弈的三个特征 • 阶段博弈之间没有物质上的联系,也就 是说,前一阶段的博弈不改变后一阶段 的结构; • 所有参与人观察到博弈过去的历史; • 参与人的总支付(报酬)是所有阶段博 弈支付的贴现值之和; 重复博弈和信誉问题 • 如果博弈不是一次的,而是重复进行的,参与 人过去行动的历史是可以观察到的,参与人就 可以将自己的选择依赖于其他人之前的行动, 因而有了更多的战略可以选择,均衡结果可能 与一次博弈大不相同。 • 重复博弈理论的最大贡献是对人们之间的合作 行为提供了理性解释;在囚徒困境中,一次博 弈的唯一均衡是不合作(即坦白)。但如果博 弈无限重复,合作就可能出现。 囚徒困境博弈 合作 不合作 合作不合作 3,3 -1,4 4,-1 0,0 A B 重复博弈与战略空间的扩展 • 假定上属博弈重复多次或无限次;那么,每个参与人 有多个可以选择的战略:仅举几例: • All-D: 不论过去什么发生,总是选择不合作; • All-C: 不论过去什么发生,总是选择合作; • 合作-不合作交替进行; • tit-for-tat: 从合作开始,之后每次选择对方前一阶段的 行动; • trigger strategies: 从合作开始,一直到有一方不合作, 然后永远选择不合作
囚徒困境”的一般表示 支付函数 ·双方都不合作: 合作 合作 ,TS,R 不合作 贴现率 博弈继续的概率 满足:R>D>P>S;(S+R)T+T 一般化:未来收益的重要程度 无名氏定理( Folk Theorem) Tit-for-tat ·在无限次重复博弈中,如果参与人对未 ·纳什均衡,但不是精炼纳什均衡: 来足够重视(δ足够大),那么,任何 程度的合作都可以通过一个特定的子博 (TFT,TFT=7++827+8T+…=T 弈精炼纳什均衡得到。 ·这里“合作程度”定义为整个博弈中合作 V(All-D, TFT)=T+8P+8P+8P+=T+P 出现的频率 ·50年代就人所共知,但无人有发明权; Why Not a perfect NE Axelrod (1984) 假定A在t5的时候,没有合作。根据TFT战 ·Tit-for-tat是成功率最高的战略 略,在t=6, 选择惩罚(不合作)。B会 这样吗? 如果B相信A采取的是TFT战略,那么:如果B 对A实施惩罚,预期的收入流为 R.S.R.S.R ·反之,如果B原谅A, TTTT.T
“囚徒困境”的一般表示 合作 不合作 合作 不合作 T,T S,R R,S P,P 满足:R>T>P>S; (S+R)<T+T 支付函数 • 双方都不合作: • 对 的解释: – 贴现率; – 博弈继续的概率; – 二者的结合; – 一般化:未来收益的重要程度 δ δ δ δ − = + + + + = 1 1 (all-d,all-d) ... 2 3 V P P P P P δ 无名氏定理(Folk Theorem) • 在无限次重复博弈中,如果参与人对未 来足够重视( 足够大),那么,任何 程度的合作都可以通过一个特定的子博 弈精炼纳什均衡得到。 • 这里“合作程度”定义为整个博弈中合作 出现的频率。 • 50年代就人所共知,但无人有发明权; δ Tit-for-tat • 纳什均衡,但不是精炼纳什均衡: δ δ δ δ − = + + + + = 1 1 (TFT,TFT) ... 2 3 V T T T T T δ δ δ δ δ − = + + + + = + 1 (All-D,TFT) ... 2 3 V T P P P T P Why Not A Perfect NE • 假定A在t=5的时候,没有合作。根据TFT战 略,在t=6,B应该选择惩罚(不合作)。B会 这样吗? • 如果B相信A采取的是TFT战略,那么:如果B 对A实施惩罚,预期的收入流为: • 反之,如果B原谅A, R, S, R, S, R,... T,T,T,T,T,... Axelrod (1984) • Tit-for-tat 是成功率最高的战略
Trigger strategies 合作的条件 ·如果未来足够重要,精炼纳什均衡: 如果下列条件满足,合作就是均衡结 (合作,tgen)=r++6+8+=T1 I-SER+p 8 不合作,mge)=R+aP+8P+8P+=R+P, R-T 解释 行为的信息传递 RT可以理解为不合作的诱惑 假如欺骗两次才被发现: RP是合作的剩余(利益); 条件说明: 给定未来的重要程度,不合作的一次性诱惑 =R+R+2P+BP+6P+=R1+6)+P (RT)相对于合作带来的利益(RP)越 小,合作的可能性越大 R-tR-T 给定不合作的诱惑和合作带来的利益,未来 越重要,合作的可能性越大 VR-PR-P 含义 惩罚与合作 ·欺骗行为越难以被发现,欺骗发生的可 abreu(1986):最大合作战略是使用最严厉的可 能性越大;或者说,合作越困难 信惩罚( the strongest credible punishment) ·在前面的例子,R=4,T=3,P=0.如果欺骗 ·维护合作并不需要无限期的惩罚:只要惩罚期 一次就被发现,只要≥4-3=025合作就 够长就可以了 会出现;而如果欺骗两次孑被发现,只 萝卜加大棒( stick and carrot):从合作开始 有当≥0.5时,合作才可能出现 作者选择“不合作”来实施惩罚,前期不合作者选择合 般地,欺骗行为越不容易被 作;如果该合作的没有合作或者该惩罚的没有惩罚 在t2期继续按照上述t+1期的战略规定博弈:否则,合 作越困难 作恢复
Trigger strategies • 如果未来足够重要,精炼纳什均衡: δ δ δ δ − = + + + + = 1 1 ( trigger) ... 2 3 V 合作, T T T T T δ δ δ δ δ − = + + + + = + 1 ( trigger) ... 2 3 V 不合作, R P P P R P 合作的条件 • 如果下列条件满足,合作就是均衡结 果: δ δ δ − ≥ + 1− 1 1 T R P R P R T − − δ ≥ 解释 • R-T可以理解为不合作的诱惑; • R-P是合作的剩余(利益); • 条件说明: – 给定未来的重要程度,不合作的一次性诱惑 (R-T)相对于合作带来的利益(R-P)越 小,合作的可能性越大; – 给定不合作的诱惑和合作带来的利益,未来 越重要,合作的可能性越大; 行为的信息传递 • 假如欺骗两次才被发现: δ δ δ δ δ δ δ − = + + + + + = + + 1 ... (1 ) ( trigger) 2 2 3 4 R R P P P R P V 不合作, R P R T R P R T − − > − − δ ≥ 含义 • 欺骗行为越难以被发现,欺骗发生的可 能性越大;或者说,合作越困难; • 在前面的例子,R=4, T=3, P=0. 如果欺骗 一次就被发现,只要 合作就 会出现;而如果欺骗两次才被发现,只 有当 时,合作才可能出现; • 一般地,欺骗行为越不容易被发现,合 作越困难。 0.25 4 0 4 3 = − − δ ≥ δ ≥0.5 惩罚与合作 • Abreu(1986):最大合作战略是使用最严厉的可 信惩罚(the strongest credible punishment); • 维护合作并不需要无限期的惩罚;只要惩罚期 足够长就可以了; • 萝卜加大棒(stick and carrot): 从合作开始,一直合作 直到:如果有任何一方在t期不合作,在t+1期,前期合 作者选择“不合作”来实施惩罚,前期不合作者选择合 作;如果该合作的没有合作或者该惩罚的没有惩罚, 在t+2期继续按照上述t+1期的战略规定博弈;否则,合 作恢复
解释 不可信的惩罚:垄断厂家 ·在合作子博弈,合作的条件是 R-T T+OT≥R+8S→6≥ 在非惩罚子博弈,合作的条件:S S+DT≥P+8S→6≥ 不确定性下的最优处罚 多重交易关系与合作行为 ·在确定的情况下,惩罚越严厉,越有助 交易关系I 交易关系l 于合作。因为均衡情况下,欺骗从来不 会发生,所以惩罚实际上是没有成本 合作不合作 合作不合作 的 3,3-1,4 在|5s5|0.9 ·但在不确定的情况下,即使每个人都选 择合作,“坏结果”也会出现。如果坏结 合4,-10,0 9,04,4 果总是触发惩罚,就会冤枉好人,过重 的惩罚反到导致不合作;但如果总是原 谅,合作也不会发生。 合作条件 社会关系与合作行为 在交易关系中,合作要求d≥0.25 ·更一般地讲,市场交易常常镶嵌在复杂 在交易关系Ⅱ中,合作要求≥08 的社会关系中。这种关系可以提高交易 ·如果两种交易在同样的两个人之间进行,只 的合作程度。这也是人们愿意发展社会 要δ≥0.25,两种交易中都会合作 关系的原因。 ·设想实际的δ=0.6,那么如果两种交易发生 在不同的人之间,合作只出现在市场1,不会出 现于市场Ⅱ。但如果两人之间同时存在两种交 易,合作存在于两个市场
解释 • 在合作子博弈,合作的条件是: • 在非惩罚子博弈,合作的条件是: T S R T T T R S − − +δ ≥ +δ ⇒ δ ≥ T S P S S T P S − − +δ ≥ +δ ⇒ δ ≥ 不可信的惩罚:垄断厂家 客户 商家 不购买 购买 诚实 欺骗 (5,5) (1,7) (0,0) 不确定性下的最优处罚 • 在确定的情况下,惩罚越严厉,越有助 于合作。因为均衡情况下,欺骗从来不 会发生,所以惩罚实际上是没有成本 的。 • 但在不确定的情况下,即使每个人都选 择合作,“坏结果”也会出现。如果坏结 果总是触发惩罚,就会冤枉好人,过重 的惩罚反到导致不合作;但如果总是原 谅,合作也不会发生。 多重交易关系与合作行为 合作 不合作 合作不合作 3,3 -1,4 4,-1 0,0 合作 不合作 合作不合作 5,5 0,9 9,0 4,4 交易关系I 交易关系II 合作条件 • 在交易关系I中,合作要求 • 在交易关系II中,合作要求 • 如果两种交易在同样的两个人之间进行,只 要 ,两 种交易中都会合作; • 设想实际的 ,那么如果两种交易发生 在不同的人之间,合作只出现在市场I,不会出 现于市场II。但如果两人之间同时存在两种交 易,合作存在于两个市场。 δ ≥ 0.8 δ = 0.6 δ ≥ 0.25 δ ≥ 0.25 社会关系与合作行为 • 更一般地讲,市场交易常常镶嵌在复杂 的社会关系中。这种关系可以提高交易 的合作程度。这也是人们愿意发展社会 关系的原因
举例 应用 ·在交易关系∏中,假定除了这一交易外 ·家庭血缘关系 当事人双方之间还存在另外的社会关 ·朋友关系 系,这一社会关系对每一方的现值是V 如果交易中出现欺骗,这一价值就不存 ·同学关系 在。合作条件为 老乡关系(保姆市场) 4- 家族企业的困境;“杀熟” ·如果惩罚对惩罚者本身的损害太大,惩罚就是 不可信的。这与投鼠忌器是一个道理,你讨厌 老鼠,但是你没有办法,因为你心疼那个盘 那个器皿。投鼠忌器在我们企业内部很多 环节都会发生,导致惩罚不可信,所以对方就 不会太注重信誉。家族成员有时候比非家族成 员更不可信任,更不守规矩,就是这个道理。 朋友专门骗朋友,是“杀熟”。问题也与惩罚的 不可信有关 第三方实施的惩罚 长期参与人与不固定的短期参与人 ·前面假定了固定的一对参与人进行重复博弈 对不合作的惩罚是由“受害人”本人实施的,称 ·最简单的例子是厂家与消费者之间的博 弈:每个消费者一般只购买一次,而厂 为“ second- party enforcement”,或者" personal 家重复出售产品给众多的消费者。 但更经常的情况是参与人不固定的情况。此 ·此时,只要消费者足够多,并且每个消 时,惩罚要由第三方实施( third-paty 费者能观察到前一个消费者购买的产品 的质量,合作仍然可以出现。 问题是第三方惩罚欺骗别人的同时,自己可能 失去合作带来的好处。“ second- order prisoners dilemma
举例 • 在交易关系II中,假定除了这一交易外, 当事人双方之间还存在另外的社会关 系,这一社会关系对每一方的现值是V。 如果交易中出现欺骗,这一价值就不存 在。合作条件为: V V − − ≥ 5 4 δ 应用 • 家庭血缘关系; • 朋友关系; • 同学关系; • 老乡关系(保姆市场); 经济诱惑 非合作区域 100 合作区域 0.5 感情系数 家族企业的困境;“杀熟” • 如果惩罚对惩罚者本身的损害太大,惩罚就是 不可信的。这与投鼠忌器是一个道理,你讨厌 老鼠,但是你没有办法,因为你心疼那个盘 子,那个器皿。投鼠忌器在我们企业内部很多 环节都会发生,导致惩罚不可信,所以对方就 不会太注重信誉。家族成员有时候比非家族成 员更不可信任,更不守规矩,就是这个道理。 • 朋友专门骗朋友,是“杀熟”。问题也与惩罚的 不可信有关。 第三方实施的惩罚 • 前面假定了固定的一对参与人进行重复博弈, 对不合作的惩罚是由“受害人”本人实施的,称 为“second-party enforcement”,或者“personal enforcement”; • 但更经常的情况是参与人不固定的情况。此 时,惩罚要由第三方实施(third-party enforcement); • 问题是第三方惩罚欺骗别人的同时,自己可能 失去合作带来的好处。“second-order prisoner’s dilemma”. 长期参与人与不固定的短期参与人 • 最简单的例子是厂家与消费者之间的博 弈:每个消费者一般只购买一次,而厂 家重复出售产品给众多的消费者。 • 此时,只要消费者足够多,并且每个消 费者能观察到前一个消费者购买的产品 的质量,合作仍然可以出现