混合策略均衡 混合策略均衡 每一个参与者的策略是一个概率分布 目标是最大化预期收益
混合策略均衡 混合策略均衡 每 个参与者的策略是 个概率分布 每 一个参与者的策略是 一个概率分布 目标是最大化预期收益 16
混合策略均衡:两个参与者与两个 纯策略 参与者2 1(q) 2(1-q) 参与者1()“1(s2),a2ms2) u,(Sus sn2(1-r)a1(s12,S2),u2(S12S21)a1(S12S2),2(S12,S2) 混合策略纳什均衡: 组混合策略 (P,1-p),(q*,1-q2) 是一个纳什均衡,如果(rx,1-r)是应对(q,1-q)的最 优反应,(qx,1-q*)是应对(r3,1-r)的最优反应。 也就是, v(,1-r2),(q,1-q2)≥v1(r,1-r),(q3,1-q2),ora0≤r≤1 v2(r,1-P),(q,1-q)≥v2(P,1-P),(q,1-q), for al0≤q≤1
混合策略均衡 :两个参与者与两个 纯策略 参与者 2 s21 ( q ) s22 ( 1- q ) 21 ( q ) 22 ( q ) 参与者 1 s11 ( r ) u 1 ( s11, s21 ), u 2 ( s11, s21 ) u 1 ( s11, s22 ), u 2 ( s11, s22 ) s12 (1- r ) u 1 ( s12, s21 ), u 2 ( s12, s21 ) u 1 ( s12, s22 ), u 2 ( s12, s22 ) 混合策略纳什均衡: 一组混合策略 ( (r*, 1-r* ), (q*, 1-q* ) ) 是一个纳什均衡 是一个纳什均衡 ,如果 (r* 1, 1 -r* ) 是应对 (q* 1, 1 - q*)的最 优反应, (q*, 1-q*) 是应对 (r*,1-r* )的最优反应。 也就是, v 1((r*, 1-r*), (q*, 1-q* )) v 1((r, 1- r), (q*, 1-q* )), for all 0 r 1 v 2 ( (r*, 1- r * ), ( q*, 1-q*)) v 2 ( (r*, 1- r * ), ( q, 1- q)), for all 0 q 1 17 2 ( ( ) ( q q )) 2 ( ( ) ( q q)) q
寻找混合策略均衡:两个参与者与 两个纯策略 ■给定参与者2的混合策略,找到参与者1的最优 反应。 ■给定参与者1的混合策略,找到参与者2的最优 反应。 ■利用最优反应决定混合策略纳什均衡
寻找混合策略均衡 :两个参与者与 两个纯策略 给定参与者 2的混合策略,找到参与者 1的最优 反应 。 给定参与者 1的混合策略,找到参与者 2的最优 反应。 利用最优反应决定混合策略纳什均衡 。 18
监管员工 员工可以努力工作或者偷懒 工资:$100K如果没有被抓到偷懒 努力的成本:$50K ■经理可以选择监管或不监管 员工产出的价值:$200K 如果员工不工作的利润:$0 监管的成本:$10K
监管员工 员工可以努力工作或者偷懒 工资: $100K : $100K 如果没有被抓到偷懒 如果没有被抓到偷懒 努力的成本: $50K 经理可以选择监管或不监管 员工产出的价值: $200K 如果员工不工作的利润: $0 监管的成本: $10K 19
监管员工 经理 期望收益 监管(q)不监管(1-q) 员工 工作(r)[50,9050,100 偷懒(1r)0 10100,-1001001 期望收益 100r-10 200r-100 员工的最优反应B1(q) 偷懒(x=0)如果∝<0.5 工作(x=1)如果q>0.5 任何的混合策略(0≤x≤1)如果q=0.5
监管员工 经理 监管 ( q ) 不监管(1-q) 期望收益 员工 工作 ( r ) 50 , 90 50 , 100 偷懒 (1-r ) 0 , -10 100 , -100 50 偷懒 (1 r ) 0 , 0 00 , 00 100(1-q) 期望收益 100r-10 200r-100 员工的最优反应 员工的最优反应B1(q): 偷懒 (r=0) 如果 q<0.5 工作 (r=1) 如果 q>0 5. 任何的混合策略(0r1) 如果 q=0.5 20