春暖花开

网易公开课《博弈论简介》总结

囚徒困境与严格优势策略

囚徒困境定义:
两个嫌疑人甲乙被捕,如果均否认,两人都关押一个月,如果均承认,两人都关押六个月,如果一个承认,一个否认,那么否认的人关押十二个月,承认的人释放。

策略矩阵分析 x = 甲, y = 乙

1
2
3
deny confess
deny (-1, -1) (-12, 0)
confess (0, -12) (-6, -6)

对于甲来说,如果乙承认,那么承认的 payoff 是 -1, 否则 payoff 是 -12,承认更好;如果乙否认,那么承认的 payoff 是 0, 而否认的 payoff 是 -12。对于甲来说,无论乙选择何种策略,选择承认都能得到最高的 payoff ,所以在这儿,对甲来说,承认就是一个严格优势策略(strictly dominate strategy)。交换甲乙的位置,也是同样的。即:

如果对于对手的任何策略,该策略都能得到最高的 payoff,那么就是严格优势策略。

因此,此时,两人都会选择自己的严格优势策略:承认。尽管这样并不能得到最好的 payoff。

严格劣势策略

在一次博弈中,如果无法找出严格优势策略,那么我们可以先排除严格劣势策略:

如果存在两个策略,无论对手选择何种策略,策略一都能得到比策略二更高的 payoff,那么策略二就是严格劣势策略。注意,总的策略数不止两个.

当排除了严格劣势策略之后,可能就能够选出严格优势策略。

纳什均衡NE

某些情况下,既找不到严格优势策略,也找不到严格劣势策略,这时候,就需要找到一个稳定的结果,使得双方都能得到最好的利益,这就是纳什均衡。

协调均衡

两个人一起去捕猎,可以选择捕鹿或者兔,捕鹿需要合作,捕兔不需要

1
2
3
捕鹿 捕兔
捕鹿 (12,12) (0, 2)
捕兔 (2, 0) (2, 2)

在这儿,对于两个人来说,均没有严格优势策略和严格劣势策略,如果一个人选择捕鹿,那么另一个人也应该选择捕鹿才能得到最高的 payoff, 如果一个人选择捕兔,那么另一个也应该选择捕兔,才能得到最高的 payoff. 因此,在这一个博弈中,双方应该做同样的决策。因此,我们说在这个博弈中有两个纳什均衡:(12, 12), (2, 2).

纳什均衡指的是博弈中的一对策略,选择这对策略后,没有博弈者会想改变自己的策略,因为在给定决策中,这个博弈者已经选择了最佳策略。

反协调均衡

玩家选择不同策略才能获益最高:

1
2
(-2, -2) (2, 0)
(0, 2) (1, 1)

混合均衡策略

上面说到的均为纯策略,混合策略就是说假设有两个策略,那么以概率 p 选择一个策略,1-p 选择另一个策略,存在概率 p, 使得博弈的另一方随机选择策略 payoff 最高

1
2
3
p 1-p
(1, -1) (-1, 1)
(-1, 1) (1, -1)

p - (1- p) = -p + 1- p => p = 1/2

在每个有限博弈中(有限人数和有限策略),至少存在一个纳什均衡。

序贯模型

博弈者需要在不同时间,不同阶段做出决策。

公司 A 和 B,A 想要进入市场,如果 A 进入市场, B accept, 那么A的payoff = 2, B的payoff = 1, 如果 B fight, 那么 A 的payoff = -3, B 的payoff = -1,而如果 A 不进入市场,那么 A 的 payoff = 0, B的 payoff = 2

子博弈完美纳什均衡(subgame perfect Nash equilibrium)SPNE : A strategy profile is a SPNE if it is a NE of every subgame of the original game

1
2
3
4
5
6
7
A -- Out -- (0, 2)
|
In -- B fight -- (-3, -1)
|
B accept
|
(2, 1)

即使 B 威胁如果 A 进入就 fight, 但实际上是一个幌子,因为如果 A 进入了,那么 accept 比 fight 会得到更高的 payoff,因此 B 会选择 accept 而不是 fight,有了这一结论之后,对 A 的分析就可以简化,如果进入 payoff = 2, 不进入, payoff = 0,自然,进入是更好的策略。

因此,在整个博弈中,A In, B accept 是唯一的 SPNE. 该理论是关于威胁和承诺的,通过 SPNE, 能够排除 B 在第二阶段中的 fight 并不是真正的威胁,除非 B 通过一些方法,排除了 accept 这一种策略,只剩下 fight 这一策略,那么就真正对 A 构成了威胁。

未完~

0%