供南开大学计算机学院和网络空间安全学院期末复习使用

免责声明：本人水平有限，笔记难免有错误，请理性使用，切莫完全相信本笔记的所有内容。

分值分配：课上随堂测试考核(10%)、研讨内容(10%)、实验内容考核(40%)和期末考试(40%)

期末考试：30道选择题（每小题2分）4道简答题（每小题5分）2道解答题（每小题10分）

第八章博弈

知识点

博弈相关概念

玩家 () ：参与博弈的决策主体 策略 () ：玩家可以采取的行动方案，是一整套在采取行动之前就已经准备好的完整方案。

某个玩家可采纳策略的全体组合形成了策略集 ()
所有玩家各自采取行动后形成的状态被称为局势 ()
混合策略 (): 玩家可通过一定概率来选择若干个不同的策略
纯策略 (): 玩家每次行动都选择某个确定的策略

收益 () ：各个玩家在不同局势下得到的利益

混合策略意义下的收益应为期望收益 ()

规则 () ：对玩家行动的先后顺序、玩家获得信息多少等内容的规定

囚徒困境：警方逮捕了共同犯罪的甲和乙，但没有掌握充分证据，将他们分开审讯，并告诉他们如下事实：

若一人认罪并指证对方，而另一方保持沉默，则此人会被当即释放，沉默者会被判监禁年
若两人都沉默，则根据已有的犯罪证据两人各判半年
若两人都认罪并相互指证，则两人各判年

在囚徒困境中，最有可能的判决就是两个人都指认对方，都获得五年的监禁

(甲,乙)收益	乙沉默 (合作)	乙认罪 (背叛)
甲沉默 (合作)
甲认罪 (背叛)

最优解为两人同时沉默；但是两人实际倾向于选择同时认罪 (均衡解)

博弈的分类：

合作博弈与非合作博弈
静态博弈和动态博弈
完全信息博弈与不完全信息博弈

博弈的稳定局势即为纳什均衡 ()

任何玩家单独改变策略都不会得到好处，也就是说当所有其他人都不改变策略时，没有人会改变自己的策略

定理：若玩家有限，每位玩家的策略集有限，收益函数为实值函数，则博弈必存在混合策略意义下的纳什均衡

纳什均衡的本质就是不后悔

遗憾最小化算法

若干定义

玩家所采用的策略为，一个策略组包含所有玩家的策略，
- 玩家的策略空间用表示
- 表示中除了之外的策略
玩家在给定策略下的期望收益为：

策略选择

根据过去博弈中的遗憾程度来决定动作选择的方法

玩家在过去T轮中采取策略的累加遗憾值为在第轮次玩家选择策略的概率如下（悔值越大越选择）

遗憾最小化例子：见：石头剪刀布

第八章 博弈

知识点

博弈相关概念

遗憾最小化算法

若干定义

策略选择

第八章博弈