人工智能导论笔记Chapter8

供南开大学计算机学院和网络空间安全学院期末复习使用

免责声明:本人水平有限,笔记难免有错误,请理性使用,切莫完全相信本笔记的所有内容。

分值分配:课上随堂测试考核(10%)、研讨内容(10%)、实验内容考核(40%)和期末考试(40%)

期末考试:30道选择题(每小题2分)4道简答题(每小题5分)2道解答题(每小题10分)

第八章 博弈

知识点

博弈相关概念

玩家 () :参与博弈的决策主体 策略 () :玩家可以采取的行动方案,是一整套在采取行动之前就已经准备好的完整方案。

  • 某个玩家可采纳策略的全体组合形成了策略集 ()
  • 所有玩家各自采取行动后形成的状态被称为局势 ()
  • 混合策略 (): 玩家可通过一定概率来选择若干个不同的策略
  • 纯策略 (): 玩家每次行动都选择某个确定的策略

收益 () :各个玩家在不同局势下得到的利益

  • 混合策略意义下的收益应为期望收益 ()

规则 () :对玩家行动的先后顺序、玩家获得信息多少等内容的规定

囚徒困境:警方逮捕了共同犯罪的甲和乙,但没有掌握充分证据,将他们分开审讯,并告诉他们如下事实:

  • 若一人认罪并指证对方,而另一方保持沉默,则此人会被当即释放,沉默者会被判监禁
  • 若两人都沉默,则根据已有的犯罪证据两人各判半年
  • 若两人都认罪并相互指证,则两人各判

在囚徒困境中,最有可能的判决就是两个人都指认对方,都获得五年的监禁

(甲,乙)收益 乙沉默 (合作) 乙认罪 (背叛)
甲沉默 (合作)
甲认罪 (背叛)

最优解为两人同时沉默;但是两人实际倾向于选择同时认罪 (均衡解)

博弈的分类:

  • 合作博弈与非合作博弈
  • 静态博弈和动态博弈
  • 完全信息博弈与不完全信息博弈

博弈的稳定局势即为纳什均衡 ()

任何玩家单独改变策略都不会得到好处,也就是说当所有其他人都不改变策略时,没有人会改变自己的策略

定理:若玩家有限,每位玩家的策略集有限,收益函数为实值函数,则博弈必存在混合策略意义下的纳什均衡

纳什均衡的本质就是不后悔

遗憾最小化算法

若干定义

  • 玩家所采用的策略为,一个策略组包含所有玩家的策略,
    • 玩家的策略空间用表示
    • 表示中除了之外的策略
  • 玩家在给定策略下的期望收益为:

策略选择

根据过去博弈中的遗憾程度来决定动作选择的方法

玩家在过去T轮中采取策略的累加遗憾值为 在第轮次玩家选择策略的概率如下(悔值越大越选择)

遗憾最小化例子:见:石头剪刀布