道家与破蛋功:牌局中的无为与逍遥
2026年2月22日
德州扑克转牌如何进行check-raise
2026年2月22日Root 林鳞 编译自 DeepMind官方博客

跟随着人工智能系统于现实世界里担当着越发要紧的角色,弄明白各种各样的系统怎样去相互进行作用便极其关键。
适才,DeepMind发布了一篇题为Symmetric Decomposition of Asymmetric Games的论文。于这篇论文里,DeepMind的研究职员运用了博弈论的分支去尝试解决这个问题。
研究人员着重进行观察,在德州扑克这种游戏里,两个智能体会有怎样的行为,在棋盘游戏苏格兰特警这类游戏中,两个智能体会呈现怎样的表现。
智能体能在复杂的、非对称的博弈当中,通过使用这种新方法,做到简单且快速地寻找到纳什均衡。
博弈与纳什均衡
博弈论属于数学的一个分支,用于分析竞争环境下决策者的策略。
这般理论适用之人,动物,还有多于一个AI之际的多AI情形。像家中多个机器人一块儿清扫房间。
模拟真实世界场景的非对称信息博弈,如同拍卖时买家与卖家抱有不同心态及动机那般,我们所获取的结果给予了我们具有独特性的见解,以及运用非常简洁的方式去分析它。
不是对称形式的那种博弈所具备的特点是,每一方参与游戏的人有着不一样的决策方式、所追求的目标以及能获得的回报,举例而言,在博弈论相关的研究当中极为常见的协调类型的博弈,像性别之战这种情况。
通常来讲,多AI系统的进化动态流程是利用简单的对称博弈予以剖析,举例而言,像经典的囚徒困境那样,两方玩家都具备采取相同行动的可能性。即便这些博弈能够为多AI系统给予有效的深刻见解,告知我们怎样操控所有玩家方可获取最优成效(此即纳什均衡),然而它们却无法将所有情形都模拟呈现出来。
由DeepMind提出的最近的那种方法,能够以简易且迅速的方式,在具备复杂性特征的非对称情形的博弈当中,找寻到纳什均衡。
如今,这套理论的重点在于怎样应用于多个AI系统的互动方面,不过,研究人员坚信,这个结论能够被运用到经济领域,能够被运用到进化生物学领域,能够被运用到经验博弈论领域。
歌剧还是电影?
举个例子吧。
需要两名玩家来决定晚上到底是去观看歌剧呢,还是去看电影,然而不巧的是,两名玩家之中有一名玩家更偏好歌剧,而另一名更喜欢电影。这是一场不对称的游戏,虽说两名玩家能够任意进行选择,可是依据玩家各自的喜好,每个玩家所获得的奖励是不一样的。
然而,为了维系着他们之间的友谊,或者说对于我们所称作的一种平衡而言,两方都务必去选取那相同的活动,所以单独行动所具备的回报是为零的。

此游戏存在三种平衡情形,第一,这种状况是双方都选取去观看歌剧这一行为模式,第二,该情形为双方均去到电影院观看电影这样一种行为模式,第三,存在着一种混合的选择情况,在此种选择里,每一位玩家会于五分之三的时间段以内,选用他们自己所偏好喜欢的选项,此为混合选项。
这个“具备不稳定性的”的最终一个选项,乃是采用了把非对称游戏予以简化或者分解成为其对称对等形式的方式。
我们能够把这种游戏的本质予以想象,每个玩家的奖励分数表是一个独立对称的双玩家游戏,此游戏的平衡点跟原始的不对称游戏相契合。
于下面的这张图里头,纳什均衡是借由两个对等的点给获取到的,这能够协助我们迅速地去确定不对称博弈之中的最优策略(a)。反过来讲,借助不对称博弈来确定对称对等点的均衡。

代表纳什均衡的是红点,对于不对称的游戏(a)来讲,纳什均衡能够很轻易地在(b)以及(c)这两张对称图当中获取到,而在上述提及的图里,x、y轴分别是玩家1、2去选择歌剧的概率。
存在这样一个好消息,那就是,用于这类的方法德信竞技,同样是适用于别的游戏的,就像Leduc扑克这些,类似它们的一些别的游戏。而这些方法,运用了一个挺简单的数学原理,借助于此,能够快速且直接地去分析不对称的游戏。并且,我们期望它,也能够对我们理解各种各样的动态系统有所帮助,这里包括多重代理的那种情况下的环境。




