AI战胜扑克玩家，20年机器人进步助力背后故事

打德州扑克赚钱技巧：因对手而异的策略及心思洞察法

2026年2月21日

部分手游APP涉赌相关专家：需加大处罚力度，开展针对性打击

2026年2月21日

Published by dxjj on 2026年2月21日

Tags

世界上四名堪称最佳的职业扑克玩家，在一月份诸多时间里，都隐匿于地处匹兹堡的大河赌场，去感受失败的滋味。他们在上午11点之前会准时现身，身着时髦的运动裤以及有型的球鞋，坐在电脑屏幕跟前。每个人在夜里返回宾馆房间之前，差不多要去玩1500手在线无限级德州扑克的1对1单挑.这一般就表示每天工作会超过晚上10点。在这漫长的一天之中，星巴克杯和水樽杂乱地堆放在玩家键盘旁边，Chipotle墨西哥卷饼快餐包装袋散落在他们脚边。

每一当，有一个人类玩家，打出了一手牌，这个动作，便将会被传送，到距离5英里之外的，卡内基梅隆大学，也就是Carnegie Mellon University的，计算机服务器那里。从这个地方，又会有一个指令，再传递，另外12英里，才能够到达玩家的对手那儿。而这儿，正是运行于，位于近郊Monroeville的，匹兹堡超级计算中心的，软件名为Libratus的地方。Libratus，立刻打了8手牌，其中，针对每个对手打响两手牌。它驱使着它人类对手之一的Jason Les，以一种颇具刻意性的、足以令人发狂疯癫的缓慢速率。“这使得日子变得更为漫长，”Les讲道，这位不乏热忱之情的、具备运动风范的男子，仿佛迫切渴盼着能够在上个星期的此刻休息上几分钟。“漫长的等候理应是不该对我造成影响才对，然而有时你就好似会感到，‘好吧，这难道难道快要末尾了吗？’”。

即便 Libratus 是不需要休息的，它于人类玩家而言，在其他方面存在差异。当赌注更高时，思考用时会更长的是人类。最慢于小彩池出牌的是机玩家电脑，如此是因必须依照额外留有更多的筹码去遍历所有附加可能性才引发的。Libratus 也会倾向作出巨大且突然的赌注，将不合标准投注惯例的赌资以不规则金额和奇特间隔押入彩池。

从人类玩家的视角去瞧，类似这般的举止是让人愤懑且莽撞的，从长远的时段来考量还不算“划算”哩。然而 Libratus 身为扑克电脑玩家的关键特性却正是“极其奢侈”。当这场于大河赌场举办的20日竞赛在周一宣告结束之际，人类已然亏损了180万美元。（事实上并不用真的去支付现金，钱乃是当作在扑克里计算分数的形式）Tuomas Sandholm和Noam Brown，这两位作为卡内基·梅隆大学计算机科学家的人，创造了人工智能Libratus，共同欢庆电脑首次于堪称世界上最为卓越的扑克游戏的无限德州扑克里，打败了顶级的人类玩家。

人工智能领域的专家，始终将游戏当作一种用于开发以及测试他们那些“创造物”的途径。计算机在国际象棋、国际跳棋、西洋双陆棋以及围棋这些游戏里，战胜了其中最为出色的人类选手。因存在机会这一因素，并且玩家并不清楚对手持有何种牌，所以扑克游戏构成了一种别样的挑战。此种被称作非完善信息的博弈，需要具备某种人类特有的狡黠，诸如迷惑对手，同时能够觉察到对方正迷惑自己，然而这恰恰是电脑所匮乏的。

Adam Kucharski说，他是《完美赌注：科学和数学是如何从赌博中排除幸运》的作者，你在比赛中所看到的扑克游戏是无限德州扑克，其声誉更多的生发于艺术而非科学，有一种想法是这个游戏会因那些机器而更久远地保持安全。

近几个星期，这种思想有了突破性进展，在一月初，阿尔伯塔大学的研究人员发表了一篇文章，文章内容是他们自主开发的名为DeepStack的AI，击败了11个职业扑克玩家。

DeepStack能不能击败Libratus是个有争议的问题，Sandholm称，和他机器人对阵的职业玩家，比被DeepStack击败的玩家更厉害，阿尔伯塔大学计算机程序负责人Michael Bowling承认这点，可他也质疑，这些人类玩家连续奋战近一个月时，是否还处于最佳状态。DeepStack的获胜优势，还是Libratus的三倍。

存在两个人均觉得扑克人工智能方才跨越了一个关键的门槛、，就他们来讲，这于扑克自身关联颇为有限、。德州扑克仅是他们寻觅人工智能项目合作伙伴的一种途径、，人工智能靠游玩游戏所获取的收获会传递回诸如网络安全这般的应用领域、。“这是社区达成的主要基准数据、，但这些算法并非单纯为玩扑克而研发的呀、，”Sandholm讲道、，他往昔是世界顶级的风帆运动员中的一员、，其外表模样有点像比尔盖茨、；“玩扑克只是一种具有通用性的用途罢了、。”。

领导卡内基梅隆大学扑克研究项目是Tuomas Sandholm承担的工作。

是DeepStack和Libratus所玩的，是一特殊版本的扑克游戏，计算机匹配与每个对手单挑，而非对抗一组玩家，每个玩家持有的筹码数量，在每手牌之后会重置，进而消除了那种，拥有大量筹码的玩家，通过胁迫低端玩家进行高额投注，而产生复杂的心理游戏，全球领先的在线扑克游戏平台PokerStars的发言人Eric Hollreiser称，这限制了AI给扑克产业所带来的威胁。“它是在一个手动功能性的基础之上，去进行扑克游戏的模仿，然而这样的模仿，和现实当中牌桌上实际发生的种种情况，存在着非常大的差距，”他讲道。

除了这些此类实验，还有其他不少类似的实验，是在那种管控力度没这样强的环境之中被开展的。打从科学家起初在实验室把这些扑克机器人构建起来之后，它们一直以来都在持续进行着在线参与赌钱项目的游戏场次玩法。它们在过往一直以来仅是玩那些赌注金额相对不高的游戏，并且从始至终，都从来没有被判定认定是此种类型游戏里的行家老手。然而呢，从事涉及赌博行业的专门分析师、以及负责发布在线扑克行业相关报告的Chris Grove宣称表示，这些扑克机器人正逐步朝着赌注金额更高的比赛竞争当中不断蔓延扩散开来。“如若你恰好是一位从事在线扑克运营方面工作的人员，那么这种状态很有可能就是你心上关乎欺诈方面最为顾虑担忧的头号事项，而且还极有可能会对相比较而言颇为可观的利润空间造成相关方面的影响作用，”他这般说道。

扑克产业跟学术扑克界已然悄悄合作好些年了，每一个参与其中的人对于细节都绝口不提。然而商业扑克机器人制造者以及试图打击他们的那些人都紧紧留意着学术工作的推进情况。 Bowling先前的几个弟子已然前往在线扑克公司工作了，而且至少有一个在售卖用于在线博彩的机器人。

能替代你玩游戏的程序，于扑克行话里被称作“梦境机器”。在线论坛参与者交流，有关何时可疑活动或许表明你在与机器人对战，以及关于他们怎样制作自身扑克机器人的“战争故事”。

加拿大博彩公司 Amaya 旗下的扑克之星游戏平台 PokerStars德信竞技，专门雇了 70 人打击这种欺诈行为，这些反欺诈员工直接联系可疑玩家，要求他们描述在某手牌上采取的策略，还会发电子邮件，要求制作 360 度视频显示周围环境，随后玩超过一小时游戏，且整个过程手和键盘要完全可见。

机器人无需具备丰富的扑克游戏技巧，便能从游戏运营商处获取盈利，这对整个行业而言是危险的。一个程序凭借榨取普通玩家来获取一定利润，或许会使人铤而走险。然而，位于英国的在线游戏公司Gamesys的扑克策略主管Darse Billings称，实际上，“梦境机器”与学术界所研究的AI运用的是不一样的技术，且试图解决从根本上全然不同的挑战。打败低端玩家的程序，不是一个简单简化版的打败精英玩家的程序，这是两个全然独立的问题。

Billings比对其他任何人而言，更深入地知悉这两种扑克领域，在20世纪90年代，他取得了计算机科学硕士学位，随后成为一名职业扑克玩家为偿还学生贷款，几年过后，他返回学校与阿尔伯塔大学的计算机科学家Jonathan Schaeffer展开合作，此人最为出名的是编写了能够完美下棋的国际跳棋软件，Billings说服 Schaeffer接下来专注于扑克。

为了将国际跳棋的问题解开，Schaeffer采用了一种方法，这种方法基本上是尝试在任何情形下都去计算最佳移动，并且不去考虑那一步所发生的状况。然而，把每一步当作一个孤立问题，在扑克这类游戏里是毫无意义的，因为这里面涉及到运气，并且并非每个人都能够获取到完整的信息。阿尔伯塔大学的研究人员着手去制定一个整体战略，这个战略要采用在博弈理论里被称作纳什均衡（Nash equilibrium）的策略，纳什均衡是一种用于双人博弈的方法，从长远角度看，无论对手做出哪种反应都不会产生损失。

那什均衡算得上不是一种理想的游戏风格，于扑克游戏内执行均衡战略所要关注的重点在于，打出最强且存在最大发展潜力的一手牌之际，还要使得自身表现得难以被捉摸，“当你用以一决胜负的是你手中最强的那手牌时，仍旧需要保有一丝小心慎重，”Billings讲道，该团队研发出了一个具备谨慎风格的AI，它被称作Pink先生，另外还有一个AI呈现出积极进取的风格，它被叫做Agent Orange，难以对一个计算机程序的具体行为进行描述，这听上去不像是你正在谈论的事物，可实际上却是你脑海里正在思索的内容。

吸引了阿尔伯塔大学专长博弈理论的Bowling的均衡策略，用于扑克领域是在2003年开始的。作为卡内基梅隆大学Bowling论文委员会一员的Sandholm，接下来一年转向扑克领域，采取了类似方法。Sandholm和Bowling从2006年开始共同举行年度计算机扑克比赛，定期针对顶尖人类玩家。撇开他们的这种竞争关系，实验室一直在关注彼此研究成果。

第一个项目，在过去几年大幅往前发展，到达了最终阶段。第二个项目，同样在过去几年大幅往前推进，也来到了最后的阶段。在2015年1月份的时候，Bowling所带领的团队，发表了一篇文章，表明它怎样去解决有限德州扑克单挑玩法，这是一种双人扑克游戏，比无限制德州扑克简单，原因在于玩家能够对投注加以限制。Sandholm以及Brown，Brown是在过去五年里一直于扑克AI领域跟他一同开展工作的博士学生，在几个月之后，在大河赌场举办了他们首次的“人脑对抗AI”比赛。用于对抗四名职业玩家的他们的取了 Claudico 这个名字的机器，在进行了超过 8 万手牌的对抗后，损失了 $ 73.2 万。Sandholm 指出，比赛态势相当可称作平局，不过至少有一名玩家对此持有不同意见。

Sandholm和Brown称，自那次比赛以来，他们的AI在多个惯常方面有了改进。Claudico在比赛前期表现不错，然而常常临近结束时出错。它在错误的时机虚张声势，而且依据桌上打出的牌计算牌局时总是碰到问题。就最简单的情形而言，要是牌桌上有两张王，并且你手上也有两张王，那么能够推断出你的对手手中没有王卡。Libratus在这些方面均有改进，其创造者于诸多其他方面依旧秉持着谦虚的态度，特别是在依据一天比赛进程当中所学到的内容进而展开调整这一方面。

,Libratus 的所有细节，最终将会在其创造者发表成果之际，逐一被揭晓。此类学术研究成果，常常会以诸般方式，渗透至现实世界的扑克比赛里。据布朗所言，年度的电脑扑克比赛，其中也涵盖了进入现金游戏的参赛者。bowling 表示，他的研究论文，在留言板上颇受造机器人者的青睐。“存在整个独立的团队，去阅读并且尝试理解这些论文，”他讲道。

在2008年加入扑克行业的Billings，是少数离开阿尔伯塔大学项目后如此行事的人，而多数人都加入了运行游戏平台的公司。自立门户创办名为机器人鲨鱼游戏公司（Robot Shark Gaming）的Richard Gibson，其主要业务是构建AI程序学习和打战略游戏，还创建了一个称之为Sportsbid的幻想体育公司。

2013年，Gibson完成了博士学位，那时，有一群职业玩家提出，让他提供可用于培训的软件，并且为此付费。然而，Gibson手头仅只有其中一个人的名字，而且从来都没有私自去会见其中任何一个客户，同时对这群玩家到底有多少人并不确定。他还表示，即便他们不把软件用于在网上赌博，这依旧是一个污点。

Gibson进行了多个程序的开发，还表示他经由设计的软件去对各种策略的有效性予以演示，程序无法自行实施运行，在他最为盈利的一年之际，Gibson于那个项目里获取了大概10万美元的收益，客户另外在运行软件关联的计算能力方面耗费了2万至3万美元。

Gibson的客户不唯独是匿名的专业人士哦在一个案例里他讲有人付给他几万美元花大概6个月去建立一个轻量级的扑克机器人他没有问客户会怎样使用它并且他也不想知道不过设计方向朝着一个特定应用场景他说我的客户想要一个能独立运行的程序这样就可以加载到他们的笔记本电脑我猜他们试图用它玩在线游戏。

在大河赌场，每到夜晚结束之际，Les会跟他那些扑克专家同伴一起订购外卖，还会仔细钻研白天对战的数据，目的是尽可能寻觅Libratus的弱点。月初时，每天早上他们醒来，都满怀乐观情绪，只因他们有了些新诀窍。Les讲：“头几天我们察觉到了一些特定漏洞。” “我们借助漏洞不断攻击他们，可如今这些漏洞没了。”。

Libratus 同样是在做出一番调整的，在白天的时候，程序会把它自身的计算能力，一部分分配到前台去搞博弈出牌，另一部分能力则分配到 Sandholm 所讲的 “持续战略改进” 计算方面。在晚上之际，程序是完全着重于战略分析的，它会利用超级计算机的 600 个节点，等同于大约 3,330 台高端 MacBook 一起协同工作。

在扑克以及其他某些游戏里，AI于顶层展开博弈，由电脑制定的策略被反馈给人类玩家。Les讲他试着弄明白怎样把部分Libratus的不规则投注行为应用到自身的比赛当中。“这极为困难，大体上我们并没有充足的心智容量去做这个，”他说道。

要是人类已然抵达了这样一个节骨眼，即对于他们而言电脑对手太过完美，然而像 Sandholm 和 Bowling 所运营的实验室却遭遇着近乎相反的状况。与专业玩家展开一对一比赛是一种情形。可是将 Libratus 和 DeepStack 转变为玩家有信心战胜一群存在缺陷之人，却不存在明确的演进路径。这是由于当其他人游戏的关键并非追求完美博弈而是识别和利用缺点时，那 AI 所运用的均衡策略在多人游戏里就会瓦解。

几年前，Bowling做了个实验，实验里，有三个机器人相互对抗，其中两个用到了他实验室里最接近完美的机器人，另一个机器人则通过编程提升了鲁莽特性，比赛结束时，最笨的那个机器人仅仅损失了少量钱财，其中一个完美的机器玩家取得了大胜，另一个却输得极为彻底。

“这般情形着实是颇具难度的。要是你清楚自己将要坐下来，和那些并非极为出色的人类玩家或者其他程序一道去竞赛，那你会采用怎样的策略呢？ Bowling如此说道。你必定得为这情形做好相应的准备”

AI战胜扑克玩家，20年机器人进步助力背后故事

打德州扑克赚钱技巧：因对手而异的策略及心思洞察法

部分手游APP涉赌相关专家：需加大处罚力度，开展针对性打击

打德州扑克赚钱技巧：因对手而异的策略及心思洞察法

部分手游APP涉赌相关专家：需加大处罚力度，开展针对性打击

dxjj

Related posts

德州扑克高级技巧全攻略，教你怎么玩

低级别磨出德州扑克赢家，职业进阶7年血泪笔记曝光

斗地主即将进入奥运会。事实上，你甚至不知道它的秘密。

发表回复 取消回复

发表回复取消回复