Pluribus
美国
由Facebook AI和CMU联合开发的六人桌无限注德州扑克AI,首次在多人对战中击败人类顶尖选手。
Pluribus 是由 Facebook AI 与卡内基梅隆大学(CMU)合作开发的六人桌无限注德州扑克人工智能。2019年,Pluribus 在六人桌无限注德州扑克中击败了多名人类顶尖职业选手,包括 Chris Ferguson、Darren Elias 和 Jason Les 等,成为首个在多人对战中超越人类水平的 AI。
Pluribus 的策略核心是结合自我对弈强化学习与蒙特卡洛树搜索。与之前专注于两人对决的 AI(如 Libratus)不同,Pluribus 需要应对六人桌中更复杂的动态博弈。它采用了一种称为“蓝图策略”的预计算策略,并在实时游戏中通过有限前瞻搜索进行微调。Pluribus 的独特之处在于其混合策略:它会在不同情况下随机化下注大小,甚至使用非整数下注(如 2.5 倍底池),以增加对手的决策难度。
在打法风格上,Pluribus 表现出极高的侵略性和平衡性。它倾向于频繁下注和加注,尤其是在翻牌圈和转牌圈,迫使对手在压力下犯错。Pluribus 的弃牌率较低,但会在必要时果断弃牌,避免陷入不利局面。它善于利用位置优势,在按钮位和小盲位时更加激进。此外,Pluribus 对底池赔率和隐含赔率的计算极为精确,能够快速适应对手的倾向并调整策略。
Pluribus 的公开印象是“冷酷而高效”。人类选手在与其对战后普遍反映,Pluribus 的下注模式难以预测,且很少出现明显的漏洞。它不会像人类那样因情绪波动而偏离最优策略,但也会利用人类的心理弱点,例如在对手示弱时施加更大压力。
尽管 Pluribus 在六人桌中表现出色,但它并非完美。研究团队指出,Pluribus 在翻牌前范围构建上仍有改进空间,且其策略在极深筹码或特殊规则下可能失效。此外,Pluribus 的训练成本极高,需要大量计算资源,目前尚未公开部署。
Pluribus 的出现标志着 AI 在多人博弈领域的重要突破,也为扑克策略研究提供了新的视角。它的成功证明了强化学习在复杂不完全信息博弈中的潜力,但同时也引发了关于 AI 对扑克生态影响的讨论。
评论 (0)
登录 后参与讨论
相关推荐
筹码
扑克游戏中代表货币价值的圆形代币,用于下注、加注和支付底池。
术语漏洞
指玩家在扑克策略中存在的系统性错误或弱点,导致长期输掉筹码。
术语混合策略
在博弈论和扑克中,指玩家以特定概率随机选择不同行动的策略,而非固定使用单一行动。
术语底池赔率
底池赔率是指当前底池总额与需要跟注的金额之比,用于判断跟注是否有利可图。
术语下注
在扑克中,当前轮次第一个或后续主动向底池投入筹码的行动。
术语波动
扑克中短期结果偏离长期期望值的统计波动,反映运气成分带来的输赢起伏。
术语无限注
一种德州扑克下注结构,玩家在任何时刻可以下注任意数量的筹码,上限为当前持有筹码量。
术语深筹码
指玩家筹码量远高于标准买入或盲注深度,通常超过100个大盲注。