Pluribus
美国
由Facebook AI和CMU联合开发的六人桌无限注德州扑克AI,首次在多人游戏中击败人类顶尖选手。
Pluribus是由Facebook AI(现Meta AI)与卡内基梅隆大学(CMU)合作开发的六人桌无限注德州扑克人工智能。2019年,Pluribus在六人桌无限注德州扑克中击败了15名人类顶尖职业选手,成为首个在多人(超过两人)扑克中达到超人水平的人工智能。
技术背景
Pluribus基于自博弈(self-play)和蒙特卡洛树搜索(MCTS)算法,结合深度学习进行策略优化。与之前专注于一对一(heads-up)的AI(如Libratus)不同,Pluribus需要处理六人桌的复杂动态,包括多对手策略、位置优势和隐含赔率。其核心创新在于使用“蓝图策略”(blueprint strategy)作为基础,并在实时游戏中通过有限深度搜索进行微调。
打法风格
Pluribus的风格被描述为“混合且不可预测”。它经常采用非常规的下注尺度,例如在翻牌圈使用小注(约1/3底池)或超池下注,以平衡范围并迫使对手犯错。Pluribus特别擅长使用“反直觉”的诈唬和慢打,例如在河牌圈用弱牌下注或在有利位置用强牌过牌。人类选手反馈称,Pluribus的玩法“令人困惑”,因为它似乎没有固定的模式,且能快速适应对手的倾向。
公开印象
Pluribus的胜利被视为AI在博弈论和战略游戏中的里程碑。与AlphaGo在围棋中的成就不同,扑克涉及不完整信息(隐藏牌),因此Pluribus的成功展示了AI在不确定性和欺骗性环境中的能力。然而,Pluribus并未公开其完整代码或策略,因此其具体算法细节仍属商业机密。
影响与争议
Pluribus的出现引发了关于在线扑克公平性的讨论。部分玩家担心AI可能被用于作弊,但Pluribus的开发者强调其设计目的是研究而非滥用。目前,Pluribus已不再活跃于公开扑克平台,但其技术影响了后续AI扑克研究。
总结
Pluribus是多人扑克AI的标杆,证明了在复杂不完全信息博弈中,AI可以超越人类顶尖水平。其混合策略和自适应能力为AI博弈论研究提供了重要参考。
评论 (0)
登录 后参与讨论
相关推荐
混合策略
在博弈论和扑克中,指玩家以特定概率随机选择不同行动的策略,而非固定使用单一行动。
术语小注
在德州扑克中,通常指翻牌前和翻牌圈的最小下注额,等于大盲注的金额。
术语下注
在扑克中,当前轮次第一个或后续主动向底池投入筹码的行动。
术语慢打
故意示弱以隐藏强牌,诱使对手下注或加注,从而在后续轮次中获取更大价值的策略。
术语无限注
一种德州扑克下注结构,玩家在任何时刻可以下注任意数量的筹码,上限为当前持有筹码量。
术语蓝图策略
一种在特定扑克局面中预先设计好的、高度优化的标准打法,通常基于数学计算和对手模型,旨在最大化期望值。
术语隐含赔率
隐含赔率是指根据后续下注可能赢得的额外筹码计算的潜在赔率,用于评估是否值得跟注。
术语位置优势
在德州扑克中,指玩家因处于后位(如庄位)而获得的信息和行动上的优势。