Pluribus
美国
由Facebook AI和CMU联合开发的六人桌无限注德州扑克AI,首次在多人对战中击败人类顶尖选手。
Pluribus是由Facebook AI(现Meta AI)与卡内基梅隆大学(CMU)合作开发的六人桌无限注德州扑克人工智能。2019年,Pluribus在六人桌无限注德州扑克中击败了15名人类顶尖职业选手,成为首个在多人对战中超越人类水平的AI。
技术背景
Pluribus基于自博弈(self-play)和蒙特卡洛树搜索(MCTS)算法,结合了深度学习和有限状态抽象。与之前专注于一对一(heads-up)的AI(如Libratus)不同,Pluribus需要处理六人桌中更复杂的动态博弈,包括多对手策略、隐含赔率和诈唬频率的平衡。
打法风格
Pluribus的策略以混合策略和平衡下注著称。它倾向于采用混合下注(mixed strategy),即同一手牌在不同情况下可能选择下注、过牌或加注,使得对手难以读牌。Pluribus在翻牌前和翻牌后都表现出激进的加注频率,但并非盲目进攻,而是基于精确的胜率计算和对手模型。
- 翻牌前:Pluribus的起手牌范围较宽,但会根据位置和对手倾向调整。它经常在小盲位加注,并在大盲位防守较宽。
- 翻牌后:Pluribus擅长利用下注尺度传递信息,例如在有利位置使用小注试探,在不利位置使用大注保护强牌。它也会频繁使用过牌-加注(check-raise)来惩罚对手的持续下注。
- 诈唬:Pluribus的诈唬频率经过精确校准,使其在长期博弈中保持不可剥削性。
公开印象
Pluribus的胜利被视为AI在博弈论领域的里程碑,因为六人桌的复杂性远高于一对一。人类选手评价Pluribus“难以捉摸”,其下注模式与人类直觉不同,但长期来看非常有效。Pluribus的代码和策略细节未完全公开,但其核心思想影响了后续扑克AI和游戏理论的研究。
局限性
Pluribus仅在固定规则(六人桌无限注德州扑克)下测试,且未考虑实际比赛中的筹码深度变化、玩家动态调整等因素。此外,其策略基于大量计算,无法直接应用于实时决策。
影响
Pluribus证明了AI在多人不完全信息博弈中的潜力,推动了AI在金融、谈判等领域的应用。对于扑克界,它促使职业选手重新审视传统策略,并开始使用AI辅助训练工具。
评论 (0)
登录 后参与讨论
相关推荐
混合策略
在博弈论和扑克中,指玩家以特定概率随机选择不同行动的策略,而非固定使用单一行动。
术语大注
指下注额显著大于底池或标准下注大小的下注,通常用于施加压力或最大化价值。
术语加注频率
在德州扑克中,玩家在特定情况下选择加注(而非弃牌或跟注)的比率。
术语过牌-加注
先过牌,待对手下注后再加注的进攻性打法。
术语小注
在德州扑克中,通常指翻牌前和翻牌圈的最小下注额,等于大盲注的金额。
术语下注
在扑克中,当前轮次第一个或后续主动向底池投入筹码的行动。
术语无限注
一种德州扑克下注结构,玩家在任何时刻可以下注任意数量的筹码,上限为当前持有筹码量。
术语隐含赔率
隐含赔率是指根据后续下注可能赢得的额外筹码计算的潜在赔率,用于评估是否值得跟注。