德州扑克知识库
Pluribus
扑克选手

Pluribus

美国

由Facebook AI和CMU联合开发的六人桌无限注德州扑克AI,首次在多人对战中击败人类顶尖选手。

0 阅读

Pluribus是由Facebook AI(现Meta AI)与卡内基梅隆大学(CMU)联合开发的六人桌限注德州扑克人工智能。2019年,Pluribus在六人桌限注德州扑克中击败了15名人类顶尖职业选手,成为首个在多人对战中超越人类水平的AI。

技术背景

Pluribus基于自博弈(self-play)和蒙特卡洛树搜索(MCTS)算法,结合深度神经网络进行策略优化。与之前专注于一对一(heads-up)的AI不同,Pluribus需要处理六人桌中更复杂的动态博弈,包括多对手的交互和隐藏信息。其训练过程完全通过自我对弈完成,无需人类数据。

打法风格

Pluribus的策略以混合策略mixed strategy)著称,即在同一局面下以不同概率执行多种行动,使其难以被对手预测。其关键特征包括:

  • 频繁的领先下注donk-bet:在翻牌圈作为翻前跟注方时,Pluribus会以较高频率主动下注,打破传统人类策略。
  • 小尺度下注:偏好使用约1/3底池的小注,控制风险并施加压力。
  • 激进的反加注:在有利位置时,Pluribus会频繁进行3-bet和4-bet,扩大底池并剥夺对手的权益。
  • 河牌圈高频率诈唬:在河牌圈,Pluribus的诈唬频率高于人类典型值,且其价值下注与诈唬的比例经过精确平衡。

公开印象

Pluribus的发布引发了扑克界的广泛讨论。职业选手如Chris Ferguson和Jason Les在测试后表示,Pluribus的策略与人类有显著差异,尤其是在翻牌圈的领先下注和河牌圈的激进诈唬。部分选手认为其风格“反直觉”,但有效利用了人类玩家的认知偏差。

影响与局限

Pluribus证明了AI在多人博弈中的可行性,但其策略是否完全最优仍存争议。由于训练环境为固定规则(如固定盲注和筹码深度),Pluribus在变结构(如锦标赛)中的表现未知。此外,其策略依赖于大量计算资源,无法直接应用于实时决策。

总体而言,Pluribus是扑克AI发展的重要里程碑,其混合策略和反直觉打法为人类玩家提供了新的学习视角。

评论 (0)

|

登录 后参与讨论

相关推荐