Pluribus
美国
由Facebook AI和CMU联合开发的六人桌无限德州扑克AI,首个在多人对战中击败人类顶尖职业牌手的AI系统。
Pluribus 是由 Facebook AI 与卡内基梅隆大学(CMU)联合开发的六人桌无限德州扑克人工智能。2019 年,Pluribus 在六人桌无限德州扑克中击败了多名人类顶尖职业牌手,成为首个在多人对战中超越人类水平的 AI。
技术背景
Pluribus 采用自博弈(self-play)和蒙特卡洛树搜索(MCTS)相结合的方法。与之前专注于一对一(heads-up)的 AI 不同,Pluribus 需要处理六人桌中更复杂的动态和隐藏信息。其核心创新在于一种称为“蓝图策略”的离线计算与实时搜索的混合架构,使得 AI 能够在有限计算资源下做出接近纳什均衡的决策。
打法风格
Pluribus 的风格以激进和混合策略著称。它经常采用小尺度下注(约 1/3 底池),并频繁进行过牌-加注,给对手施加巨大压力。Pluribus 善于利用范围优势,在翻牌圈和转牌圈保持较高的下注频率,迫使对手在不利位置做出艰难决定。此外,Pluribus 在河牌圈会混合使用价值下注和诈唬,其下注尺度变化多端,难以预测。
公开印象
人类职业牌手在与 Pluribus 对战后普遍认为其打法“非人类”,经常做出看似奇怪但实际高效的决策。例如,Pluribus 会在某些情况下用弱牌进行大额诈唬,而在另一些情况下用强牌过牌诱捕。这种平衡策略使得人类难以针对。
影响与意义
Pluribus 的成功证明了 AI 在多人不完全信息博弈中的潜力,对扑克策略研究和 AI 发展具有里程碑意义。尽管 Pluribus 并未公开其完整代码,但其核心思想已被后续研究广泛借鉴。
局限性
Pluribus 主要针对六人桌无限德州扑克,且其策略基于固定筹码深度(100 大盲注)。在更复杂的变种或不同筹码深度下,其表现可能有所下降。此外,Pluribus 并未考虑对手的个体倾向,而是假设对手接近最优玩法。
评论 (0)
登录 后参与讨论
相关推荐
筹码
扑克游戏中代表货币价值的圆形代币,用于下注、加注和支付底池。
术语大盲注
大盲注是德州扑克中每局开始前由庄家顺时针方向第二位玩家强制下注的金额,通常是底注的两倍。
术语价值下注
当玩家认为自己的手牌领先于对手的跟注范围时,为了从更弱的牌中获取价值而进行的下注。
术语筹码深度
筹码深度指玩家在牌局中持有的筹码数量相对于当前盲注级别的大小,通常以“大盲注倍数”(BB)来衡量。
术语范围优势
范围优势是指一名玩家的起手牌范围相对于对手更强,从而在翻牌后拥有更高的胜率或更易实现其权益。
术语混合策略
在博弈论和扑克中,指玩家以特定概率随机选择不同行动的策略,而非固定使用单一行动。
术语过牌-加注
先过牌,待对手下注后再加注的进攻性打法。
术语下注
在扑克中,当前轮次第一个或后续主动向底池投入筹码的行动。