Pluribus
美国
由Facebook AI和CMU联合开发的六人桌无限注德州扑克AI,首次在多人对战中击败人类顶尖选手。
Pluribus 是由 Facebook AI 与卡内基梅隆大学(CMU)联合开发的六人桌无限注德州扑克人工智能。2019年,Pluribus 在六人桌无限注德州扑克中击败了多名人类顶尖职业选手,成为首个在多人对战中超越人类水平的 AI。
技术背景
Pluribus 采用自我对弈强化学习与蒙特卡洛树搜索相结合的方法。与之前专注于两人对战的 AI(如 Libratus)不同,Pluribus 需要处理六人桌中更复杂的动态博弈,包括多对手策略、隐含赔率以及社交性诈唬。其核心创新在于“抽象”技术:将庞大的游戏树简化为可计算的形式,同时保留关键决策点。
打法风格
Pluribus 的风格以激进和混合策略著称。它经常采用大额下注(如底池的2-3倍)来施加压力,并频繁进行诈唬。与人类玩家不同,Pluribus 不依赖固定的起手牌范围,而是根据实时胜率与对手倾向动态调整。其翻牌前加注频率较高,翻牌后则善于利用位置优势。
公开印象
在测试中,人类选手普遍反映 Pluribus 难以捉摸:它会在看似无意义的牌面下注,也会在强牌时慢打。职业选手 Chris Ferguson 评价其“像是一个从不犯错的激进玩家”。由于 Pluribus 未公开完整代码,其具体策略细节仍属机密,但已知它通过大量自我对弈(每天数百万手牌)来优化决策。
影响与局限
Pluribus 证明了 AI 在多人博弈中的潜力,但其策略基于完美信息假设(即所有玩家理性),在真实人类对局中可能因情绪或非理性行为而失效。此外,Pluribus 的硬件需求极高,无法直接用于在线扑克。尽管如此,它的出现推动了扑克 AI 研究,并引发了对线上扑克公平性的讨论。
评论 (0)
登录 后参与讨论
相关推荐
混合策略
在博弈论和扑克中,指玩家以特定概率随机选择不同行动的策略,而非固定使用单一行动。
术语加注频率
在德州扑克中,玩家在特定情况下选择加注(而非弃牌或跟注)的比率。
术语下注
在扑克中,当前轮次第一个或后续主动向底池投入筹码的行动。
术语慢打
故意示弱以隐藏强牌,诱使对手下注或加注,从而在后续轮次中获取更大价值的策略。
术语无限注
一种德州扑克下注结构,玩家在任何时刻可以下注任意数量的筹码,上限为当前持有筹码量。
术语隐含赔率
隐含赔率是指根据后续下注可能赢得的额外筹码计算的潜在赔率,用于评估是否值得跟注。
术语位置优势
在德州扑克中,指玩家因处于后位(如庄位)而获得的信息和行动上的优势。
术语六人桌
指一张牌桌上最多容纳六名玩家的德州扑克游戏形式。