Pluribus
美国
由Facebook AI和CMU联合开发的六人桌无限德州扑克AI,首个在多人对战中击败人类顶尖选手的AI。
Pluribus是由Facebook AI(现Meta AI)与卡内基梅隆大学(CMU)联合开发的六人桌无限德州扑克AI,于2019年7月公布。它是首个在多人对战中击败人类顶尖职业选手的AI,标志着AI在博弈论和战略推理领域的重大突破。
技术背景
Pluribus基于自我对弈和蒙特卡洛树搜索(MCTS)算法,结合了深度学习和博弈论求解技术。与之前专注于一对一(heads-up)的AI(如Libratus)不同,Pluribus需要处理六人桌的复杂动态,包括多对手策略、位置优势和隐含赔率。其核心创新在于使用“蓝图策略”(blueprint strategy)进行实时搜索,并在每个决策点进行有限前瞻,从而在计算资源有限的情况下实现接近最优的决策。
打法风格
Pluribus的风格以“混合策略”和“不可预测性”著称。它经常采用非标准的下注尺度,例如在翻牌圈进行超池下注,或在河牌圈使用小注额引诱跟注。它善于利用范围优势,在有利位置频繁加注,并在不利位置采取保守的过牌-跟注策略。Pluribus还表现出对“反直觉”玩法的偏好,例如在早期位置用弱牌加注,或在多人底池中诈唬。
公开印象
在2019年的测试中,Pluribus与15名人类顶尖职业选手(包括Chris Ferguson、Jason Les等)进行了10,000手牌的六人桌比赛。据公布结果,Pluribus平均每百手牌盈利约5个大盲注(bb/100),显著高于人类选手。人类选手普遍反映Pluribus的决策“难以阅读”,其下注模式与人类习惯截然不同,且能快速适应对手的调整。
影响与意义
Pluribus的成功证明了AI在多人不完全信息博弈中的潜力,其技术被应用于其他领域,如网络安全和拍卖设计。在扑克界,它引发了关于AI对游戏公平性影响的讨论,并促使线上平台加强反AI检测。尽管Pluribus未直接参与商业赛事,但其策略被许多职业选手研究,并影响了现代扑克理论的发展。
局限性
Pluribus的设计针对特定规则(六人桌无限德州扑克,固定盲注结构),且需要大量计算资源。它无法处理锦标赛中的ICM压力或动态筹码深度,因此其策略在锦标赛场景中可能不适用。此外,Pluribus的“蓝图策略”是离线生成的,无法在实时中学习对手的长期倾向。
评论 (0)
登录 后参与讨论
相关推荐
ICM压力
在锦标赛中,由于ICM(独立筹码模型)导致的筹码价值非线性变化,使玩家在决策时面临额外压力,尤其是在接近钱圈或决赛桌时。
术语小注
在德州扑克中,通常指翻牌前和翻牌圈的最小下注额,等于大盲注的金额。
术语下注
在扑克中,当前轮次第一个或后续主动向底池投入筹码的行动。
术语每百手大盲注
衡量扑克玩家盈利能力的标准指标,表示每100手牌赢取的大盲注数量。
术语蓝图策略
一种在特定扑克局面中预先设计好的、高度优化的标准打法,通常基于数学计算和对手模型,旨在最大化期望值。
术语隐含赔率
隐含赔率是指根据后续下注可能赢得的额外筹码计算的潜在赔率,用于评估是否值得跟注。
术语位置优势
在德州扑克中,指玩家因处于后位(如庄位)而获得的信息和行动上的优势。
术语过牌-跟注
在轮到自己行动时先过牌,然后在对手下注后选择跟注的行动组合。