Pluribus
美国
由Facebook AI和CMU联合开发的六人桌无限注德州扑克AI,首次在多人对战中击败人类顶尖选手。
Pluribus是由Facebook AI(现Meta AI)与卡内基梅隆大学(CMU)联合开发的六人桌无限注德州扑克人工智能。2019年,Pluribus在六人桌无限注德州扑克中击败了15名人类顶尖职业选手,成为首个在多人对战中超越人类水平的AI。
技术背景
Pluribus基于自博弈(self-play)和蒙特卡洛树搜索(MCTS)算法,结合深度神经网络进行策略优化。与之前专注于一对一(heads-up)的AI不同,Pluribus需要处理六人桌中更复杂的动态博弈,包括多对手的交互和隐藏信息。其训练过程完全通过自我对弈完成,无需人类数据。
打法风格
Pluribus的策略以混合策略(mixed strategy)著称,即在同一局面下以不同概率执行多种行动,使其难以被对手预测。其关键特征包括:
- 频繁的领先下注(donk-bet):在翻牌圈作为翻前跟注方时,Pluribus会以较高频率主动下注,打破传统人类策略。
- 小尺度下注:偏好使用约1/3底池的小注,控制风险并施加压力。
- 激进的反加注:在有利位置时,Pluribus会频繁进行3-bet和4-bet,扩大底池并剥夺对手的权益。
- 河牌圈高频率诈唬:在河牌圈,Pluribus的诈唬频率高于人类典型值,且其价值下注与诈唬的比例经过精确平衡。
公开印象
Pluribus的发布引发了扑克界的广泛讨论。职业选手如Chris Ferguson和Jason Les在测试后表示,Pluribus的策略与人类有显著差异,尤其是在翻牌圈的领先下注和河牌圈的激进诈唬。部分选手认为其风格“反直觉”,但有效利用了人类玩家的认知偏差。
影响与局限
Pluribus证明了AI在多人博弈中的可行性,但其策略是否完全最优仍存争议。由于训练环境为固定规则(如固定盲注和筹码深度),Pluribus在变结构(如锦标赛)中的表现未知。此外,其策略依赖于大量计算资源,无法直接应用于实时决策。
总体而言,Pluribus是扑克AI发展的重要里程碑,其混合策略和反直觉打法为人类玩家提供了新的学习视角。
评论 (0)
登录 后参与讨论
相关推荐
领先下注
指在翻牌圈或转牌圈,当前一轮行动中尚未有人下注时,由上一轮最后一名进攻者(通常是翻牌前的加注者)之外的玩家率先下注的行为。
术语筹码
扑克游戏中代表货币价值的圆形代币,用于下注、加注和支付底池。
术语价值下注
当玩家认为自己的手牌领先于对手的跟注范围时,为了从更弱的牌中获取价值而进行的下注。
术语筹码深度
筹码深度指玩家在牌局中持有的筹码数量相对于当前盲注级别的大小,通常以“大盲注倍数”(BB)来衡量。
术语3Bet百分比
3Bet% 是德州扑克中衡量玩家在有机会时进行3Bet(翻牌前第三次加注)的频率的统计指标。
术语4-Bet
在翻牌前,对对手的3-Bet再次加注的行为,通常表示持有超强牌。
术语3-Bet
翻牌前或翻牌后,在有人加注后再次加注的行为,通常表示强牌或诈唬。
术语混合策略
在博弈论和扑克中,指玩家以特定概率随机选择不同行动的策略,而非固定使用单一行动。