Pluribus
美国
由Facebook AI和CMU联合开发的六人桌无限注德州扑克AI,首次在多人对战中击败人类顶尖牌手。
Pluribus是由Facebook人工智能实验室(FAIR)与卡内基梅隆大学(CMU)合作开发的六人桌无限注德州扑克人工智能。2019年7月,Pluribus在六人桌无限注德州扑克中击败了15名人类顶尖职业牌手,成为首个在多人对战中超越人类水平的AI。
Pluribus的策略基于自我对弈的强化学习,结合了搜索算法和抽象技术。与之前专注于一对一(heads-up)的AI(如Libratus)不同,Pluribus需要应对多人对局中更复杂的动态。其核心创新在于使用了一种称为“持续重新求解”的实时搜索方法,在每手牌中动态调整策略,而非依赖预先计算好的策略表。
在实验中,Pluribus与人类牌手进行了10,000手牌的对抗,平均每手牌赢取约2.5个大盲注(bb/100),显著高于人类顶尖水平。人类牌手包括多名WSOP金手链得主和线上高额桌常客,如Chris Ferguson、Jason Les等。
Pluribus的打法风格以混合策略和反直觉下注著称。它经常采用小尺度下注(约1/3底池),并在转牌和河牌圈频繁使用过牌-加注。其翻牌前范围较宽,但会根据对手倾向动态调整。Pluribus特别擅长在不利位置时通过过牌-加注来剥夺对手的权益,并利用“范围下注”策略在特定牌面施加压力。
值得注意的是,Pluribus并非完美无缺。在对抗中,人类牌手发现其有时会过度弃牌,尤其是在面对大尺度下注时。此外,Pluribus的策略在短码情况下可能不够优化。
Pluribus的发布标志着AI在多人博弈中的重大突破,但其策略是否完全适用于现实扑克环境仍存在争议。由于六人桌的复杂性,Pluribus的算法无法像Libratus那样公开完整细节,但FAIR团队发表了相关论文,概述了其技术框架。
总体而言,Pluribus展示了AI在非完美信息多人博弈中的潜力,但其打法风格更偏向理论最优,而非人类直觉。对于职业牌手而言,研究Pluribus的策略有助于理解GTO(博弈论最优)在多人对局中的应用,但直接模仿可能因对手调整而失效。
评论 (0)
登录 后参与讨论
相关推荐
大盲注
大盲注是德州扑克中每局开始前由庄家顺时针方向第二位玩家强制下注的金额,通常是底注的两倍。
术语过度弃牌
指玩家在面对对手的下注或加注时,弃牌频率高于理论最优策略(GTO)所建议的频率。
术语混合策略
在博弈论和扑克中,指玩家以特定概率随机选择不同行动的策略,而非固定使用单一行动。
术语过牌-加注
先过牌,待对手下注后再加注的进攻性打法。
术语下注
在扑克中,当前轮次第一个或后续主动向底池投入筹码的行动。
术语每百手大盲注
衡量扑克玩家盈利能力的标准指标,表示每100手牌赢取的大盲注数量。
术语无限注
一种德州扑克下注结构,玩家在任何时刻可以下注任意数量的筹码,上限为当前持有筹码量。
术语金手链
世界扑克系列赛(WSOP)主赛事及部分高额赛事冠军获得的黄金手链状奖杯,是扑克界最高荣誉之一。