Pluribus
美国
由Facebook AI和CMU联合开发的六人桌无限注德州扑克AI,2019年首次在多人对战中击败人类顶尖职业牌手。
Pluribus是由Facebook AI(现Meta AI)与卡内基梅隆大学(CMU)合作开发的六人桌无限注德州扑克人工智能。2019年7月,研究团队在《科学》杂志上发表论文,宣布Pluribus在六人桌无限注德州扑克中击败了15名人类顶尖职业牌手,包括多名WSOP金手链得主。这是AI首次在多人(超过两人)不完全信息博弈中达到超人水平。
Pluribus的核心算法结合了自我对弈(self-play)和蒙特卡洛树搜索(MCTS),但为了应对六人桌的复杂性,它采用了“蓝图策略”(blueprint strategy)与实时搜索相结合的方式。在每手牌中,Pluribus会预先计算一个简化的策略,然后在实际决策时通过有限深度的搜索进行微调。与之前的AI(如Libratus)不同,Pluribus不需要在每手牌开始时重新计算整个博弈树,而是利用抽象和采样技术降低计算量。
在打法风格上,Pluribus表现出几个显著特征:首先,它倾向于频繁地混合下注和过牌,尤其是在翻牌圈和转牌圈,使得对手难以判断其牌力。其次,Pluribus在河牌圈的下注尺度变化很大,经常使用超池下注(overbet)来施加压力。第三,它善于利用位置优势,在有利位置时更激进,在不利位置时则更谨慎。此外,Pluribus在诈唬和抓诈唬方面表现出色,能够平衡价值下注和诈唬的频率。
人类牌手在与Pluribus对战后普遍反映,它的打法与人类有显著不同:它会在一些看似不合理的时机下注或加注,但长期来看这些决策是均衡的。例如,Pluribus有时会在翻牌圈用弱牌下注,然后在转牌圈弃牌给加注,这种“频繁弃牌”的策略在人类看来可能过于被动,但实际上减少了被剥削的风险。
Pluribus的胜利标志着AI在多人扑克领域的重大突破,但它的策略并非完美无缺。后续研究表明,Pluribus在某些特定场景下(如短筹码或特殊翻牌结构)可能存在漏洞。不过,作为首个在六人桌击败人类顶尖牌手的AI,Pluribus对扑克理论和AI研究都产生了深远影响。
评论 (0)
登录 后参与讨论
相关推荐
价值下注
当玩家认为自己的手牌领先于对手的跟注范围时,为了从更弱的牌中获取价值而进行的下注。
术语漏洞
指玩家在扑克策略中存在的系统性错误或弱点,导致长期输掉筹码。
术语下注
在扑克中,当前轮次第一个或后续主动向底池投入筹码的行动。
术语无限注
一种德州扑克下注结构,玩家在任何时刻可以下注任意数量的筹码,上限为当前持有筹码量。
术语金手链
世界扑克系列赛(WSOP)主赛事及部分高额赛事冠军获得的黄金手链状奖杯,是扑克界最高荣誉之一。
术语蓝图策略
一种在特定扑克局面中预先设计好的、高度优化的标准打法,通常基于数学计算和对手模型,旨在最大化期望值。
术语弃牌
玩家放弃当前手牌,不再参与该局游戏,并输掉已投入底池的筹码。
术语位置优势
在德州扑克中,指玩家因处于后位(如庄位)而获得的信息和行动上的优势。