Pluribus
美国
由Facebook AI和CMU联合开发的六人桌无限注德州扑克AI,首个在多人对战中击败人类顶尖选手的AI系统。
Pluribus是由Facebook人工智能实验室(FAIR)与卡内基梅隆大学(CMU)合作开发的六人桌无限注德州扑克AI。2019年,Pluribus在六人桌无限注德州扑克中击败了15名人类顶尖职业选手,成为首个在多人对战中超越人类水平的AI。
Pluribus的核心算法结合了自我对弈(self-play)和蒙特卡洛树搜索(MCTS),但与传统AI不同,它不依赖大量先验知识,而是通过自我博弈学习策略。其关键创新在于“蓝图策略”(blueprint strategy)与实时搜索的结合:AI在离线阶段通过自我对弈生成一个基础策略,然后在实际对局中利用有限深度的搜索进行实时调整。
Pluribus的打法风格以“混合策略”著称,即在同一局面下随机选择不同行动,使得对手难以读牌。它经常采用非常规的下注尺度,例如超池下注或小额下注,以最大化剥削对手的漏洞。此外,Pluribus在翻牌前和翻牌圈倾向于频繁加注和过牌-加注,给对手施加巨大压力。
值得注意的是,Pluribus在多人桌中展现了对“范围平衡”的深刻理解,其下注频率和手牌选择高度优化,几乎不留下可被利用的模式。人类选手普遍反映与Pluribus对局时感到“困惑”和“无力”,因为它似乎总能找到最优的剥削策略。
Pluribus的公开测试中,人类选手包括多名WSOP金手链得主和线上高额桌常客。在总计10,000手牌的样本中,Pluribus平均每手牌盈利约5个大盲注(bb/100),显著高于人类顶尖水平。
尽管Pluribus并未直接参与任何正式扑克赛事,但其研究成果对扑克策略理论产生了深远影响。许多职业选手开始借鉴Pluribus的混合策略和剥削性下注尺度,尤其是在多人桌游戏中。
Pluribus的代码和模型并未完全公开,但FAIR和CMU发布了相关论文,详细描述了其算法架构。目前,Pluribus被视为扑克AI领域的里程碑,与单挑AI Libratus齐名。
评论 (0)
登录 后参与讨论
相关推荐
漏洞
指玩家在扑克策略中存在的系统性错误或弱点,导致长期输掉筹码。
术语混合策略
在博弈论和扑克中,指玩家以特定概率随机选择不同行动的策略,而非固定使用单一行动。
术语过牌-加注
先过牌,待对手下注后再加注的进攻性打法。
术语下注
在扑克中,当前轮次第一个或后续主动向底池投入筹码的行动。
术语小额下注
指下注金额明显小于底池大小,通常低于底池的50%,旨在以低成本获取信息或引诱对手跟注。
术语每百手大盲注
衡量扑克玩家盈利能力的标准指标,表示每100手牌赢取的大盲注数量。
术语行动
指玩家在牌局中的操作,包括弃牌、过牌、下注、跟注、加注或全下。
术语无限注
一种德州扑克下注结构,玩家在任何时刻可以下注任意数量的筹码,上限为当前持有筹码量。