Pluribus
美国
由Facebook AI和CMU联合开发的六人桌无限注德州扑克AI,首次在多人对战中击败人类顶尖选手。
Pluribus是由Facebook AI(现Meta AI)与卡内基梅隆大学(CMU)合作开发的六人桌无限注德州扑克人工智能。2019年,Pluribus在六人桌无限注德州扑克中击败了多名人类顶尖职业选手,包括Chris Ferguson、Darren Elias和Jason Les等,成为首个在多人对战中超越人类水平的AI。
Pluribus的核心算法结合了自我对弈(self-play)和蒙特卡洛树搜索(MCTS),但与传统AI不同,它不依赖大量先验知识或人类数据。其策略以混合策略(mixed strategy)著称,即在相同局面下随机选择不同行动,使对手难以预测。Pluribus在翻牌前倾向于激进加注,翻牌后则根据对手行为动态调整,尤其擅长利用对手的倾向性进行剥削。
与一对一AI(如Libratus)相比,Pluribus面临更大挑战:六人桌需要处理更多玩家互动和复杂博弈。它通过“蓝图策略”(blueprint strategy)和实时搜索(live search)平衡全局与局部决策。在实验中,Pluribus每手牌平均盈利约5个大盲注(bb/100),远超人类顶尖选手。
Pluribus的公开印象是“冷酷而高效”,其打法不依赖直觉或情绪,完全基于数学最优。它经常采用非传统下注尺度(如超池下注)和混合频率,迫使人类对手犯错。尽管Pluribus未参与真实赛事,但其策略对扑克理论产生了深远影响,推动了GTO(博弈论最优)策略在多人桌的应用。
值得注意的是,Pluribus的源代码未完全公开,但其论文《Superhuman AI for multiplayer poker》详细阐述了算法原理。目前,Pluribus被视为AI在复杂不完全信息博弈中的里程碑,但其在真实现金游戏中的表现仍存争议,因为实验环境与线上扑克存在差异。
评论 (0)
登录 后参与讨论
相关推荐
大盲注
大盲注是德州扑克中每局开始前由庄家顺时针方向第二位玩家强制下注的金额,通常是底注的两倍。
术语混合策略
在博弈论和扑克中,指玩家以特定概率随机选择不同行动的策略,而非固定使用单一行动。
术语下注
在扑克中,当前轮次第一个或后续主动向底池投入筹码的行动。
术语每百手大盲注
衡量扑克玩家盈利能力的标准指标,表示每100手牌赢取的大盲注数量。
术语行动
指玩家在牌局中的操作,包括弃牌、过牌、下注、跟注、加注或全下。
术语无限注
一种德州扑克下注结构,玩家在任何时刻可以下注任意数量的筹码,上限为当前持有筹码量。
术语蓝图策略
一种在特定扑克局面中预先设计好的、高度优化的标准打法,通常基于数学计算和对手模型,旨在最大化期望值。
术语超池下注
在有人已经下注或加注后,跟注该下注或加注的行为。