Pluribus
美国
由Facebook AI和CMU联合开发的六人桌无限注德州扑克AI,首次在多人对战中击败人类顶尖选手。
Pluribus是由Facebook人工智能实验室(FAIR)与卡内基梅隆大学(CMU)合作开发的六人桌无限注德州扑克AI。2019年,Pluribus在一系列实验中与15名人类顶尖职业牌手进行了超过10,000手牌的对战,并取得了显著胜率,成为首个在多人对战中击败人类精英的AI系统。
Pluribus的核心算法基于自我对弈和蒙特卡洛树搜索,但与传统AI不同,它不依赖预先计算的策略表,而是实时计算近似纳什均衡策略。其关键创新在于“蓝图策略”与“实时搜索”的结合:在每手牌中,Pluribus首先使用离线训练的蓝图策略进行初始决策,然后通过有限深度的搜索树优化行动。这种混合方法使其在保持计算效率的同时,能够适应对手的动态调整。
在打法风格上,Pluribus表现出高度混合和不可预测的特点。它经常采用非常规的下注尺度,例如使用小额下注或超池下注来制造压力,并频繁进行诈唬和抓诈唬。与人类玩家不同,Pluribus没有情绪波动或疲劳问题,能够始终如一地执行最优策略。值得注意的是,Pluribus在翻牌前和翻牌圈倾向于采用较紧的范围,但在转牌和河牌圈则变得极为激进,善于利用位置优势。
Pluribus的胜利引发了关于AI在扑克中应用的广泛讨论。一些职业牌手认为,Pluribus的策略揭示了人类在多人局中的常见漏洞,例如过度弃牌和范围不平衡。然而,也有批评指出,实验中的人类选手可能未达到最高水平,且AI在真实锦标赛中的表现尚未验证。尽管如此,Pluribus的成就标志着AI在非完全信息博弈中的重大突破,为多智能体强化学习提供了新的方向。
目前,Pluribus并未公开部署或用于商业目的,其代码和完整策略也未完全开源。但它的设计理念已影响后续扑克AI的开发,例如DeepStack和Libratus的改进版本。对于普通玩家而言,Pluribus的存在提醒我们,在多人局中保持范围平衡和策略混合至关重要。
评论 (0)
登录 后参与讨论
相关推荐
漏洞
指玩家在扑克策略中存在的系统性错误或弱点,导致长期输掉筹码。
术语过度弃牌
指玩家在面对对手的下注或加注时,弃牌频率高于理论最优策略(GTO)所建议的频率。
术语下注
在扑克中,当前轮次第一个或后续主动向底池投入筹码的行动。
术语波动
扑克中短期结果偏离长期期望值的统计波动,反映运气成分带来的输赢起伏。
术语小额下注
指下注金额明显小于底池大小,通常低于底池的50%,旨在以低成本获取信息或引诱对手跟注。
术语行动
指玩家在牌局中的操作,包括弃牌、过牌、下注、跟注、加注或全下。
术语无限注
一种德州扑克下注结构,玩家在任何时刻可以下注任意数量的筹码,上限为当前持有筹码量。
术语蓝图策略
一种在特定扑克局面中预先设计好的、高度优化的标准打法,通常基于数学计算和对手模型,旨在最大化期望值。