Pluribus
美国
由Facebook AI和CMU联合开发的六人桌无限注德州扑克AI,首次在多人对战中击败人类顶尖选手。
Pluribus是由Facebook AI(现Meta AI)与卡内基梅隆大学(CMU)合作开发的六人桌无限注德州扑克人工智能。2019年,Pluribus在六人桌无限注德州扑克中击败了多名人类顶尖职业选手,包括Chris Ferguson、Jason Les等,成为首个在多人对战中超越人类水平的AI。
Pluribus的核心算法结合了自我对弈(self-play)和蒙特卡洛树搜索(MCTS),但为了应对六人桌的复杂性,它采用了更高效的策略:在每手牌中,Pluribus会实时构建一个简化的博弈树,并利用蓝图策略(blueprint strategy)作为基础,再通过搜索进行微调。与单挑AI不同,Pluribus不需要在每步都进行完整搜索,而是仅在关键决策点(如翻牌前、翻牌后)进行有限深度的搜索,从而在计算资源有限的情况下实现高性能。
Pluribus的打法风格以激进和平衡著称。它经常采用混合策略,例如在翻牌前用不同频率加注或弃牌,使得对手难以读牌。Pluribus还擅长利用范围优势,在有利位置时频繁下注,给对手施加压力。在河牌圈,Pluribus的下注尺度通常较大,以最大化价值或迫使对手弃牌。人类选手评价Pluribus时提到,它似乎能准确感知对手的弱点,并针对性地调整策略。
Pluribus的胜利标志着AI在多人博弈中的重大突破。与单挑不同,六人桌需要处理更复杂的交互和隐含信息,Pluribus通过创新的算法设计证明了AI在多人非完美信息博弈中的潜力。尽管Pluribus并未公开其完整代码或进行商业化,但其研究成果对博弈论和AI领域产生了深远影响。
评论 (0)
登录 后参与讨论
相关推荐
范围优势
范围优势是指一名玩家的起手牌范围相对于对手更强,从而在翻牌后拥有更高的胜率或更易实现其权益。
术语混合策略
在博弈论和扑克中,指玩家以特定概率随机选择不同行动的策略,而非固定使用单一行动。
术语下注
在扑克中,当前轮次第一个或后续主动向底池投入筹码的行动。
术语无限注
一种德州扑克下注结构,玩家在任何时刻可以下注任意数量的筹码,上限为当前持有筹码量。
术语蓝图策略
一种在特定扑克局面中预先设计好的、高度优化的标准打法,通常基于数学计算和对手模型,旨在最大化期望值。
术语弃牌
玩家放弃当前手牌,不再参与该局游戏,并输掉已投入底池的筹码。
术语六人桌
指一张牌桌上最多容纳六名玩家的德州扑克游戏形式。
术语限注德州扑克
一种固定下注结构的德州扑克变体,每轮下注的金额和加注次数均受严格限制。