Pluribus
美国
由Facebook AI和CMU联合开发的六人桌无限注德州扑克AI,首次在多人游戏中击败人类顶尖选手。
Pluribus是由Facebook AI研究院和卡内基梅隆大学(CMU)联合开发的六人桌无限注德州扑克人工智能。2019年,Pluribus在六人桌无限注德州扑克中击败了多名人类顶尖职业选手,成为首个在多人游戏中达到超人类水平的AI。
技术背景
Pluribus基于自我对弈强化学习和蒙特卡洛树搜索,采用了一种称为“蓝图策略”的方法,在预计算策略基础上实时搜索优化。与之前专注于两人对决的AI(如Libratus)不同,Pluribus需要处理六人桌中更复杂的动态和对手策略。
打法风格
Pluribus的策略以混合策略和平衡下注著称。它经常采用小尺度下注(约1/3底池),并在翻牌圈频繁下注,以施加压力并控制底池。Pluribus善于利用范围优势,在有利位置时更激进,在不利位置时则更谨慎。它还会使用非标准下注尺度(如超池下注)来扰乱对手。
公开印象
在测试中,人类选手普遍认为Pluribus难以捉摸,其决策模式与人类直觉不同。例如,Pluribus有时会在河牌圈用弱牌下注,迫使对手弃牌,或是在看似不利的情况下跟注。人类选手在对抗Pluribus时,平均每手牌损失约5个大盲注。
影响
Pluribus证明了AI在多人博弈中的潜力,对扑克策略研究产生了深远影响。许多职业选手开始借鉴其混合策略和频率下注的理念。不过,Pluribus并未公开完整代码,其实际应用仍限于研究领域。
评论 (0)
登录 后参与讨论
相关推荐
大盲注
大盲注是德州扑克中每局开始前由庄家顺时针方向第二位玩家强制下注的金额,通常是底注的两倍。
术语范围优势
范围优势是指一名玩家的起手牌范围相对于对手更强,从而在翻牌后拥有更高的胜率或更易实现其权益。
术语混合策略
在博弈论和扑克中,指玩家以特定概率随机选择不同行动的策略,而非固定使用单一行动。
术语下注
在扑克中,当前轮次第一个或后续主动向底池投入筹码的行动。
术语无限注
一种德州扑克下注结构,玩家在任何时刻可以下注任意数量的筹码,上限为当前持有筹码量。
术语蓝图策略
一种在特定扑克局面中预先设计好的、高度优化的标准打法,通常基于数学计算和对手模型,旨在最大化期望值。
术语弃牌
玩家放弃当前手牌,不再参与该局游戏,并输掉已投入底池的筹码。
术语超池下注
在有人已经下注或加注后,跟注该下注或加注的行为。