Cepheus
加拿大
由阿尔伯塔大学开发的限注德州扑克人工智能,首次在二人限注德州扑克中达到接近最优解的水平。
Cepheus 是由加拿大阿尔伯塔大学计算机科学系的研究团队(包括 Michael Bowling、Neil Burch、Michael Johanson 和 Oskari Tammelin)开发的限注德州扑克人工智能。它于 2015 年 1 月被公开宣布,声称在二人限注德州扑克中实现了“本质上被解决”的状态,即其策略与纳什均衡的偏差极小,以至于人类或任何其他程序都无法在长期游戏中获得显著盈利。
Cepheus 的核心算法基于一种称为“反事实遗憾最小化”(CFR)的迭代方法。通过自我对弈数十亿手牌,Cepheus 不断调整策略以最小化遗憾值,最终收敛到接近最优的策略。研究团队估计,Cepheus 的玩法与完美游戏的差距小于每手牌 0.001 个大盲注,这意味着即使经过数百万手牌,对手也无法可靠地战胜它。
Cepheus 的公开版本允许人类玩家在线挑战它,但很快发现即使是顶尖的人类限注德州扑克玩家也无法击败它。它的打法风格以极其平衡和剥削性弱点的能力著称:它能够精确地调整下注频率、诈唬比例和跟注范围,使得对手的任何偏离最优策略的行为都会被惩罚。
值得注意的是,Cepheus 仅适用于二人限注德州扑克,且其策略基于固定的牌桌结构和规则。对于无限注德州扑克或多玩家游戏,问题复杂度更高,Cepheus 的方法无法直接应用。尽管如此,Cepheus 的成就被视为人工智能在博弈论和游戏求解领域的重要里程碑,为后续更复杂的扑克 AI(如 Libratus 和 Pluribus)奠定了基础。
Cepheus 的代码和策略数据已公开,供学术研究和教育用途。它的名字来源于希腊神话中的国王,象征着在扑克领域的统治地位。
评论 (0)
登录 后参与讨论
相关推荐
扑克玩家
指以扑克为职业或主要收入来源的玩家,通常指现金游戏玩家。
术语大盲注
大盲注是德州扑克中每局开始前由庄家顺时针方向第二位玩家强制下注的金额,通常是底注的两倍。
术语下注
在扑克中,当前轮次第一个或后续主动向底池投入筹码的行动。
术语无限注
一种德州扑克下注结构,玩家在任何时刻可以下注任意数量的筹码,上限为当前持有筹码量。
术语反事实遗憾
在博弈论中,反事实遗憾是指一个玩家在特定信息集上,如果采取不同行动所能获得的收益与当前策略收益之间的差值,用于指导策略迭代优化。
术语反事实遗憾最小化
一种迭代算法,通过最小化每个决策点的反事实遗憾来逼近纳什均衡,常用于求解不完全信息博弈(如德州扑克)。
术语下注频率
在特定情况下玩家选择下注而非过牌或弃牌的频率,通常以百分比表示。
术语迭代
在扑克中,迭代指通过反复调整策略或模型参数来逼近最优解的过程,常见于GTO求解器或AI训练中。