反事实遗憾
Counterfactual Regret
在博弈论中,反事实遗憾是指一个玩家在特定信息集上,如果采取不同行动所能获得的收益与当前策略收益之间的差值,用于指导策略迭代优化。
概述
反事实遗憾(Counterfactual Regret)是博弈论中用于求解纳什均衡的一种核心概念,尤其在德州扑克等不完美信息博弈中应用广泛。它由 Hart 和 Mas-Colell 提出,后经 Zinkevich 等人发展为反事实遗憾最小化(CFR)算法,成为 AI 攻克德州扑克的关键技术。
定义与计算
在博弈树中,每个信息集(即玩家无法区分的历史节点集合)上,反事实遗憾衡量的是:若玩家在该信息集上选择某个特定行动,相比于当前策略,其收益的期望差值。具体而言,对于信息集 I 和行动 a,反事实遗憾定义为:
R(I, a) = ∑{h ∈ I} π{-i}(h) * (u_i(h·a) - u_i(h))
其中 π_{-i}(h) 是除当前玩家外其他玩家到达节点 h 的概率(即反事实概率),u_i(h) 是当前策略下玩家 i 在节点 h 的期望收益,u_i(h·a) 是采取行动 a 后的期望收益。
在德州扑克中的应用
CFR 算法通过迭代计算每个信息集上每个行动的反事实遗憾,并据此更新策略:遗憾值越大的行动,在下一轮策略中被赋予更高的概率。经过足够多次迭代,平均策略收敛到纳什均衡。
- 典型示例:在翻牌圈,玩家可能对“下注”和“过牌”两个行动计算反事实遗憾。若“下注”的遗憾为正,说明当前策略下注不足,后续应增加下注频率。
意义与局限
反事实遗憾为不完美信息博弈提供了可计算的均衡求解方法,使 AI 能在德州扑克中达到超人类水平。但其计算复杂度高,需要大量采样或抽象来降低博弈树规模。此外,反事实遗憾本身是策略优化的工具,而非直接可观察的玩家行为。
相关术语
评论 (0)
登录 后参与讨论
相关推荐
下注
在扑克中,当前轮次第一个或后续主动向底池投入筹码的行动。
术语行动
指玩家在牌局中的操作,包括弃牌、过牌、下注、跟注、加注或全下。
术语反事实遗憾最小化
一种迭代算法,通过最小化每个决策点的反事实遗憾来逼近纳什均衡,常用于求解不完全信息博弈(如德州扑克)。
术语期望值
期望值(Expected Value)是衡量一个决策在长期重复中平均盈利或亏损的数学指标,正EV表示长期盈利,负EV表示长期亏损。
术语下注频率
在特定情况下玩家选择下注而非过牌或弃牌的频率,通常以百分比表示。
术语过牌
在扑克中,当轮到玩家行动时选择不下注,将行动权交给下一位玩家,同时保留当前手牌继续游戏。
术语迭代
在扑克中,迭代指通过反复调整策略或模型参数来逼近最优解的过程,常见于GTO求解器或AI训练中。
术语常规玩家
指经常参与扑克游戏、具备稳定盈利能力的职业或半职业玩家。