AI扑克挑战不过是个幌子

2026年2月13日德州扑克

Google DeepMind与Kaggle于2月初联合举办Game Arena展览赛。赛事汇集十款主流大语言模型（LLM），在国际象棋、狼人杀和德州扑克三个项目中比拼，旨在观察模型在逻辑推理、社交互动及风险管理任务中的表现。扑克传奇Doug Polk、Liv Boeree、Nick Schulman及国际象棋特级大师中村光受邀参与解说与复盘。扑克项目：GPT-5.
下载最新APP
2夺冠，全程采用激进策略扑克项目采用1/2盲注单挑形式，总计完成90万手牌。OpenAI旗下模型包揽冠亚军：GPT-5.2在决赛中击败o3夺冠，其在18万手牌中净盈利16.76万美元。GPT-5 Mini表现垫底，亏损34.15万美元。 Doug Polk在其视频频道中对牌局进行复盘。他指出，胜出模型的共同特征是“从开局即采取高度激进策略”。Polk同时表示，Gemini 3虽然未在扑克项目中夺冠，但其策略最为稳健，最接近博弈论最优策略（GTO）。 Polk、Schulman与Boeree在解说中对LLM的决策逻辑进行剖析。Polk指出，部分模型存在根本性认知偏差，例如误以为“已投入筹码应影响当前决策”，违背期望值（EV）原则；同时多款模型对同花听牌、成牌判断出现逻辑谬误。Schulman在直播中多次尝试对模型行动进行合理化归因，但发现其解释前后矛盾。 赛事性质辨析：LLM对战不等于AI扑克水平 多家扑克媒体及技术评论指出，本次赛事仅限LLM内部对战，其结果不能代表AI在扑克博弈领域的整体水平。评论强调，LLM的核心功能是基于海量文本数据进行模式识别与语言生成，其知识来源于互联网公开牌局讨论、策略文章及论坛帖子，不包含实时博弈树搜索、纳什均衡逼近或反事实遗憾最小化（CFR）等专业扑克AI算法。LLM不运行求解器，不计算精确概率，其决策依据是训练数据中“激进翻盘”案例的高频出现，而非对当前牌局的风险收益量化。与此相对，基于CFR、深度有限求解及神经网络估值等技术构建的专业扑克AI，如Libratus、Pluribus及近年多款商业与学术引擎，已在多人、不同筹码深度的复杂场景下达到或超过人类顶尖水平。GTO Wizard AI等商业工具已实现无抽象、无蓝图策略的实时多人底池求解，并在移动端提供基于神经网络的即时策略响应。知乎专栏作者在复现Pluribus过程中指出，德州扑克的数学模型正趋近完备，AI对游戏的“征服”呈渐进态势，人类与AI在变种游戏迭代中维持动态平衡。 狼人杀及国际象棋项目结果 狼人杀项目中，Gemini 3 Pro Preview排名第一，均衡评分0.10%；Gemini 3 Flash第二，GPT-5.2第三。国际象棋项目中，LLM多次出现违规走子、凭空添加棋子等违反基本规则的行为。 专家观点：LLM差距明显，但进步速度需关注 Liv Boeree在其播客节目《Win, Win》中与DeepMind工程师对谈。她表示，LLM当前与顶级人类扑克选手存在巨大差距，但AI整体进步速度极快，不应因此低估长期威胁。Boeree同时提出，训练LLM参与欺骗性游戏（狼人杀、扑克）是否可能诱导模型产生操纵性行为的伦理问题。 Polk在视频中以半开玩笑口吻表示，若AI仅此水平“没什么可担心”。扑克技术评论则指出，该表述存在误导：Kaggle赛事仅测试LLM这一AI子集在不适应领域的表现，无法反映求解器类AI及实时辅助工具（RTA）对线上扑克环境的实质性威胁。

德扑赛事

AI扑克挑战不过是个幌子

相关文章

GTO就是个陷阱，过度依赖的玩家都成了提款机！

周全夺下超级豪客赛冠军！

靠打高额私局年入数百万刀？！

最新文章

GTO就是个陷阱，过度依赖的玩家都成了提款机！

周全夺下超级豪客赛冠军！

靠打高额私局年入数百万刀？！