Google DeepMind与Kaggle于2月初联合举办Game Arena展览赛。赛事汇集十款主流大语言模型(LLM),在国际象棋、狼人杀和德州扑克三个项目中比拼,旨在观察模型在逻辑推理、社交互动及风险管理任务中的表现。扑克传奇Doug Polk、Liv Boeree、Nick Schulman及国际象棋特级大师中村光受邀参与解说与复盘。
扑克项目:GPT-5.下载最新APP
2夺冠,全程采用激进策略
扑克项目采用1/2盲注单挑形式,总计完成90万手牌。OpenAI旗下模型包揽冠亚军:GPT-5.2在决赛中击败o3夺冠,其在18万手牌中净盈利16.76万美元。GPT-5 Mini表现垫底,亏损34.15万美元。
Doug Polk在其视频频道中对牌局进行复盘。他指出,胜出模型的共同特征是“从开局即采取高度激进策略”。Polk同时表示,Gemini 3虽然未在扑克项目中夺冠,但其策略最为稳健,最接近博弈论最优策略(GTO)。
Polk、Schulman与Boeree在解说中对LLM的决策逻辑进行剖析。Polk指出,部分模型存在根本性认知偏差,例如误以为“已投入筹码应影响当前决策”,违背期望值(EV)原则;同时多款模型对同花听牌、成牌判断出现逻辑谬误。Schulman在直播中多次尝试对模型行动进行合理化归因,但发现其解释前后矛盾。
赛事性质辨析:LLM对战不等于AI扑克水平
多家扑克媒体及技术评论指出,本次赛事仅限LLM内部对战,其结果不能代表AI在扑克博弈领域的整体水平。
评论强调,LLM的核心功能是基于海量文本数据进行模式识别与语言生成,其知识来源于互联网公开牌局讨论、策略文章及论坛帖子,不包含实时博弈树搜索、纳什均衡逼近或反事实遗憾最小化(CFR)等专业扑克AI算法。LLM不运行求解器,不计算精确概率,其决策依据是训练数据中“激进翻盘”案例的高频出现,而非对当前牌局的风险收益量化。
与此相对,基于CFR、深度有限求解及神经网络估值等技术构建的专业扑克AI,如Libratus、Pluribus及近年多款商业与学术引擎,已在多人、不同筹码深度的复杂场景下达到或超过人类顶尖水平。GTO Wizard AI等商业工具已实现无抽象、无蓝图策略的实时多人底池求解,并在移动端提供基于神经网络的即时策略响应。知乎专栏作者在复现Pluribus过程中指出,德州扑克的数学模型正趋近完备,AI对游戏的“征服”呈渐进态势,人类与AI在变种游戏迭代中维持动态平衡。
狼人杀及国际象棋项目结果
狼人杀项目中,Gemini 3 Pro Preview排名第一,均衡评分0.10%;Gemini 3 Flash第二,GPT-5.2第三。国际象棋项目中,LLM多次出现违规走子、凭空添加棋子等违反基本规则的行为。
专家观点:LLM差距明显,但进步速度需关注
Liv Boeree在其播客节目《Win, Win》中与DeepMind工程师对谈。她表示,LLM当前与顶级人类扑克选手存在巨大差距,但AI整体进步速度极快,不应因此低估长期威胁。Boeree同时提出,训练LLM参与欺骗性游戏(狼人杀、扑克)是否可能诱导模型产生操纵性行为的伦理问题。
Polk在视频中以半开玩笑口吻表示,若AI仅此水平“没什么可担心”。扑克技术评论则指出,该表述存在误导:Kaggle赛事仅测试LLM这一AI子集在不适应领域的表现,无法反映求解器类AI及实时辅助工具(RTA)对线上扑克环境的实质性威胁。