大模型玩红警，经济满分却零战斗，它到底在怕什么？

这件事，说出来你可能不信。

一个能写诗、能编程、能解奥数题的顶尖大模型，被扔进咱们小时候玩的《红色警戒》里。你猜怎么着？

它没被敌人推平，也没造出钢铁洪流。它就干了这么一件事：疯狂造发电厂，然后把所有的钱，都用来……发呆。五局游戏，一场战斗都没发生。

这不是段子，这是最近Hugging Face开源的一个项目——OpenRA-RL，所记录下的真实测试结果。它像个无比诚实的考场，一脚踢开了AI训练的神秘大门，把大模型在“真实世界”里的笨拙、偏科和那一点点可爱，全抖露了出来。

说实话，看着报告里的描述，我脑子里突然闪过一个念头：这个只是在游戏里不肯出兵的AI，跟我那个在工位上对着复杂任务无从下手，只好一遍遍整理桌面的同事，还真有点像。

一、一个“经济满分，战斗零分”的AI，暴露了什么问题？

事情的经过是这样的。

一群研究者没去搞什么高大上的《星际争霸》，而是选择了更纯粹、更开放的《红色警戒》。他们用了一个32B参数的模型，就像给一个聪明绝顶但从未碰过游戏的毕业生一台电脑，连上了鼠标键盘。

第一局，你仿佛能听到AI在思考：“任务：击败对手。要击败对手，先得有资源。要资源，先得造发电厂。”于是，它兢兢业业地规划，勤勤恳恳地建造。它的经济体系运转得精密如瑞士钟表，8维奖励评分里，经济维度一度拿到0.8的高分，相当亮眼。

可是，战争评分那栏，是一串扎眼的零——没有生产一辆坦克，没有训练一个士兵。

第二局，它倒是懂得反思了。它在自己的“战后复盘”里一本正经地写下：这次失误了，应该先造发电厂，再造战争工厂。多好的学习能力！到第四局，开局顺序果然改了，一切尽在掌握。

但战斗评分，依旧是零。

这就好比一个学生，面对“打赢一场仗”的大题，他疯狂地练习列方程、理解题意，把草稿纸写得满满当当，但就是不写“答”。他沉迷于准备工作的完美闭环，却回避了核心问题本身——走出去，攻击。

这个发现，比AI输掉比赛要震撼得多。因为它用一种极其精确的方式，诊断出了当前大模型一个普遍的“行为模式”——我把这叫“精致的准备陷阱”。它不是不够聪明，而是面对开放环境里“何时冒险”的决策时，它本能地选择了那条最安全、最可量化的路径：搞建设。

平心而论，这能怪它吗？我们人类的很多“拖延症”，不也正是如此吗？把次要任务做得尽善尽美，来逃避那个最重要、最不确定、最需要承担风险的核心任务。

二、为什么非得是红警？这盘棋下得有多大？

你可能会问，打游戏而已，干嘛这么大惊小怪的？跑个分不就行了？

问题就出在“跑分”上。在固定数据集上考高分，和在充满不确定性的实时环境里做决策，完全是两码事。以前，像DeepMind训练AlphaStar打《星际争霸》，OpenAI训练Five打《Dota 2》，那是真正意义上的“大厂游戏”——几千块价值不菲的TPU，一套定制化的、普通人完全无法复现的架构。

用个不恰当的比喻，那就像是国家级的航天工程，虽然成果耀眼，但对普通研究者来说，连门都摸不到。而这次开源的OpenRA-RL，相当于把航天材料、发动机图纸和发射场，打包成一个工具箱，放在了一台家用电脑上。说白了，这是第一次把RTS（即时战略）游戏这块硬核的Agent（智能体）训练场，一脚踹到了平民门槛。

那么，为什么偏偏是《红色警戒》？

你想想看，一个前沿的大模型，不做任何专项训练，能在即时战略游戏里撑多久？在OpenRA-RL出现之前，这个问题连答案都没有。因为以前的RTS研究平台，默认你的AI是以毫秒级反应行动的“机器人”，而大模型是个“思考者”，它需要几秒甚至更长的“思考时间”。

硬把它们嫁接在一起，就如同让一位需要深思熟虑的围棋大师，去参加一场一秒十步的闪电战，结果毫无可比性。研究团队选择红警，核心原因很朴素：这个游戏的策略深度足够；其开源版本OpenRA代码干净，能被深度改造；而且游戏自带从新手到困难的AI对手，足够当一个合格的陪练。

更重要的是，他们用一套被戏称为“三明治”的架构，把问题彻底解耦了。底层是游戏引擎，以每秒25次的频率稳定跳动；中间层是桥梁，实时传递游戏画面和指令；最上层是智能体的“大脑”，可以是LLM（大模型）、脚本机器人，也可以是强化学习模型。

这意味着，以后任何人想测试他的新算法，不必再从头折腾一套环境。无论是用顶级闭源模型，还是你自己的PyTorch脚本，都在同一个考场上，零改动，平等较量。这才是这件事真正的分量：它提供了一个标准、开放、硬核的基准线。

三、看懂AI的“成绩单”：8维奖励带来的新视角

到此为止，如果我们只看最终胜负，这5局游戏都打成了平局，故事一句话就说完了，索然无味。

但OpenRA-RL最妙的地方在于，它不只看最终输赢。它提供了一个8维的奖励向量，就像一份详细的学习体检报告，而不是一句“没考好”。

这份报告里写得很清楚：经济维度得分0.58到0.8，相当不错，证明基建能力稳定；但是，“战斗”维度和“骚扰”维度，是干干净净的零分。这就精确地告诉我们，这个AI的“失败”不是随机的，它是一种明确的能力短板——它不会将经济优势转化为军事压力。

这个诊断有多重要呢？我给你打个比方。假设你想教一个孩子打篮球，以前你只能记录他赢了几场。现在你能看到：他的运球是80分，传球是75分，但投篮是0，篮板是0。那你下一步的训练计划，是不是该让他去练投篮了？

这就是课程学习：先从只需要“战斗”的简单场景开始，攻克零分项，然后一步步加入“经济”“科技”等其他要求。而不至于让AI迷失在所有任务同时压过来的复杂棋盘里。

更有意思的是，AI自己也在试图“学习”。记录显示，在第2局结束后的反思里，它自己总结出了“战争工厂应该建在发电厂后面”这个建造顺序错误。到了第4局，它的开局规划确实修正了这一点。这说明通过上下文进行的提示注入式学习，可以修复一些程序性的顺序错误。

但它就是填不上“战斗”这个零分的大坑。为什么？因为这背后需要一个更根本的转变：从“规避风险、执行最优建造顺序”的目标，转向“承担风险、促成战斗并获胜”的目标。这种目标级别的跃迁，恰恰是从上下文适应，到强化学习介入的地方——你需要更新模型自身的“权重”，让它真正“领悟”到，光闷头造基地是赢不了的。

四、开源的一小步，推开了一堵高墙

现在，让我们把镜头拉远，看看这件事在整个AI Agent研究领域意味着什么。

在OpenRA-RL之前，RTS游戏里的智能体研究是典型的“精英运动”。AlphaStar和OpenAI Five无疑是里程碑式的成就，但它们被锁在谷歌和OpenAI的服务器里，对全球99.9%的研究者来说，那是只能远观的科学传奇。传奇的意义在于激励，但不在于参与。

这个开源的训练场，就是把“参与”的门票塞进了每个人手里。你不需要几千块昂贵的处理器，一台消费级的显卡就足够；你不需要去理解那套不可复现的庞大定制架构，一行代码就能装上环境。

这意味着，一个研究生可以在自己的课题里，对比Qwen、Claude、还是一个小巧的PyTorch模型，在同一张地图、对阵同一个对手时，各自的表现和决策链路。他可以清晰地看到，一个脚本机器人是如何用40毫秒一步的反应碾压大模型，而大模型又是如何陷入“思考三秒，发呆一生”的窘境。

这堵墙被推倒后，会发生什么？我们可以大胆想象一下：

未来会有大模型的排行榜，不再是空洞的聊天评分，而是基于红警对战胜率的硬核天梯排行。将有两个模型的直接对抗，看看是“理解型AI”更强，还是“反应型AI”更快。基于那8维奖励，会出现专门训练“侵略性”或“资源运营”的课程体系。甚至，我们或许能看到AI在绝境下打出一套“偷天换日”的战术，那不是脚本，而是基于对规则和时机的“灵机一动”。

这才是强化学习真正该登场的时刻。之前，大模型只是在海量文本里学习“战争的描述”；现在，它得亲自去品尝战争的迷雾、资源的掣肘和决策的后果。OpenRA-RL给出的是一个公开的信号：RTS，这个曾经只属于顶级AI实验室的硬核试炼场，现在对所有人开放了。

探索的门票，终于不再只发给那些带着几千块处理器来的人。事实上，这就像是给整个AI社区发了一张游乐园的通票，所有人站在了同一起跑线上，接下来的故事会非常精彩。

五、回到我们：这场AI的“偏科”，离我们的生活有多远？

说实话，看到AI在红警里因为“磨叽”而拿到奇葩零分，我最初是觉得好笑的。但笑过之后，是一种微妙的、很难形容的复杂感觉。

因为它太像我们人类自己了。

我们多少人，在面对一个宏大、模糊、充满挑战的目标时，第一反应不是冲上去，而是退回到自己最擅长、最有安全感的“精细建造”里？写一份无比详尽的计划书，整理一个无比规整的文件夹，学习所有相关的理论，却没去打个最关键的电话，投出那份最核心的申请。

AI在经济维度上的高分，像不像我们“用战术上的勤奋，掩盖战略上的懒惰”？它写下的那些看似逻辑严谨的战后反思，像不像我们每次复盘时开脱自己的“理性分析”？它必须被强化学习“推一把”才能迈出战斗的那一步，像不像无数次站在人生路口，需要一个外部契机、一次硬性指标、一个截止日期，才肯做出改变的我们？

一个没有恐惧、不患得患失的AI，为何表现得如此“怯懦”？因为它没有真正的“欲望”，只有被量化的“目标”。在不确定的“战斗收益”和确定的“经济积攒”之间，它的计算结果是守住已有，而不是博取未知。而这，恰恰是人之为人的光辉与暗面——我们会为了一种信念、一股不服气、一个“万一成了呢”的念头，做出非理性、高风险的决断。

所以，看着那个在红警里对着基地发呆的AI，我们嘲笑的，也许正是自己内心那个犹豫不决的影子。而期待它终有一天能打出凌厉攻势的，也正是我们对自己突破惯性的期许。

这或许才是这个开源项目，带给我们的最深层的共情。它不止是关于一个AI如何在游戏里得分，更是关于一个决策系统，如何学会面对不确定性，做出勇敢的选择。

那么，你觉得，一个学会了“勇敢”和“偷袭”的AI，会是什么样子？

泡泡资讯网

大模型玩红警，经济满分却零战斗，它到底在怕什么？

热门分类