泡泡资讯网

DeepSeek V4遇冷背后:我们到底需要一个怎样的AI伙伴?

你有多久没被一个新的AI大模型刷屏了?和去年那种每一次参数更新都像过节的气氛完全不同,最近这两周,即使是被很多人寄予厚望

你有多久没被一个新的AI大模型刷屏了?

和去年那种每一次参数更新都像过节的气氛完全不同,最近这两周,即使是被很多人寄予厚望的DeepSeek V4发布,行业里也弥漫着一种“知道了,然后呢?”的冷静。开发者社区里,大家好像达成了一个无声的共识:不再追捧模型本身,而是把热情倾注到了另一个更具体、也更“接地气”的东西上。

这背后藏着一个远比技术参数更值得我们琢磨的变化——AI行业竞争的底层逻辑,已经悄悄换轨了。

一、基准测试的“高分低能”陷阱,与实际工作流的鸿沟

说实话,DeepSeek V4当然是个很强的模型。无论从代码能力、复杂推理还是长上下文理解来看,相较于去年的V3,它都迈出了肉眼可见的台阶。在别家模型跟风涨价的当下,它甚至是少数主动把价格打下来的“搅局者”,维持着很高的性价比。

但问题就出在这儿。

曾经让整个行业肾上腺素飙升的基准测试排行榜,正在经历一场前所未有的信任危机。去年新模型发布,社交媒体能吵翻天的还是“MMLU又超过了谁”、“SWE-Bench刷新纪录”、“人类评估又涨了多少分”……如今,你很少再听到有开发者拿这些说事儿了。

不是测试本身没价值,而是大家被坑怕了。“考高分但干不了活”的模型,你我都见过不少。Benchmark就像一个设计精良的标准化考场,但真实世界的软件开发,是一个充满混乱、意外和各种非标准化需求的工地。半导体和AI研究机构SemiAnalysis最近那份横向对比GPT-5.5、Claude 4.7和DeepSeek V4的报告就很说明问题,他们很客气地指出,V4是“成本很低的替代方案”,但随即补了一句扎心的话:“其能力尚未达到领先水平”。

这话翻译过来就是:你很好,但在解决复杂实际问题时,还没好到能和一线选手掰手腕的程度。

更深的矛盾点在于,我们衡量“便宜”的方式该变一变了。过去大家盯着每百万Token的定价单比来比去,这很直观,但很不合理。前媒体人、开发者王博源在社交平台X上分享过一个真实经历:一个他用某家国内头部模型折腾了半天都没搞定的问题,切换到Codex,一次就跑通了。墨问西东创始人池建强也有同感,Claude Code反复尝试两次都拿不下来的任务,Codex一次搞定。

你想想看,这里面的成本怎么算?一个模型可能Token单价低,但它在无效推理、错误重试、反复调试中消耗的Token量和开发者时间,是另一个效率模型的几十倍。这时候的“便宜”,恐怕反而是个昂贵的陷阱。OpenAI在发布GPT-5.5时,着重强调的一个升级点就是“效率”,能用少得多的Token完成同样复杂的任务。这才是成本竞争的真正主战场。

二、聊“Codex”的人,

远比聊“GPT-5.5”的多

现在去逛一圈海内外技术论坛,你会看到一个很有意思的现象:大家已经不怎么提GPT-5.5、Claude 4.7或者DeepSeek V4这些底层模型的名字了。取而代之的,是另一个更响亮的名号——Codex、Claude Code。

有人说“我现在用Codex写代码”,而不是“我用GPT-5.5”。有人说“Claude Code帮我重构了这个模块”,而不是“Claude 4.7很棒”。听起来只是称呼的习惯,但这恰恰暴露了行业焦点的根本性迁移。

咱们拿一个真实的开发者日常来举例子。一个AI编程工具要真正好用,不能只会在对话框里给一段代码。它得能理解整个项目的文件结构,知道我改了A文件可能会影响到B和C;它得能自己调用终端命令,运行测试,遇到报错后别傻站着,得自己琢磨着换个思路修bug;最关键的,它得在整个持续一两小时的任务中,牢牢记住我们最初的目标和每一步操作,不能失忆。

这考验的,远不止“模型推理能力”这一项。开发者Vladimir在深度使用了1443万Token的DeepSeek V4后,给出了一个相当尖锐的评价:V4的单点智能其实不错,接近GPT-5.2/5.3的水平,但它有个致命伤——经常忽略系统级的Agent指令文件,你得像个严厉的监工一样,强制它使用特定的工具和框架才能干活。

这就像你招了一个极其聪明的、在智商测试里能拿满分的实习生,但他偏偏我行我素,不遵守团队的工作流程,不肯学习公司的项目管理工具,总是凭自己的直觉瞎搞。你会觉得他“好用”吗?

而Codex、Claude Code这类产品解决的,就是这个“从聪明到能干”的飞跃。它们为模型强大的大脑,装上了一整套包含工具使用、长期记忆、任务拆解、错误恢复和多Agent协同的“神经系统”和“运动系统”。SemiAnalysis在报告中直接点破了这层窗户纸:“真正完整的产品是运行框架+模型。缺了其中任一个,你就有所欠缺。”

说到底,开发者选择Codex,选的不只是GPT-5.5的内核,更是围绕它建立的那一套稳定、高效、极其擅长处理长程任务的工作流程。这是一套系统工程,是真正的护城河。

三、从“AI聊天”到“Agent操作系统”,DeepSeek缺了什么

把时间倒回ChatGPT刚席卷全球的2023年,整个行业都在完美复刻“对话”。那时的终极目标,是让AI更像人,说话更聪明、更自然、更有人情味。模型本身的参数和能力是万众瞩目的唯一焦点。

但你现在再来看,AI的叙事重心,正在从“Chat”彻底转向“Work”。这个转变一发生,竞争的底层逻辑就全变了。以前,模型公司最重要的事是把引擎打磨得马力强劲;现在,比马力更迫切的,是怎么给这台引擎装上四个轮子、一套转向系统和一套可靠的刹车,让它真正能上路拉着货跑起来。

这也是为什么最近一年,Agent(智能体)、Workflow(工作流)、Context Engineering(上下文工程)这些术语井喷式出现。它们瞄准的都是同一个终极问题:如何让AI真正参与生产流程,成为一个能交付价值的数字员工。

你甚至会听到行业里有一种越来越响的声音:AI编程的竞争,早已不是大语言模型的竞争,而是Agent操作系统的竞争。

从这个视角再看,就能理解OpenAI和Anthropic的布局有多深了。它们的策略是,从最底层的模型到最上层的Agent框架,全部做垂直整合。自家的模型在自家打磨多年的工作流上跑,那种丝滑和稳定,是第三方模型无论如何也达不到的。尤其是在长任务里,Claude Code给人的感觉,已经很像一个可以放心交出去、让它自主推进工作的助手了。

而OpenAI前两天官宣的数据更直观地验证了这个判断:GPT-5.5发布一周,API收入增速是以往任何版本的两倍多,而Codex这个产品本身,在不到七天内收入翻倍。这种优势,如今正从编程领域溢出,流向更宽广的办公自动化、金融、科研等Agent应用场景。Claude Code刚刚推出了专为银行和金融服务企业量身定制的AI Agent,Codex则在强调自己在研究、文书、会计等等“桌面上”的工作能力。

DeepSeek V4,现在就尴尬地卡在了这条逻辑裂缝里。它在模型层面追上了行业的前沿,但还缺少一个属于它自己的“Codex”—— 一个由官方深度理解模型脾性、进行垂直整合开发的Agent框架。

当然,开源社区的嗅觉也很灵敏。GitHub上已经有人推出了基于V4开发的终端编程Agent,叫做DeepSeek TUI,支持Skill和不少常见功能。但这终究是第三方的作品,对V4底层特性的理解和利用,几乎不可能与官方团队相提并论。它更像是一个充满热情的“自制插件”,而不是一部原厂出厂、调校精良的完整机器。

四、结语:下一程的门票

话说回来,DeepSeek V4的“遇冷”并非一件绝对的坏事。它像一面镜子,清晰映照出整个AI行业从“技术狂热崇拜”走向“价值务实落地”的关键转折。开发者不再为一个个跑分数字欢呼,而是冷静地计算着自己投入的时间和最终成果的产出比。

我们或许正在经历一个伟大的“枯燥期”。那些浮在表层的泡沫和喧嚣退去,露出底下坚实、但显然也困难得多的地基。竞争不再只关乎谁更聪明,更关乎谁更能“干活”。

对DeepSeek而言,打造一个强模型的能力已经得到了反复验证。但下一程的门票,可能藏在那句源自开发者社区的诚恳期待里:“DeepSeek,是时候打造你自己的Codex了。”这不止是一个产品的缺失,更是一种从底层模型到上层应用、完整价值闭环的缺失。

最终,我们会记住的,不会是那些在排行榜上闪耀过一瞬间的分数,而是那些真正改变了我们工作方式、让我们从重复劳动中解脱出来的“工作伙伴”。

那么,如果用一句话来总结你最近的感受,当你在工作中谈论AI时,你更多是在谈论一个惊艳的模型,还是一套趁手的工具?欢迎在评论区聊聊你的亲身体会。