泡泡资讯网

推理慢吞吞,费用又烫手?DeepSeek和Kimi找到一套省钱解法了

你有没有想过一个问题:当你深夜跟AI助手聊了半天、让它帮你写完了几十页的方案,背后那个模型消耗的算力成本,到底是靠什么撑

你有没有想过一个问题:当你深夜跟AI助手聊了半天、让它帮你写完了几十页的方案,背后那个模型消耗的算力成本,到底是靠什么撑住的?

实际上,这可能就藏在一项叫MLA的技术,和一个叫Muon的优化器里。而更有意思的是,这两个东西,分别来自两家看似竞品的中国AI公司——一家是深度求索(DeepSeek),一家是月之暗面(Kimi)。

就在全球开发者还在惊叹中国开源模型爆发力的时候,一个细节被人从技术报告里翻了出来:DeepSeek的架构,用在了Kimi身上;Kimi的优化器,写进了DeepSeek的训练配方。没打官司,没授权费,也没敲锣打鼓。两家公司就这么安安静静地,完成了一次技术层面的双向奔赴。

这么说吧,这种“你的就是我的,我的也是你的”的默契,放在硅谷那个圈子里,基本算是天方夜谭。可在中国AI这条路上,它反而成了一种顺理成章的选择。

一、一场没有协议的“技术换肾”

先讲两个具体的硬核技术,你不用怕看不懂,我尽量用人话讲透。

DeepSeek在它那篇震动全球的技术报告里,提出了一个叫MLA(Multi-head Latent Attention,多头潜在注意力)的架构。简单来说,大模型推理时最烧钱的环节之一,就是存储和读取一种叫“KV缓存”的海量临时数据——每次对话回答一个字,模型都得把所有历史上下文的KV缓存再翻出来读一遍,长度越长,计算量暴增。

MLA干的事,相当于给这些缓存做了一套极致压缩算法,压缩完体积小很多,但关键信息几乎不丢。这直接让推理成本砍下来一大截。你可别小看这点成本,它决定了你的AI助手到底是继续免费,还是明天就开始按字数收费。

而Kimi在研发K2模型的时候,面临一个巨大的难题:要让AI自主完成复杂的长周期任务,比如花几个小时帮你扒完一个行业的全部资料再写份报告,需要能同时处理超长上下文和多个并发任务。推理成本太高的话,这事就没法商业化。于是,K2的技术团队毫不犹豫地沿用了MLA架构,把KV缓存的体积压了下来,为后续那种“300个Agent同时干活”的集群能力扫清了推理瓶颈。

反过来看,Kimi在训练K2这个万亿参数巨兽时,率先大规模验证了一个叫Muon的优化器。这个东西解决的是另一头的痛苦:万亿参数模型训练极不稳定,效率低得吓人,同样的训练量,搞不好别人能出活,你还在一遍遍重来。Muon的引入,实现在同等训练量下效率近乎翻倍的效果——也就是说,把50万亿token的数据用出了约100万亿token的效用。

然后重点来了。在DeepSeek随后发布的新模型技术报告里,Muon优化器被明明白白地写进了训练方案。你用我的结构降推理成本,我用你的优化器省训练花销。没有大佬组局撮合,没有资本推动合并,纯粹是因为大家走开源这条路,技术方案本就摆在那里——你觉得好用,拿去就是;我看了你的验证结果,跟进就是。

这是典型的“开源飞轮”:任何一点技术创新,被验证后都能迅速外溢到整个生态,谁先趟了坑,整个社区都能绕过去。而闭源阵营呢?别说用别人的技术了,连看一眼都可能被律师函警告。

二、两头困兽的硅谷,和这边冷静的“组网”

你可能会想,这种协同难道不是自然而然的事吗?还真不是。看看大洋彼岸就知道了。

从2023年到2026年,OpenAI和Anthropic的关系,用“死对头”来形容都算温和了。Anthropic的核心班子本身就是从OpenAI出走的一群人,当年因为安全和商业化理念不合,直接另立门户对着干。到了2026年4月,多家权威财经媒体披露,Anthropic的年化经常性收入(ARR)已经非常接近甚至可能反超OpenAI,具体数字在各自官方披露前仍存市场测算差异,但两家的贴身缠斗格局已经非常清晰——OpenAI背靠微软的算力资金垄断高端市场,Anthropic则依靠谷歌的投资夹缝扩张,双方不但技术完全隔绝,甚至在人才挖角、专利诉讼上白热化。据《华尔街日报》等媒体的报道,OpenAI内部甚至被曝出过明确将对方锁定为头号直接竞争对手的备忘录,严防死守的级别拉满。

为什么会这样?原因很直接:闭源的命根子是技术壁垒。模型本身是赚钱的核心工具,一旦开源共享,护城河立马就塌了。这个蛋糕就这么大,你多吃一口,我就少吃一口。不是你死我活,难道还商量着分?

但中国AI军团面对的是什么现实?算力被卡脖子,高端芯片获取受限。在这么一个大前提下,如果你还搞互相封锁、重复造轮子那一套,那就不是不聪明了,是会在赛道上被整个甩开。所以,DeepSeek和Kimi的默契,表面看是情怀,实际上是极其务实的战略:大家都把东西拿出来,每一次创新都快速全行业复用,把整个生态的底座垫高,合力顶开闭源厂商的高昂定价权。

我记得以前看过《麻省理工科技评论》的一篇分析,提到开源模型正在以指数级的速度缩小与闭源顶尖模型的差距,而其中的关键杠杆就是“社区协作的加速效应”。从现在中国这边的节奏看,这种效应已经不是纸面推演,而是货真价实的产业现实了。

三、一根网线的两端,两条路攻上同一座山

更值得聊聊的,是对国产芯片的适配。这也是让我觉得,这两家公司虽然路子不同,但目标出奇一致的地方。

DeepSeek走的是“工程适配”的硬核路线。它很早就完成了与华为昇腾芯片的深度适配。这个适配不是装个驱动那么简单,而是整个技术栈的重写:从底层的算子库,到通信原语,再到内存管理,几乎每一层都得重新打磨。业内技术社区的一些分析指出,DeepSeek的工程师几乎从头到尾把原先基于CUDA的代码迁移到了华为的CANN框架上。除此之外,它甚至还较早地完成了与寒武纪芯片的Day 0适配,代码直接开源。这意味着什么?相当于用公开的作业告诉大家:国产芯片可以跑万亿参数旗舰模型,不用非得死磕英伟达。

Kimi则更像是一位“架构上的改良派”。为了适配国产芯片集群,K2模型掏出了几样东西:一个是混合注意力架构,把线性注意力和标准全注意力按一定比例混合。在长上下文推理中,这种架构能把KV缓存减少大约75%,解码速度提升数倍。这么做有个非常实际的好处——它大幅降低了对超高速RDMA网络的依赖,让那个过去被认为是标配的高端互联从“必选项”变成了“可选项”。

另一个技术叫PrFaaS,思路也很巧妙。它把推理过程的“预填充”和“解码”两个阶段彻底解耦,然后调度到不同的异构硬件上。算力强的国产芯片就专门做预填充,带宽强的国产芯片专门做解码。传统方式下所有的活都绑在同一种GPU上,现在拆开了,各自扬长避短。根据技术社区流出的测试,这套部署方式相比传统同构部署,吞吐量能提升超过50%,延迟显著下探。这种打法,直接动摇了“大模型推理必须绑定昂贵高端GPU”的固有模式。

你仔细品一下,一个是从工程落地层面告诉你“国产芯片能跑”,另一个是从底层架构层面证明“我不但能跑,还能跑得很聪明”。两条技术路径各自闭环,但最后都通向同一个终点:让中国AI的算力底座,不再全系捆绑在海外的供应链风险之上。

连英伟达CEO黄仁勋都曾经在公开场合说过类似担忧的话,大意是如果深度求索的模型率先在华为的平台上发布,将是一件极具冲击力的事情。如今,这种冲击不止来自一家公司,而是一个正在成型的生态。

四、从“参数军备竞赛”到“开源效率战”

走到这一步,你会发现一个转折已经悄悄完成:过去大家习惯于比谁的模型参数多、榜单得分高,但现在真正的分水岭变成了——谁能把创新技术以最快的速度融入整个开源生态,并降低真实的落地成本。

DeepSeek和Kimi的这轮技术互动,还催生出另一个维度的影响,那就是对全球AI定价权的重塑。高人力高算力成本的闭源模型,原本可以靠着领先一小步的优势定高价,但开源模型通过MLA、MoE架构、先进的优化器这些技术集合,实现了接近同等水平的智能表现,同时把单次推理的绝对成本打到了闭源厂商难以跟进的区间。根据一些开发者调研社区的粗略反馈,在长上下文处理这个特定任务上,开源方案的成本优势已经不是一倍两倍,而是量级上的差异。

更要紧的是,这种模式像一台抽水机,把全球大量开发者的注意力从封闭的API调用,重新吸回到可自主部署、可自我精细调校的开源模型上。当百万token的上下文窗口在开源社区里逐渐变成“标配”而非“奢侈品”的时候,市场对闭源厂商的说辞自然会打上问号。

你想想看,这个过程,像不像当年安卓系统通过开源,逐步瓦解了那些闭源移动操作系统的定价权和生态锁定?只不过这一次,换成了大模型。

不过话说回来,开源路线也不是没有隐忧。一个是持续的研发投入需要资金支持,尽管类似DeepSeek和Kimi背后的公司都有资本和大厂资源,但长期用爱发电不现实,如何让开源与商业可持续并行,是后续需要踏踏实实解决的课题。另一个是,开源带来的技术扩散,也容易被海外机构直接复用甚至闭源封装,如何保证创新源头的持续激励,同样需要行业层面的规范探讨。但这些挑战,至少暂时没有盖过它所释放的巨大能量。

五、写在最后

当硅谷那边还在为了市场份额和人才打得不亦乐乎的时候,中国这群做AI的人,用了一种近乎质朴的方式完成了协同进化。这或许源于某种共同的压力,也或许源于更务实的生存智慧。

一个行业的壁垒,如果从物理上的芯片封锁,慢慢转向架构效率的竞争;如果从闭源的神秘黑箱,慢慢转向开源的普惠生态,那么真正的风暴其实才刚刚开始。而中国开源大模型在这个新格局里,可能不会是唯一的角色,但已经是一个绕不开的关键变量。

我不知道未来全球AI会不会彻底走向多极化,也不知道这种兄弟连式的默契能持续多久。但至少这个阶段,我看到了一个比零和博弈更有生命力的模式正在长出来。

你呢?在你平时使用AI的过程中,会特意去区分背后是开源模型还是闭源模型吗?评论区聊聊你的真实感受。