推理慢吞吞，费用又烫手？DeepSeek和Kimi找到一套省钱解法了

你有没有想过一个问题：当你深夜跟AI助手聊了半天、让它帮你写完了几十页的方案，背后那个模型消耗的算力成本，到底是靠什么撑住的？

实际上，这可能就藏在一项叫MLA的技术，和一个叫Muon的优化器里。而更有意思的是，这两个东西，分别来自两家看似竞品的中国AI公司——一家是深度求索（DeepSeek），一家是月之暗面（Kimi）。

就在全球开发者还在惊叹中国开源模型爆发力的时候，一个细节被人从技术报告里翻了出来：DeepSeek的架构，用在了Kimi身上；Kimi的优化器，写进了DeepSeek的训练配方。没打官司，没授权费，也没敲锣打鼓。两家公司就这么安安静静地，完成了一次技术层面的双向奔赴。

这么说吧，这种“你的就是我的，我的也是你的”的默契，放在硅谷那个圈子里，基本算是天方夜谭。可在中国AI这条路上，它反而成了一种顺理成章的选择。

一、一场没有协议的“技术换肾”

先讲两个具体的硬核技术，你不用怕看不懂，我尽量用人话讲透。

DeepSeek在它那篇震动全球的技术报告里，提出了一个叫MLA（Multi-head Latent Attention，多头潜在注意力）的架构。简单来说，大模型推理时最烧钱的环节之一，就是存储和读取一种叫“KV缓存”的海量临时数据——每次对话回答一个字，模型都得把所有历史上下文的KV缓存再翻出来读一遍，长度越长，计算量暴增。

MLA干的事，相当于给这些缓存做了一套极致压缩算法，压缩完体积小很多，但关键信息几乎不丢。这直接让推理成本砍下来一大截。你可别小看这点成本，它决定了你的AI助手到底是继续免费，还是明天就开始按字数收费。

而Kimi在研发K2模型的时候，面临一个巨大的难题：要让AI自主完成复杂的长周期任务，比如花几个小时帮你扒完一个行业的全部资料再写份报告，需要能同时处理超长上下文和多个并发任务。推理成本太高的话，这事就没法商业化。于是，K2的技术团队毫不犹豫地沿用了MLA架构，把KV缓存的体积压了下来，为后续那种“300个Agent同时干活”的集群能力扫清了推理瓶颈。

反过来看，Kimi在训练K2这个万亿参数巨兽时，率先大规模验证了一个叫Muon的优化器。这个东西解决的是另一头的痛苦：万亿参数模型训练极不稳定，效率低得吓人，同样的训练量，搞不好别人能出活，你还在一遍遍重来。Muon的引入，实现在同等训练量下效率近乎翻倍的效果——也就是说，把50万亿token的数据用出了约100万亿token的效用。

然后重点来了。在DeepSeek随后发布的新模型技术报告里，Muon优化器被明明白白地写进了训练方案。你用我的结构降推理成本，我用你的优化器省训练花销。没有大佬组局撮合，没有资本推动合并，纯粹是因为大家走开源这条路，技术方案本就摆在那里——你觉得好用，拿去就是；我看了你的验证结果，跟进就是。

这是典型的“开源飞轮”：任何一点技术创新，被验证后都能迅速外溢到整个生态，谁先趟了坑，整个社区都能绕过去。而闭源阵营呢？别说用别人的技术了，连看一眼都可能被律师函警告。

二、两头困兽的硅谷，和这边冷静的“组网”

你可能会想，这种协同难道不是自然而然的事吗？还真不是。看看大洋彼岸就知道了。

从2023年到2026年，OpenAI和Anthropic的关系，用“死对头”来形容都算温和了。Anthropic的核心班子本身就是从OpenAI出走的一群人，当年因为安全和商业化理念不合，直接另立门户对着干。到了2026年4月，多家权威财经媒体披露，Anthropic的年化经常性收入（ARR）已经非常接近甚至可能反超OpenAI，具体数字在各自官方披露前仍存市场测算差异，但两家的贴身缠斗格局已经非常清晰——OpenAI背靠微软的算力资金垄断高端市场，Anthropic则依靠谷歌的投资夹缝扩张，双方不但技术完全隔绝，甚至在人才挖角、专利诉讼上白热化。据《华尔街日报》等媒体的报道，OpenAI内部甚至被曝出过明确将对方锁定为头号直接竞争对手的备忘录，严防死守的级别拉满。

为什么会这样？原因很直接：闭源的命根子是技术壁垒。模型本身是赚钱的核心工具，一旦开源共享，护城河立马就塌了。这个蛋糕就这么大，你多吃一口，我就少吃一口。不是你死我活，难道还商量着分？

但中国AI军团面对的是什么现实？算力被卡脖子，高端芯片获取受限。在这么一个大前提下，如果你还搞互相封锁、重复造轮子那一套，那就不是不聪明了，是会在赛道上被整个甩开。所以，DeepSeek和Kimi的默契，表面看是情怀，实际上是极其务实的战略：大家都把东西拿出来，每一次创新都快速全行业复用，把整个生态的底座垫高，合力顶开闭源厂商的高昂定价权。

我记得以前看过《麻省理工科技评论》的一篇分析，提到开源模型正在以指数级的速度缩小与闭源顶尖模型的差距，而其中的关键杠杆就是“社区协作的加速效应”。从现在中国这边的节奏看，这种效应已经不是纸面推演，而是货真价实的产业现实了。

三、一根网线的两端，两条路攻上同一座山

更值得聊聊的，是对国产芯片的适配。这也是让我觉得，这两家公司虽然路子不同，但目标出奇一致的地方。

DeepSeek走的是“工程适配”的硬核路线。它很早就完成了与华为昇腾芯片的深度适配。这个适配不是装个驱动那么简单，而是整个技术栈的重写：从底层的算子库，到通信原语，再到内存管理，几乎每一层都得重新打磨。业内技术社区的一些分析指出，DeepSeek的工程师几乎从头到尾把原先基于CUDA的代码迁移到了华为的CANN框架上。除此之外，它甚至还较早地完成了与寒武纪芯片的Day 0适配，代码直接开源。这意味着什么？相当于用公开的作业告诉大家：国产芯片可以跑万亿参数旗舰模型，不用非得死磕英伟达。

Kimi则更像是一位“架构上的改良派”。为了适配国产芯片集群，K2模型掏出了几样东西：一个是混合注意力架构，把线性注意力和标准全注意力按一定比例混合。在长上下文推理中，这种架构能把KV缓存减少大约75%，解码速度提升数倍。这么做有个非常实际的好处——它大幅降低了对超高速RDMA网络的依赖，让那个过去被认为是标配的高端互联从“必选项”变成了“可选项”。

另一个技术叫PrFaaS，思路也很巧妙。它把推理过程的“预填充”和“解码”两个阶段彻底解耦，然后调度到不同的异构硬件上。算力强的国产芯片就专门做预填充，带宽强的国产芯片专门做解码。传统方式下所有的活都绑在同一种GPU上，现在拆开了，各自扬长避短。根据技术社区流出的测试，这套部署方式相比传统同构部署，吞吐量能提升超过50%，延迟显著下探。这种打法，直接动摇了“大模型推理必须绑定昂贵高端GPU”的固有模式。

你仔细品一下，一个是从工程落地层面告诉你“国产芯片能跑”，另一个是从底层架构层面证明“我不但能跑，还能跑得很聪明”。两条技术路径各自闭环，但最后都通向同一个终点：让中国AI的算力底座，不再全系捆绑在海外的供应链风险之上。

连英伟达CEO黄仁勋都曾经在公开场合说过类似担忧的话，大意是如果深度求索的模型率先在华为的平台上发布，将是一件极具冲击力的事情。如今，这种冲击不止来自一家公司，而是一个正在成型的生态。

四、从“参数军备竞赛”到“开源效率战”

走到这一步，你会发现一个转折已经悄悄完成：过去大家习惯于比谁的模型参数多、榜单得分高，但现在真正的分水岭变成了——谁能把创新技术以最快的速度融入整个开源生态，并降低真实的落地成本。

DeepSeek和Kimi的这轮技术互动，还催生出另一个维度的影响，那就是对全球AI定价权的重塑。高人力高算力成本的闭源模型，原本可以靠着领先一小步的优势定高价，但开源模型通过MLA、MoE架构、先进的优化器这些技术集合，实现了接近同等水平的智能表现，同时把单次推理的绝对成本打到了闭源厂商难以跟进的区间。根据一些开发者调研社区的粗略反馈，在长上下文处理这个特定任务上，开源方案的成本优势已经不是一倍两倍，而是量级上的差异。

更要紧的是，这种模式像一台抽水机，把全球大量开发者的注意力从封闭的API调用，重新吸回到可自主部署、可自我精细调校的开源模型上。当百万token的上下文窗口在开源社区里逐渐变成“标配”而非“奢侈品”的时候，市场对闭源厂商的说辞自然会打上问号。

你想想看，这个过程，像不像当年安卓系统通过开源，逐步瓦解了那些闭源移动操作系统的定价权和生态锁定？只不过这一次，换成了大模型。

不过话说回来，开源路线也不是没有隐忧。一个是持续的研发投入需要资金支持，尽管类似DeepSeek和Kimi背后的公司都有资本和大厂资源，但长期用爱发电不现实，如何让开源与商业可持续并行，是后续需要踏踏实实解决的课题。另一个是，开源带来的技术扩散，也容易被海外机构直接复用甚至闭源封装，如何保证创新源头的持续激励，同样需要行业层面的规范探讨。但这些挑战，至少暂时没有盖过它所释放的巨大能量。

五、写在最后

当硅谷那边还在为了市场份额和人才打得不亦乐乎的时候，中国这群做AI的人，用了一种近乎质朴的方式完成了协同进化。这或许源于某种共同的压力，也或许源于更务实的生存智慧。

一个行业的壁垒，如果从物理上的芯片封锁，慢慢转向架构效率的竞争；如果从闭源的神秘黑箱，慢慢转向开源的普惠生态，那么真正的风暴其实才刚刚开始。而中国开源大模型在这个新格局里，可能不会是唯一的角色，但已经是一个绕不开的关键变量。

我不知道未来全球AI会不会彻底走向多极化，也不知道这种兄弟连式的默契能持续多久。但至少这个阶段，我看到了一个比零和博弈更有生命力的模式正在长出来。

你呢？在你平时使用AI的过程中，会特意去区分背后是开源模型还是闭源模型吗？评论区聊聊你的真实感受。

泡泡资讯网

推理慢吞吞，费用又烫手？DeepSeek和Kimi找到一套省钱解法了

热门分类