梁文锋又冲上热搜了! 这次既不是团队内讧也不是技术翻车。 反倒给AI圈扔了颗惊雷,而是他们居然又开发了新的模型! 麻烦看官老爷们右上角点击一下“关注”,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持! DeepSeek最近又搞事情了,这次不是官方发布会,而是被眼尖的开发者在GitHub代码库里抓了个现行,在FlashMLA的更新记录中,28处标注着"型号1"的痕迹格外显眼,跟现在用的V3.2模型代码并排放着,一看就不是随便测试用的东西。 去年1月20日,R1推理模型一炮而红,靠着超低成本直接杀进全球权威榜单前四名,让国产开源模型狠狠出了把风头,现在刚好满一年,行业正琢磨着DeepSeek要出什么新招,型号1就这么不声不响地冒出来,想不引起关注都难。 从技术层面看,这模型明显准备很久了,梁文锋1月12号发了篇论文,专门讲一个叫Engram的记忆模块,核心思路就是别把所有数据都塞进昂贵的GPU显存里,而是转到更便宜的存储设备上调用,型号1的代码里到处都是这种优化痕迹,什么KV缓存调整、FP8稀疏解码,明摆着是论文思路的实际落地。 更有意思的是架构变化,型号1放弃了V3.2的非对称设计,改回512维的标准架构,有人觉得这是倒退,但懂行的都明白这是精准卡位,这个设计刚好匹配英伟达新显卡布莱克韦尔B200,还能兼容国产芯片,普通服务器就能跑到90%以上的硬件利用率,比行业平均水平高出一大截。 代码细节透露的信息更劲爆,动态Top-K稀疏推理机制让模型学会只算关键信息,显存占用直接砍掉40%,额外的KV缓存区把系统提示和用户对话分开存储,以后处理长合同或者大型代码项目,再也不会出现前面说的话后面就忘了的尴尬。 这些技术突破背后,其实是DeepSeek在跟主流玩法较劲,硅谷那些公司还在拼命砸钱堆算力,DeepSeek偏偏走优化路线,去年R1的训练成本才二十多万美元,只有美国同类模型的零头,现在型号1更狠,显存占用降了七成,直接击中了很多企业的痛点,毕竟不是谁都有钱买顶配硬件。 市场反应也说明问题,消息传出来,港股存储板块直接闪崩8个点,投资者担心型号1太省显存会影响高端存储销量,虽然后来有人解释只是换了更便宜的存储类型,但这波动静足以证明这个新模型的冲击力有多大。 开源社区的态度同样值得玩味,去年R1开源后,中国模型在HuggingFace的下载量已经超过美国,现在型号1又放出来,肯定会吸引更多开发者,国内外不少人已经在用DeepSeek-V3做底座改模型,等型号1正式发布,这个生态圈只会更稳固。 从代码规格看,型号1跟V3系列完全是两条技术路线,内存调度细节都定死了,KV缓存的内存stride要求576B的整数倍,跟V3.2的656B差异明显,这些底层改动不是几天能搞定的,肯定是团队闷头开发了好几个月。 网上传言说2月中旬或者春节前后会正式发布,这时间卡得也挺准,春节后行业刚开工,关注度正高,发布新模型正好能抢到最大流量,再加上R1周年庆的余热还在,这波操作简直是把热度利用到极致。 DeepSeek这次展示的打法其实挺清晰,就是用技术创新去弥补资源差距,别人砸钱堆硬件,他们就优化算法降成本,这种思路在动辄谈万亿参数的今天,显得格外务实,如果型号1真能像传闻那样厉害,双RTX 4090就能跑顶级模型,那AI的使用门槛又要往下降一大截了。
