【模型更新】为什么Sora和OAI预期要出的记忆功能会成为对SSD的额外催化

丹萱谈生活文化 2025-10-08 16:52:35

【模型更新】为什么Sora和OAI预期要出的记忆功能会成为对SSD的额外催化 为什么存储(HBM+DRAM+SSD)的需求爆发是在25年年底? A: 核心在于“以存代算”(KV cache)思路下,单次推理的文本长度爆发对显存端产生极大需求。 目前模型端倾向于将Prefill阶段产生的KV cache缓存起来以减少decode阶段的计算消耗(MLA思路)。KV cache的大小除了由模型结构决定外,主要受到并发数与文本长度影响,24年底思维链爆发以来,海外长思维链范式下的超长上下文输入导致显存配置要求上升。在多级缓存背景下,一部分非活跃数据被分级存储到DRAM和SSD侧。总体看,SSD承接的是HBM外溢出来的存储需求。 为什么Sora和OAI预期要出的记忆功能会成为对SSD的额外催化 A: 过去的KV cache缓存都只是对单轮/多轮对话而做,存储周期不长,因此对显存要求不会太高。Sora 和记忆功能的发展会从两个不同的方向对SSD产生额外需求。 1)Sora的快速发展会让视频数据成为模型输入/输出主流,而视频相较文字具有更大token密度(两分钟视频近乎百万token输入),类似于上下文长度大幅上升。简单测算一下,当视频生成来到电影级的时候(2个小时),KV cache的大小会达到大几十t,存储需求向SSD外溢是必然的; 2)记忆功能的推出对SSD的拉动更加直接,过去KV cache只在单轮/多轮对话中做缓存,对话结束即清除缓存。记忆功能或者RAG的发展会使需要记忆的kv cache量得到极大提升,直接产生海量的SSD需求 记忆功能的出现对SSD的需求拉动会是什么级别? A: 简单用deepseek V3做一个测算来形容,目前单卡B200对DS的吞吐大约在2万token每秒,按照八卡服务器单日满负荷运转计算,一天大概产生近146亿token,共计需要大几百T的kv cache存储空间,而目前主流推理服务器大多是按64T方案配置,记忆功能的出现对存储需求会是巨量拉动。(仅做数量级参考,并非精确计算)

0 阅读:23
丹萱谈生活文化

丹萱谈生活文化

感谢大家的关注