泡泡资讯网

发了篇技术博客:下一代大模型推理网络架构:ZCube如何有效破解网络瓶颈?阅读在

发了篇技术博客:下一代大模型推理网络架构:ZCube如何有效破解网络瓶颈?阅读在这里:www.zhipuai.cn/zh/research/160“大模型推理正在重新定义 AI 基础设施。网络,已不再是过去的支撑性基础设施,而是演变为决定大模型推理系统吞吐、尾时延与 MaaS 综合成本的关键变量。针对 PD 分离部署中日益严峻的结构性网络拥塞难题,智谱、驭驯网络与清华大学开展联合攻关,提出并在线上生产环境落地了 ZCube 组网架构。实践表明,架构层的系统创新,是释放硬件潜能最经济、最优雅的路径。在 GLM-5.1 coding 生产环境的基准测试中,ZCube 实现了纯粹靠架构调优带来的跨越:

成本优化: GPU、软件栈及应用保持不变,交换机与光模块资本支出减少 33%; 吞吐提升: GPU 平均推理吞吐提升 15%; 时延改善: TTFT P99 降低 40.6%。

拥塞的根源在于推理流量模式的变化。 随着 PD 分离成为主流,KV Cache 的跨节点传输使推理流量呈现出源端、目的端和流量规模动态变化的不对称特征。传统 ROFT(Rail-Optimized Fat-Tree)架构的静态拓扑与端口映射,极易引发局部热点、队列堆积和 PFC 反压,进而形成“总带宽宽裕、局部频繁拥塞”的结构性问题。ZCube 的破局之道在于“以动制动”,采用全网扁平化拓扑,结合单/多轨混合接入机制,在结构层面对 PD 流量进行全局解耦与离散化路由,从根本上降低了结构性拥塞的发生概率,为下一代超大规模推理集群提供了更高效的网络底座。”AI创造营