发了篇技术博客：下一代大模型推理网络架构：ZCube如何有效破解网络瓶颈？阅读在

发了篇技术博客：下一代大模型推理网络架构：ZCube如何有效破解网络瓶颈？阅读在这里：www.zhipuai.cn/zh/research/160“大模型推理正在重新定义 AI 基础设施。网络，已不再是过去的支撑性基础设施，而是演变为决定大模型推理系统吞吐、尾时延与 MaaS 综合成本的关键变量。针对 PD 分离部署中日益严峻的结构性网络拥塞难题，智谱、驭驯网络与清华大学开展联合攻关，提出并在线上生产环境落地了 ZCube 组网架构。实践表明，架构层的系统创新，是释放硬件潜能最经济、最优雅的路径。在 GLM-5.1 coding 生产环境的基准测试中，ZCube 实现了纯粹靠架构调优带来的跨越：

成本优化： GPU、软件栈及应用保持不变，交换机与光模块资本支出减少 33%；吞吐提升： GPU 平均推理吞吐提升 15%；时延改善： TTFT P99 降低 40.6%。

拥塞的根源在于推理流量模式的变化。随着 PD 分离成为主流，KV Cache 的跨节点传输使推理流量呈现出源端、目的端和流量规模动态变化的不对称特征。传统 ROFT（Rail-Optimized Fat-Tree）架构的静态拓扑与端口映射，极易引发局部热点、队列堆积和 PFC 反压，进而形成“总带宽宽裕、局部频繁拥塞”的结构性问题。ZCube 的破局之道在于“以动制动”，采用全网扁平化拓扑，结合单/多轨混合接入机制，在结构层面对 PD 流量进行全局解耦与离散化路由，从根本上降低了结构性拥塞的发生概率，为下一代超大规模推理集群提供了更高效的网络底座。”AI创造营

泡泡资讯网

发了篇技术博客：下一代大模型推理网络架构：ZCube如何有效破解网络瓶颈？阅读在

热门分类