泡泡资讯网

谷歌 TPU v8 解读谷歌把 AI 芯片一刀切成两半,一块专门用于训练大模型,

谷歌 TPU v8 解读

谷歌把 AI 芯片一刀切成两半,一块专门用于训练大模型,一块专门用于运行推理,因为这两项任务所需的硬件架构和核心需求已经完全不同。

训练芯片(8t):追求极致规模

一口气可串联 13.4 万颗芯片进行大模型训练,最大规模还可进一步扩展至 100 万颗。

首次支持 4-bit 计算(FP4),在同等算力规模下,运算速度实现翻倍提升。

存储读取速度相比上一代产品快 10 倍,彻底解决芯片等待数据传输的核心痛点,实现数据与计算的高效匹配。

推理芯片(8i):追求极致低延迟

芯片内部集成了 3 倍大的缓存,在 AI 对话等实时交互场景中,无需反复远距离调取数据,显著提升响应速度。

新增同步加速器(CAE),让多颗芯片协同工作时,彼此间的等待时间缩短 80%,大幅提升集群协作效率。

最关键的创新:互联拓扑重构

将传统的"邻居串门"式互联拓扑,升级为全员直连模式。

针对 MoE 模型,每个 token 可能需要调用任意专家模块,不再需要逐跳跳转,最多 7 跳即可到达任意芯片,传输效率比之前提升一倍。

核心突破并非单纯算力提升,而是架构分叉 —— 训练芯片(8t)采用 Torus 架构追求极致规模,推理芯片(8i)则通过 Boardfly 架构 + 同步加速器 + 大容量 SRAM,专攻低延迟需求。

MoE 模型改变了传统通信模式,推理集群全面采用 OCS 全互联技术。

隐藏关键细节:推理芯片的光路交换机(OCS)

推理芯片的"全员直连"互联,核心依赖光路交换机(OCS)。

光路交换机直接通过光信号进行连接切换,无需电信号转换,实现极低延迟传输。

此前光路交换机仅在训练集群使用,如今推理集群也全面部署,直接推动相关产业链市场空间翻倍。

谷歌第八代 TPU 对比上一代 Ironwood 核心提升

训练性价比提升 2.7 倍,推理性价比提升 1.8 倍,整体能效实现翻倍。

存储访问速度快 10 倍,片上缓存容量大 3 倍,多芯片协作等待时间缩短 5 倍。

芯片间互联带宽翻倍,数据中心骨干网带宽最高翻 4 倍。

全互联通信跳数从 16 跳降至 7 跳,减少 56% 的通信损耗。

推理芯片 HBM 容量从 216GB 提升至 288GB,带宽从 6528GB/s 提升至 8601GB/s。

集群规模从数万颗芯片扩展至 13.4 万颗,最大可连接 100 万颗芯片。

对英伟达的核心影响

若谷歌对外售卖 TPU,将对英伟达形成显著冲击,但真正威胁并非来自 TPU 产品本身。

核心威胁是 TPU 验证的"训练 / 推理分叉"路线,将被行业广泛采用。

行业共识显示,推理算力需求是训练的 3-5 倍,若推理市场被自研 ASIC 芯片逐步蚕食,英伟达的可触达市场规模将大幅缩水。

行业连锁反应

CSP 厂商纷纷开启自研芯片布局,达子(高端芯片)的稀缺性逐渐稀释,不再是唯一核心选择。

推理 ASIC 芯片迎来发展机遇,芯原和翱捷(刚成立子公司)将迎来业务发展的黄金时期。

工艺层面核心受益:天孚通信

推理芯片的 OCS 全互联技术,直接利好 OCS 产业链,其中天孚通信是核心受益标的。

OCS 核心部件为 MEMS 微镜阵列,天孚通信负责微镜的封装与光纤耦合工艺。

FAU 光纤阵列为天孚通信自产核心产品,OCS 的每个端口均需配备该部件。

天孚通信最新公告

公司配合客户开发 CPO 配套 FAU、ELS 产品,并持续增加产能,其核心客户即为谷歌、英伟达等全球顶尖科技企业。

公司 1.6T 光引擎已处于量产状态,目前因个别物料缺料暂未达到预期产量,正积极协调供应商,争取增加产品交付量。

其他 OCS 产业链受益标的

腾景、赛微、光库等企业,同样具备 OCS 产业链受益逻辑,将同步分享行业发展红利。