谷歌 TPU v8 解读谷歌把 AI 芯片一刀切成两半，一块专门用于训练大模型，

谷歌 TPU v8 解读

谷歌把 AI 芯片一刀切成两半，一块专门用于训练大模型，一块专门用于运行推理，因为这两项任务所需的硬件架构和核心需求已经完全不同。

训练芯片（8t）：追求极致规模

一口气可串联 13.4 万颗芯片进行大模型训练，最大规模还可进一步扩展至 100 万颗。

首次支持 4-bit 计算（FP4），在同等算力规模下，运算速度实现翻倍提升。

存储读取速度相比上一代产品快 10 倍，彻底解决芯片等待数据传输的核心痛点，实现数据与计算的高效匹配。

推理芯片（8i）：追求极致低延迟

芯片内部集成了 3 倍大的缓存，在 AI 对话等实时交互场景中，无需反复远距离调取数据，显著提升响应速度。

新增同步加速器（CAE），让多颗芯片协同工作时，彼此间的等待时间缩短 80%，大幅提升集群协作效率。

最关键的创新：互联拓扑重构

将传统的"邻居串门"式互联拓扑，升级为全员直连模式。

针对 MoE 模型，每个 token 可能需要调用任意专家模块，不再需要逐跳跳转，最多 7 跳即可到达任意芯片，传输效率比之前提升一倍。

核心突破并非单纯算力提升，而是架构分叉 —— 训练芯片（8t）采用 Torus 架构追求极致规模，推理芯片（8i）则通过 Boardfly 架构 + 同步加速器 + 大容量 SRAM，专攻低延迟需求。

MoE 模型改变了传统通信模式，推理集群全面采用 OCS 全互联技术。

隐藏关键细节：推理芯片的光路交换机（OCS）

推理芯片的"全员直连"互联，核心依赖光路交换机（OCS）。

光路交换机直接通过光信号进行连接切换，无需电信号转换，实现极低延迟传输。

此前光路交换机仅在训练集群使用，如今推理集群也全面部署，直接推动相关产业链市场空间翻倍。

谷歌第八代 TPU 对比上一代 Ironwood 核心提升

训练性价比提升 2.7 倍，推理性价比提升 1.8 倍，整体能效实现翻倍。

存储访问速度快 10 倍，片上缓存容量大 3 倍，多芯片协作等待时间缩短 5 倍。

芯片间互联带宽翻倍，数据中心骨干网带宽最高翻 4 倍。

全互联通信跳数从 16 跳降至 7 跳，减少 56% 的通信损耗。

推理芯片 HBM 容量从 216GB 提升至 288GB，带宽从 6528GB/s 提升至 8601GB/s。

集群规模从数万颗芯片扩展至 13.4 万颗，最大可连接 100 万颗芯片。

对英伟达的核心影响

若谷歌对外售卖 TPU，将对英伟达形成显著冲击，但真正威胁并非来自 TPU 产品本身。

核心威胁是 TPU 验证的"训练 / 推理分叉"路线，将被行业广泛采用。

行业共识显示，推理算力需求是训练的 3-5 倍，若推理市场被自研 ASIC 芯片逐步蚕食，英伟达的可触达市场规模将大幅缩水。

行业连锁反应

CSP 厂商纷纷开启自研芯片布局，达子（高端芯片）的稀缺性逐渐稀释，不再是唯一核心选择。

推理 ASIC 芯片迎来发展机遇，芯原和翱捷（刚成立子公司）将迎来业务发展的黄金时期。

工艺层面核心受益：天孚通信

推理芯片的 OCS 全互联技术，直接利好 OCS 产业链，其中天孚通信是核心受益标的。

OCS 核心部件为 MEMS 微镜阵列，天孚通信负责微镜的封装与光纤耦合工艺。

FAU 光纤阵列为天孚通信自产核心产品，OCS 的每个端口均需配备该部件。

天孚通信最新公告

公司配合客户开发 CPO 配套 FAU、ELS 产品，并持续增加产能，其核心客户即为谷歌、英伟达等全球顶尖科技企业。

公司 1.6T 光引擎已处于量产状态，目前因个别物料缺料暂未达到预期产量，正积极协调供应商，争取增加产品交付量。

其他 OCS 产业链受益标的

泡泡资讯网