“The Information：OpenAI 工程师发现了推理优化技术，这些优

“The Information：OpenAI 工程师发现了推理优化技术，这些优化使运行现有模型的成本减少了一半以上。当这些优化应用于没有免费或付费账户的 ChatGPT 访客时，系统一度只需几百个 Nvidia GPU。”

---

目前没有推理成本优化方式有四种：

量化压缩、KV缓存、批量处理、模型路由分片，而且四类效果是乘法叠加的

量化压缩（FP8/FP4/INT4）可以把单卡吞吐量提升1.3-4倍；连续批处理和KV缓存复用能把GPU利用率从行业常见的20-40%拉到70-80%以上；模型路由是把简单请求分流给更小更快的模型或分片。

这几项技术叠加，在工程层面实现成本减半并不夸张，DeepSeek、Groq都已经用类似组合证明这一点。

阅读：0 点赞：0

泡泡资讯网