“The Information:OpenAI 工程师发现了推理优化技术,这些优化使运行现有模型的成本减少了一半以上。当这些优化应用于没有免费或付费账户的 ChatGPT 访客时,系统一度只需几百个 Nvidia GPU。”
---
目前没有推理成本优化方式有四种:
量化压缩、KV缓存、批量处理、模型路由分片,而且四类效果是乘法叠加的
量化压缩(FP8/FP4/INT4)可以把单卡吞吐量提升1.3-4倍;连续批处理和KV缓存复用能把GPU利用率从行业常见的20-40%拉到70-80%以上;模型路由是把简单请求分流给更小更快的模型或分片。
这几项技术叠加,在工程层面实现成本减半并不夸张,DeepSeek、Groq都已经用类似组合证明这一点。
