ooenai让推理成本减半的方法

作者：ooenai让推理成本减半的方法

the information报道知情人士说openai找到了一种可以让推理成本减半的方法。原来某些问题可能需要很多张 Nvidia GPU 协同处理，现在通过优化，部分场景可以把 GPU 需求压得很低。文中最抓人的例子是：之前可能要十几张 Nvidia 芯片处理的请求，现在一张芯片就能处理。但具体如何实现的，没有披露，但文章有几个猜测： quantization：把模型权重用更低精度表示，减少计算和显存压力。 key-value caching / KV cache：让模型记住前面已经算过的信息，不用每次从头重复计算。 batching：把多个用户请求合并起来一起跑，提高 GPU 利用率。 routing：把简单问题交给更省电、更便宜的模型或模型部分来回答。换言之，这种降本有一部分来自可能压缩模型质量的技术，所以文章对其在未来大模型上能否广泛复用保持谨慎。未来模型越来越复杂，优化空间可能变小。高端任务对答案质量更敏感。如果降成本以牺牲回答质量为代价，可能伤害产品竞争力。文章也提到 OpenAI 和 Broadcom 合作自研芯片，试图找到更便宜的 inference 硬件路径。这个芯片重点更偏推理，不是训练大模型。如果成功，OpenAI 的单位推理成本会进一步下降。

文章详情

ooenai让推理成本减半的方法

推荐阅读