文章详情

专注互联网科技,赋能企业数字化发展

ooenai让推理成本减半的方法

作者:ooenai让推理成本减半的方法

the information报道知情人士说openai找到了一种可以让推理成本减半的方法。 原来某些问题可能需要很多张 Nvidia GPU 协同处理,现在通过优化,部分场景可以把 GPU 需求压得很低。文中最抓人的例子是:之前可能要十几张 Nvidia 芯片处理的请求,现在一张芯片就能处理。 但具体如何实现的,没有披露,但文章有几个猜测: quantization:把模型权重用更低精度表示,减少计算和显存压力。 key-value caching / KV cache:让模型记住前面已经算过的信息,不用每次从头重复计算。 batching:把多个用户请求合并起来一起跑,提高 GPU 利用率。 routing:把简单问题交给更省电、更便宜的模型或模型部分来回答。 换言之,这种降本有一部分来自可能压缩模型质量的技术,所以文章对其在未来大模型上能否广泛复用保持谨慎。未来模型越来越复杂,优化空间可能变小。高端任务对答案质量更敏感。如果降成本以牺牲回答质量为代价,可能伤害产品竞争力。 文章也提到 OpenAI 和 Broadcom 合作自研芯片,试图找到更便宜的 inference 硬件路径。这个芯片重点更偏推理,不是训练大模型。如果成功,OpenAI 的单位推理成本会进一步下降。

返回新闻列表