文章详情

专注互联网科技,赋能企业数字化发展

这可能是预训练最被低估的一次创新

作者:这可能是预训练最被低估的一次创新

这几年大家其实已经习惯了一套大模型的做法: 先把一个很大的模型训出来, 再通过剪枝、蒸馏、量化,把它往下压成不同尺寸的小模型。 这条路一直能跑通, 但问题也挺明显, 你每多要一个版本, 背后基本就多一轮成本, 多一套适配, 整个过程又重又慢。 文心这次有意思的地方, 是把这件事往前挪了一步。 它不是先做一个大模型再拆, 而是在训练的时候, 就把不同规模的模型一起带着练, 让模型在同一次训练里, 直接长出多种形态。 这个变化看着不大, 但仔细想一下, 其实有点不一样。 以前更像先做一个成品, 再慢慢裁版本, 现在更像一开始就准备好多种展开方式, 需要什么就直接拿。 如果这条路跑得通, 那变化可能不只是效率, 而是大模型是怎么被做出来这件事本身, 开始有点松动了。 #文心 #文心大模型 #文心5 #大模型 #人工智能 #行业观察 #互联网大厂

返回新闻列表