这可能是预训练最被低估的一次创新

发布时间：2026-06-28 08:41:00 来源：神码知识网

作者：这可能是预训练最被低估的一次创新

这几年大家其实已经习惯了一套大模型的做法：先把一个很大的模型训出来，再通过剪枝、蒸馏、量化，把它往下压成不同尺寸的小模型。这条路一直能跑通，但问题也挺明显，你每多要一个版本，背后基本就多一轮成本，多一套适配，整个过程又重又慢。文心这次有意思的地方，是把这件事往前挪了一步。它不是先做一个大模型再拆，而是在训练的时候，就把不同规模的模型一起带着练，让模型在同一次训练里，直接长出多种形态。这个变化看着不大，但仔细想一下，其实有点不一样。以前更像先做一个成品，再慢慢裁版本，现在更像一开始就准备好多种展开方式，需要什么就直接拿。如果这条路跑得通，那变化可能不只是效率，而是大模型是怎么被做出来这件事本身，开始有点松动了。 #文心 #文心大模型 #文心5 #大模型 #人工智能 #行业观察 #互联网大厂