英伟达新发现RL Scaling！创造力暴涨

作者：英伟达新发现RL Scaling！创造力暴涨

1.过往争论：强化学习（RL）到底让语言模型学会了新推理能力，还是仅仅更高效地调用已有能力？ 2.例如：好比背单词：是词汇量真的扩大了，还是考试技巧提升了？ 3.论文提出ProRL（延长强化学习），让RL训练突破2000步以上，效果很强 1）基座模型死活解不开的题（如逻辑谜题），ProRL模型竟能100%通关！ 2）创造力暴涨：模型生成全新解题路径（通过Creativity Index量化） 3）延长RL训练会遭遇模型摆烂（熵坍塌）和性能倒退，团队用了一下方法稳住长期训练 4）基座模型表现越差的任务，RL提升越大，训练中未见的任务（如盒子搬运），ProRL模型轻松解决， 4.论文意义：低成本高智能：1.5B模型达到7B性能；免增训练数据：RL探索替代数据标注。论文：ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models链接：https://arxiv.org/pdf/2505.24864 #大模型 #创新驱动发展 #多模态人工智能 #算法 #机器学习 #人工智能发展 #人工智能未来 #英伟达 #ai #强化学习

文章详情

英伟达新发现RL Scaling！创造力暴涨

推荐阅读