文章详情

专注互联网科技,赋能企业数字化发展

英伟达新发现RL Scaling!创造力暴涨

作者:英伟达新发现RL Scaling!创造力暴涨

1.过往争论:强化学习(RL)到底让语言模型学会了新推理能力,还是仅仅更高效地调用已有能力? 2.例如:好比背单词:是词汇量真的扩大了,还是考试技巧提升了? 3.论文提出ProRL(延长强化学习),让RL训练突破2000步以上,效果很强 1)基座模型死活解不开的题(如逻辑谜题),ProRL模型竟能100%通关! 2)创造力暴涨:模型生成全新解题路径(通过Creativity Index量化) 3)延长RL训练会遭遇模型摆烂(熵坍塌)和性能倒退,团队用了一下方法稳住长期训练 4)基座模型表现越差的任务,RL提升越大,训练中未见的任务(如 盒子搬运),ProRL模型轻松解决, 4.论文意义:低成本高智能:1.5B模型达到7B性能;免增训练数据:RL探索替代数据标注。 论文:ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models链接:https://arxiv.org/pdf/2505.24864 #大模型 #创新驱动发展 #多模态人工智能 #算法 #机器学习 #人工智能发展 #人工智能未来 #英伟达 #ai #强化学习

返回新闻列表