文章详情

专注互联网科技,赋能企业数字化发展

DeepSeek-R1 论文学习笔记📒

作者:DeepSeek-R1 论文学习笔记📒

DeepSeek R1论文地址:https://arxiv.org/abs/2501.12948v1 《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 》《DeepSeek-R1: 通过强化学习激励LLMs的推理能力 》 核心内容概述 背景:DeepSeek R1论文介绍了一种基于DeepSeek V3基础模型的改进方法,通过强化学习和监督微调,使模型在推理能力上接近OpenAI的GPT-3.5(01模型),并探讨了模型的推理能力和性能优化。 目标:通过强化学习和监督微调,使DeepSeek V3模型在推理任务上表现得更好,同时探索如何将这种能力迁移到更小的模型上。 研究方法与过程 基础模型: 使用DeepSeek V3作为基础模型,该模型是一个混合专家模型,开源且性能强大。 DeepSeek V3是DeepSeek R1的基础,但R1的改进主要集中在推理能力上。 强化学习(RL): 目标:通过强化学习使DeepSeek V3模型在推理任务上表现得更好,而不是从头开始训练一个推理模型。 方法:使用推理导向的强化学习,通过奖励函数和GRPO(Group Relative Policy Optimization)来优化模型的推理能力。 奖励函数:基于规则的奖励系统,没有使用批评模型(critic model),而是使用确定性的奖励函数来评估模型的输出。 GRPO:该方法来自之前的研究,通过优化策略来提高模型的推理能力,避免模型在训练过程中偏离基础模型太远。 监督微调(SFT): 在强化学习之前,使用监督微调对模型进行初步优化,使用了“Chain of Thought”(思考链)数据来训练模型,使模型的推理过程更符合人类的逻辑。 监督微调的目的是让模型在推理时更加连贯,尽管这可能会略微降低模型的性能。 数据生成与优化: 使用中间模型生成推理提示(prompt),并结合其他模型(如DeepSeek V3)作为“裁判”来评估生成的数据质量。 通过过滤和优化数据,生成更高质量的推理数据集,用于后续的训练。 模型性能评估: 在多个基准测试中评估模型性能,包括代码、数学问题、语言任务等。 #deepseek #deepseek模型

返回新闻列表