DeepSeek-R1 论文学习笔记📒

作者：DeepSeek-R1 论文学习笔记📒

DeepSeek R1论文地址：https://arxiv.org/abs/2501.12948v1 《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 》《DeepSeek-R1: 通过强化学习激励LLMs的推理能力》核心内容概述背景：DeepSeek R1论文介绍了一种基于DeepSeek V3基础模型的改进方法，通过强化学习和监督微调，使模型在推理能力上接近OpenAI的GPT-3.5（01模型），并探讨了模型的推理能力和性能优化。目标：通过强化学习和监督微调，使DeepSeek V3模型在推理任务上表现得更好，同时探索如何将这种能力迁移到更小的模型上。研究方法与过程基础模型：使用DeepSeek V3作为基础模型，该模型是一个混合专家模型，开源且性能强大。 DeepSeek V3是DeepSeek R1的基础，但R1的改进主要集中在推理能力上。强化学习（RL）：目标：通过强化学习使DeepSeek V3模型在推理任务上表现得更好，而不是从头开始训练一个推理模型。方法：使用推理导向的强化学习，通过奖励函数和GRPO（Group Relative Policy Optimization）来优化模型的推理能力。奖励函数：基于规则的奖励系统，没有使用批评模型（critic model），而是使用确定性的奖励函数来评估模型的输出。 GRPO：该方法来自之前的研究，通过优化策略来提高模型的推理能力，避免模型在训练过程中偏离基础模型太远。监督微调（SFT）：在强化学习之前，使用监督微调对模型进行初步优化，使用了“Chain of Thought”（思考链）数据来训练模型，使模型的推理过程更符合人类的逻辑。监督微调的目的是让模型在推理时更加连贯，尽管这可能会略微降低模型的性能。数据生成与优化：使用中间模型生成推理提示（prompt），并结合其他模型（如DeepSeek V3）作为“裁判”来评估生成的数据质量。通过过滤和优化数据，生成更高质量的推理数据集，用于后续的训练。模型性能评估：在多个基准测试中评估模型性能，包括代码、数学问题、语言任务等。 #deepseek #deepseek模型

文章详情

DeepSeek-R1 论文学习笔记📒

推荐阅读