小组相对策略优化(GRPO)算法在DeepSeek R1的培训中起着至关重要的作用,通过简化的增强学习(RL)方法增强其推理能力。
grpo概述
GRPO是一种新颖的增强学习算法,它通过消除对单独的价值函数模型的需求来修改传统方法,例如近端策略优化(PPO),从而简化了训练过程并减少了内存使用情况。 GRPO不依靠评论家模型来评估产出,而是利用多个生成的输出之间的统计比较来评估相对于组平均值的性能[1] [3]。这种方法使模型可以通过专注于基于组的优势而不是个人输出评估来更有效地学习。
DeepSeek R1的培训过程
在DeepSeek R1的背景下,GRPO促进了大规模的强化学习,而无需进行监督的微调。该模型为每个提示生成多个候选解决方案,并根据其准确性和遵守指定格式的奖励来计算奖励。这种基于规则的奖励系统可确保培训过程既具有资源有效又可扩展[2] [4]。缺乏监督数据允许DeepSeek R1通过与环境的互动自主发展推理能力,从而导致创新的解决问题的行为[6] [7]。
DeepSeek R1中GRPO的关键优势
- 消除评论家模型:通过删除评论家,GRPO降低了与维护两个独立的神经网络(Actor and Critic)相关的计算成本和复杂性,这在传统的RL设置中是典型的[3] [9]。
- 基于组的奖励计算:该算法使用一组输出的平均性能作为计算优势的基准,与奖励模型训练的性质更好地对齐,奖励模型训练的性质通常涉及单个输入的多个输出[1] [1] [5]。
- 提高效率:简化的过程不仅提高了学习效率,而且还允许DeepSeek R1实现与较大模型相当的性能,同时训练和运行的便宜[2] [6]。
总而言之,GRPO是DeepSeek R1的培训不可或缺的一部分,使其能够通过更高效,更可扩展的增强学习框架有效地学习推理技能。这项创新将DeepSeek R1定位为复杂的推理任务中的竞争模型,与建立的AI系统相媲美,同时促进了AI开发中的可访问性。
引用:[1] https://www.philschmid.de/deepseek-r1
[2] https://composio.dev/blog/notes-on-the-new-deepseek-r1/
[3] https://dev.to/aws/takeaways-from-the-deepseek-r1-model-2dli
[4] https://myedgetech.com/deepseek-r1-tr/
[5] https://aipapersacademy.com/deepseek-r1/
[6] https://www.linkedin.com/pulse/deepseek-revolution--ai-open-source-reasoning-20-ramachandran-xakme
[7] https://arxiv.org/html/2501.12948v1
[8] https://arxiv.org/pdf/2402.03300.pdf
[9] https://dev.to/sayed_ali_alkamel/deepseek-r1-the-open-source-ai-thats-making-making-making-waves-on-a-budget-13ik