GRPO 专题

共 2 篇文章，按时间倒序展示。

DeepSeek R1 模型构建指南

本文介绍了从 Qwen 基础模型出发，通过 GRPO 算法、监督微调及强化学习，逐步构建并优化 DeepSeek R1 模型推理能力的完整流程。

2025年02月26日TechFoco

DeepSeek R1 GRPO 监督微调

DeepSeek R1 模型构建指南

Open R1 更新：Deepseek R1 复现与社区进展

Huggingface 文章系统梳理了 Deepseek R1 发布后的关键内容与社区复现工作，涵盖评估分数、GRPO 训练管道、合成数据流程及业界反响。

2025年02月05日TechFoco

Deepseek R1 GRPO 合成数据生成

Open R1 更新：Deepseek R1 复现与社区进展