DeepSeek R1 模型构建指南本文介绍了从 Qwen 基础模型出发,通过 GRPO 算法、监督微调及强化学习,逐步构建并优化 DeepSeek R1 模型推理能力的完整流程。2025年02月26日•TechFocoDeepSeek R1GRPO监督微调
Open R1 更新:Deepseek R1 复现与社区进展Huggingface 文章系统梳理了 Deepseek R1 发布后的关键内容与社区复现工作,涵盖评估分数、GRPO 训练管道、合成数据流程及业界反响。2025年02月05日•TechFocoDeepseek R1GRPO合成数据生成