DeepSeek R1 模型构建全攻略:从 Qwen 到 SFT 的进阶之路
DeepSeek R1 模型构建指南:从基础模型 Qwen 到推理模型,使用 GRPO 算法和 SFT 提升推理能力,提供详细训练流程和手绘流程图,适合初学者。
TechFoco

共 2 篇文章,按时间倒序展示。
DeepSeek R1 模型构建指南:从基础模型 Qwen 到推理模型,使用 GRPO 算法和 SFT 提升推理能力,提供详细训练流程和手绘流程图,适合初学者。

Huggingface 文章总结了 Deepseek R1 发布后的重要内容,包括评估分数复现、训练管道、数据生成流程及社区表态。
