Supervised Fine-Tuning 专题

共 1 篇文章，按时间倒序展示。

DeepSeek R1 模型构建全攻略：从 Qwen 到 SFT 的进阶之路

DeepSeek R1 模型构建指南：从基础模型 Qwen 到推理模型，使用 GRPO 算法和 SFT 提升推理能力，提供详细训练流程和手绘流程图，适合初学者。

2025年02月26日TechFoco

DeepSeek R1 Qwen GRPO

DeepSeek R1 模型构建全攻略：从 Qwen 到 SFT 的进阶之路