GRPO 专题

共 3 篇文章，按时间倒序展示。

Hands-On Modern RL：现代强化学习实战指南

一本填补主流教程与行业实践鸿沟的现代强化学习教程。从第一行代码开始训练智能体，涵盖PPO、DPO、GRPO等算法，采用先动手后理论的学习路径，适合学生、工程师和研究人员。

2026年05月07日TechFoco

本文介绍了从 Qwen 基础模型出发，通过 GRPO 算法、监督微调及强化学习，逐步构建并优化 DeepSeek R1 模型推理能力的完整流程。

2025年02月26日TechFoco

Huggingface 文章系统梳理了 Deepseek R1 发布后的关键内容与社区复现工作，涵盖评估分数、GRPO 训练管道、合成数据流程及业界反响。

2025年02月05日TechFoco