监督微调专题

共 2 篇文章，按时间倒序展示。

Fin-R1：一款7B参数的金融推理大模型

Fin-R1是一款专为金融领域设计的7B参数推理大模型，采用SFT和RL两阶段训练，在FinQA和ConvFinQA等金融推理任务上表现优异，旨在提升模型准确性与泛化能力。

2025年04月01日TechFoco

本文介绍了从 Qwen 基础模型出发，通过 GRPO 算法、监督微调及强化学习，逐步构建并优化 DeepSeek R1 模型推理能力的完整流程。

2025年02月26日TechFoco