Fin-R1:一款7B参数的金融推理大模型Fin-R1是一款专为金融领域设计的7B参数推理大模型,采用SFT和RL两阶段训练,在FinQA和ConvFinQA等金融推理任务上表现优异,旨在提升模型准确性与泛化能力。2025年04月01日•TechFoco大语言模型金融推理监督微调
DeepSeek R1 模型构建指南本文介绍了从 Qwen 基础模型出发,通过 GRPO 算法、监督微调及强化学习,逐步构建并优化 DeepSeek R1 模型推理能力的完整流程。2025年02月26日•TechFocoDeepSeek R1GRPO监督微调