从零构建 MiniLLM:预训练与指令微调实践
本文介绍一个旨在以可控成本构建小参数量聊天模型的 GitHub 项目。该项目已完成预训练和指令微调阶段,使用 bert4torch 框架,优化了内存占用,并支持与 Transformers 无缝衔接推理。
TechFoco

共 1 篇文章,按时间倒序展示。
本文介绍一个旨在以可控成本构建小参数量聊天模型的 GitHub 项目。该项目已完成预训练和指令微调阶段,使用 bert4torch 框架,优化了内存占用,并支持与 Transformers 无缝衔接推理。
