
Inference Optimization 专题
共 3 篇文章,按时间倒序展示。

LLM 优化指南 内存 计算 推理 技术
LLM优化三大方向:显存优化(Flash Attention/激活检查点)、计算优化(序列打包/高效Transformer)、推理优化(KV缓存/量化技术)。涵盖训练与推理全流程关键技术。
TechFoco


共 3 篇文章,按时间倒序展示。

LLM优化三大方向:显存优化(Flash Attention/激活检查点)、计算优化(序列打包/高效Transformer)、推理优化(KV缓存/量化技术)。涵盖训练与推理全流程关键技术。

