模型量化专题

共 4 篇文章，按时间倒序展示。

Gemma 4：模型进阶与工程挑战

Google DeepMind 发布的 Gemma 4 模型权重已公开，但其底层推理引擎的适配工作滞后，导致在 llama.cpp 等工具链上出现推理不稳定、崩溃等问题，凸显了模型发布与开源生态集成之间的脱节。

2026年04月08日TechFoco

RotorQuant 利用 Clifford 代数中的旋子替代 TurboQuant 的全局随机旋转矩阵，将计算量大幅降低，在 GPU 上实现显著加速，同时保持了与 TurboQuant 相近的量化精度。

2026年03月29日TechFoco

Reddit 社区讨论显示，Qwen 3.5 397B 模型在代码生成质量上表现突出，配合 IQ2_XS 量化技术可大幅降低内存需求。但其生成速度较慢，硬件门槛较高，引发了关于本地部署价值与成本效益的讨论。

2026年03月26日TechFoco

本文系统梳理了大型语言模型在训练与推理阶段的优化技术，涵盖显存、计算和推理三大方向，包括 Flash Attention、量化、并行策略等前沿方法，旨在应对模型规模增长带来的挑战。

2025年10月07日TechFoco