模型压缩专题

共 2 篇文章，按时间倒序展示。

Google TurboQuant：将 KV Cache 压缩至 3 比特

Google Research 发布 TurboQuant 压缩算法，通过 PolarQuant 和 QJL 两步，将大语言模型推理时的 KV cache 内存占用压缩至 3 比特，内存减少 6 倍以上，计算速度显...

2026年03月29日TechFoco

谷歌研究院提出的 Sequential Attention 技术，通过序列化注意力机制将子集选择过程嵌入模型训练，旨在不牺牲准确性的前提下实现模型压缩与加速。该技术已在图像分类等任务中验证了其有效性，并为大语言模型...

2026年02月09日TechFoco