内存优化专题

Google TurboQuant：将 KV Cache 压缩至 3 比特

Google Research 发布 TurboQuant 压缩算法，通过 PolarQuant 和 QJL 两步，将大语言模型推理时的 KV cache 内存占用压缩至 3 比特，内存减少 6 倍以上，计算速度显...

2026年03月29日TechFoco