Google TurboQuant:将 KV Cache 压缩至 3 比特
Google Research 发布 TurboQuant 压缩算法,通过 PolarQuant 和 QJL 两步,将大语言模型推理时的 KV cache 内存占用压缩至 3 比特,内存减少 6 倍以上,计算速度显...
TechFoco

共 1 篇文章,按时间倒序展示。
Google Research 发布 TurboQuant 压缩算法,通过 PolarQuant 和 QJL 两步,将大语言模型推理时的 KV cache 内存占用压缩至 3 比特,内存减少 6 倍以上,计算速度显...
