RotorQuant:基于旋子量化的10-19倍加速方案
RotorQuant 利用 Clifford 代数中的旋子替代 TurboQuant 的全局随机旋转矩阵,将计算量大幅降低,在 GPU 上实现显著加速,同时保持了与 TurboQuant 相近的量化精度。
TechFoco

共 2 篇文章,按时间倒序展示。
RotorQuant 利用 Clifford 代数中的旋子替代 TurboQuant 的全局随机旋转矩阵,将计算量大幅降低,在 GPU 上实现显著加速,同时保持了与 TurboQuant 相近的量化精度。

Google Research 发布 TurboQuant 压缩算法,通过 PolarQuant 和 QJL 两步,将大语言模型推理时的 KV cache 内存占用压缩至 3 比特,内存减少 6 倍以上,计算速度显...
