dflash-mlx：为 MLX 框架实现无损 DFlash 推测解码

在 Apple Silicon 上运行大语言模型时，MLX 框架的性能有时难以满足需求。传统的推测解码方案虽然能提升速度，但往往以牺牲生成精度为代价，导致开发者在精度与加速之间面临两难选择。

核心内容

dflash-mlx 项目为 MLX 框架带来了无损的 DFlash 推测解码方案。该方案基于 Block Diffusion 论文，其核心机制是一次性生成 16 个候选 token 进行验证。为了确保无损和高效，项目实现了两项关键技术：高精度的 tape-replay rollback 机制，用于在验证失败时准确回滚状态；以及针对长上下文（序列长度 N >= 1024）优化的自定义 Metal 注意力内核，实现了 JIT SDPA。

根据项目信息，在 Qwen3.5-9B 模型上，该方案实现了最高 4.1 倍的加速，同时保持了超过 89% 的接受率。其主要功能包括：

无损 DFlash 推测解码，支持 Qwen3.5 系列模型（4B/9B/27B/35B）。
自动解析 draft 模型，无需手动指定。
提供流式输出，支持 CLI/Server 模式及 OpenAI 兼容客户端。
内置基准测试工具，可一键对比基线模型与 DFlash 方案的加速比。

价值与影响

dflash-mlx 为 Apple Silicon 平台上的模型推理提供了一个专为 MLX 框架优化的加速解决方案。它通过创新的无损推测解码技术，在显著提升生成速度的同时，确保了输出结果的准确性。项目通过 pip install dflash-mlx 即可安装使用，对专注于 Apple M 系列芯片的开发者及 AI 爱好者而言，是一个值得关注的高效工具。

来源：黑洞资源笔记

dflash-mlx：为 MLX 框架实现无损 DFlash 推测解码

核心内容

价值与影响

相关标签

继续阅读