Qwen 3.5 397B：最强本地编程模型？

近期，Reddit 的 LocalLLaMA 板块中一篇题为《Qwen 3.5 397B is the best local coder I have used》的帖子引发了开发者社区的广泛讨论。一位开发者经过深入测试后提出，Qwen 3.5 397B 模型可能是目前性能最强的本地编程专用大语言模型。尽管其生成速度相对较慢，平均在每秒 11 至 15 个 token 之间，但其生成的代码质量极高，几乎无需进行多轮迭代修复。更令人印象深刻的是，通过 IQ2_XS 量化技术，该模型的运行内存需求被压缩至仅需 123GB，在极低的精度下依然保持了卓越的性能表现。

这位发帖者表示，他几乎测试了所有主流的本地大模型，包括 Qwen 系列的 122B、35B 和 27B 版本，以及 GPT-OSS 120B、StepFun 3.5、MiniMax M2.5 和 Super Nemotron 120B 等。在他的评估中，没有任何一个模型在知识储备的广度和代码生成的准确性上能够接近 Qwen 3.5 397B。这无疑为寻求高质量本地代码生成解决方案的开发者提供了一个值得关注的新选择。

当然，速度是绕不开的话题。在配备 96GB DDR5 内存和 48GB 显存的硬件环境下，该模型的生成速度会随着上下文长度的增加而下降，从空白上下文时的每秒 15 个 token，降至处理 10 万 token 上下文时的每秒 11 个 token。有社区成员幽默地将其比喻为“每个工作日生成一个 token”，并对其实用性提出了质疑。然而，发帖者提出了一个不同的效率视角：虽然单次生成耗时较长，但由于其输出代码质量极高，省去了反复调试和修改的时间，从完成整个编程任务的总体时间来看，效率反而可能更高。此外，与它的较小版本或其他模型不同，Qwen 3.5 397B 的思考过程（Chain-of-Thought）被描述为非常简洁高效。

量化技术在此次讨论中占据了核心位置。由 AesSedai 制作的 IQ2_XS 量化版本成功将庞大的模型压缩到 123GB，这是一个关键突破。相比之下，其他参数量更小的模型，如 StepFun 3.5 和 MiniMax M2.5，通常需要使用 IQ4_XS 量化，而 Qwen 3.5 的 122B、35B 和 27B 版本则多采用 Q6_K 量化。这引发了一个有趣的性能权衡讨论：一个经过 2-bit 量化的 397B 模型，其实际表现是否会优于一个经过 4-bit 或 6-bit 量化的 122B 模型？有网友分享了评测数据，显示 IQ2_XS 量化版的 Qwen 3.5 397B 在 MMLU 基准测试中达到了 87.86%，在 GPQA diamond 测试中达到了 82.32%，其表现远超许多人对低精度量化的预期。

一种观点认为，对于采用混合专家（MoE）架构的超大规模模型，传统的“小模型高精度 vs. 大模型低精度”的权衡逻辑可能已经不再完全适用。397B 级别的参数空间极为庞大，量化引入的噪声可以被分散到海量参数中，从而使其相对影响变得有限。同时，模型内部的专家路由机制和专家系统在低精度下似乎依然能够有效运作，维持了整体的智能水平。

实现本地运行的门槛确实存在。目前最经济的硬件方案包括两台 Strix Halo 设备（总价约 5000 美元）或一台配备 256GB 统一内存的 Mac Studio M3 Ultra（约 7000 美元）。也有用户尝试使用 192GB DDR5 内存搭配 36GB 显存的配置来运行 IQ4 量化版本，速度大约在每秒 6 到 8 个 token。

社区评论中主要分化为两种观点。一方认为，在 Claude 等云端 API 订阅服务每月仅需几十美元的情况下，投入数千美元购置硬件来运行一个“性能相近但并非绝对领先”的本地模型，其性价比值得商榷。另一方则强烈强调本地部署的独特价值：完全的数据控制权与隐私保护、不受服务商条款或可用性限制、以及为应对未来可能的政策或服务变化所做的准备。有网友补充道，如果将这些高性能硬件本身视为开发工作站，那么运行大模型的额外成本就显得不那么夸张了，Strix Halo 或 Mac Studio 本身就是强大的生产力工具。

在实际应用场景的对比中，有开发者发现 MiniMax M2.5 在一次性生成完整代码块方面可能更具优势，但 Qwen 3.5 397B 在需要迭代、调试和理解的复杂编程框架任务中，表现出更佳的“智能”和适应性。同时，也有人指出 GLM-5 在综合软件工程任务上可能仍然是最强的模型，尽管其速度更慢。

一个值得注意的技术细节是，有网友测试了更为极端的 TQ1_0 量化版本。在 RTX 3090、Tesla P40 和 48GB DDR5 内存的组合配置下，该版本仍能实现每秒 9 到 10 个 token 的速度。虽然 TQ1_0 量化通常被认为压缩过度，但实际结果却出人意料地好。此外，有开发者利用 Mac Studio 的 128GB 内存，通过 MLX 框架运行 Q4 量化版本，实现了每秒 9 个 token 的速度。更有甚者，声称可以通过 SSD 卸载技术，在仅配备 6-9GB 内存的 MacBook Pro 上运行该模型，尽管速度会大幅下降。

关于速度的实用性，有网友将其与主流 API 服务进行了对比：例如 DeepSeek 3.2 在各大 API 服务商处的平均响应速度大约在每秒 10 到 25 个 token 之间。因此，每秒 11-15 个 token 的速度实际上处于可接受范围内。关键在于任务类型——对于简单的代码补全或片段生成，速度至关重要；但对于复杂的系统架构设计、多文件重构或需要深度理解的任务，生成质量远比速度更重要。

讨论中还出现了一个反直觉的观点：是否让一个 27B 的模型对同一任务尝试两次，会比运行一次 397B 模型更高效？有基准测试显示，27B 模型在第二次尝试解决相同问题时，其表现能够接近 397B 模型第一次尝试的水平。这为资源有限的开发者提供了另一种思路。

最后，一些高阶技术方案也被提及。例如，通过 USB4 连接两台机器进行分布式推理，实际带宽可以达到 10Gbps，虽然低于理论值但已足够使用。利用 llama.cpp 的 rpc-server 功能可以实现计算负载分割，速度损失大约在 10% 左右。

这场讨论最引人深思之处，或许不在于某个特定模型究竟有多强大，而在于整个开源社区在探索“本地人工智能”边界时所展现出的惊人创造力。从极致的模型量化、分布式推理方案，到硬件的创新配置和软件的深度优化，每一位开发者和爱好者都在用自己的方式，不断突破本地部署大型语言模型在性能、成本和易用性上的限制。

原文链接： Qwen 3.5 397B：最强本地编程模型？