2024-2026年开源大模型架构图谱：收敛与分裂

近期，Sebastian Raschka 整理并发布了一份涵盖 2024 年初至 2026 年春季的 40 多个开源大语言模型（LLM）的架构图谱。这份图谱系统性地展示了近年来主流模型的设计选择，为观察 LLM 架构的演进路径提供了一个清晰的视角。分析这些模型可以发现，它们几乎都围绕一个核心目标展开：在保持模型性能的前提下，设法让注意力机制变得更高效、成本更低，并支持更长的上下文处理。

核心内容

从图谱来看，当前 LLM 架构的发展呈现出一种矛盾的现象：设计语言在收敛，而具体技术方案却在分裂。

一方面，某些组件或设计模式已成为行业标配，显示出明显的收敛趋势。例如，混合专家（MoE）架构、查询-键归一化（QK-Norm）以及滑窗注意力（Sliding Window Attention）被广泛采用。DeepSeek-V3 推出的 MLA（Multi-head Latent Attention）结合稠密前缀和共享专家的设计，在 2025 年成为了众多百亿参数以上 MoE 模型（如 Llama 4 Maverick, Mistral Large 3）参考的模板。

另一方面，在如何具体优化注意力机制这一核心问题上，技术路线出现了显著的分裂与混搭。为了突破标准注意力 O(n²) 复杂度对长上下文的限制，2026 年后的模型开始尝试多种替代或补充方案：

Qwen3.5 采用 DeltaNet 与普通注意力层交替堆叠。
Kimi Linear 将大部分注意力层替换为线性注意力，仅保留少量 MLA 层。
NVIDIA 的 Nemotron 3 Nano 则更激进地使用 Mamba-2（一种状态空间模型，SSM）处理大部分层，仅让注意力机制在关键节点生效。这些尝试的共同点是承认标准注意力难以全程高效运行，需要其他组件分担计算压力，但各家对线性注意力、状态空间模型（SSM）或滑窗注意力等替代方案的有效性持有不同判断。

此外，训练已进入“微操”阶段。像 QK-Norm 的快速普及、规范化方案（如 OLMo 2 从 pre-norm 转向 post-norm）的细微调整，以及专家路由稀疏度等超参数的调优，这些以往容易被忽视的工程细节，如今对模型性能的影响愈发关键。Step 3.5 Flash 模型是一个典型案例，它通过多令牌预测（MTP-3）等工程优化，在总参数量远小于竞争对手的情况下实现了可比的推理吞吐量，体现了在架构创新空间有限时，从工程实现中挖掘潜力的务实思路。