2024-2026年开源大模型架构图谱:收敛与分裂
本文基于 Sebastian Raschka 整理的 40 多个开源大模型架构图谱,分析了 2024 年至 2026 年间 LLM 架构的演进趋势。核心观察是设计语言趋同,但具体技术方案呈现分裂与混搭,反映出行业正...

近期,Sebastian Raschka 整理并发布了一份涵盖 2024 年初至 2026 年春季的 40 多个开源大语言模型(LLM)的架构图谱。这份图谱系统性地展示了近年来主流模型的设计选择,为观察 LLM 架构的演进路径提供了一个清晰的视角。分析这些模型可以发现,它们几乎都围绕一个核心目标展开:在保持模型性能的前提下,设法让注意力机制变得更高效、成本更低,并支持更长的上下文处理。
核心内容
从图谱来看,当前 LLM 架构的发展呈现出一种矛盾的现象:设计语言在收敛,而具体技术方案却在分裂。
一方面,某些组件或设计模式已成为行业标配,显示出明显的收敛趋势。例如,混合专家(MoE)架构、查询-键归一化(QK-Norm)以及滑窗注意力(Sliding Window Attention)被广泛采用。DeepSeek-V3 推出的 MLA(Multi-head Latent Attention)结合稠密前缀和共享专家的设计,在 2025 年成为了众多百亿参数以上 MoE 模型(如 Llama 4 Maverick, Mistral Large 3)参考的模板。
另一方面,在如何具体优化注意力机制这一核心问题上,技术路线出现了显著的分裂与混搭。为了突破标准注意力 O(n²) 复杂度对长上下文的限制,2026 年后的模型开始尝试多种替代或补充方案:
- Qwen3.5 采用 DeltaNet 与普通注意力层交替堆叠。
- Kimi Linear 将大部分注意力层替换为线性注意力,仅保留少量 MLA 层。
- NVIDIA 的 Nemotron 3 Nano 则更激进地使用 Mamba-2(一种状态空间模型,SSM)处理大部分层,仅让注意力机制在关键节点生效。 这些尝试的共同点是承认标准注意力难以全程高效运行,需要其他组件分担计算压力,但各家对线性注意力、状态空间模型(SSM)或滑窗注意力等替代方案的有效性持有不同判断。
此外,训练已进入“微操”阶段。像 QK-Norm 的快速普及、规范化方案(如 OLMo 2 从 pre-norm 转向 post-norm)的细微调整,以及专家路由稀疏度等超参数的调优,这些以往容易被忽视的工程细节,如今对模型性能的影响愈发关键。Step 3.5 Flash 模型是一个典型案例,它通过多令牌预测(MTP-3)等工程优化,在总参数量远小于竞争对手的情况下实现了可比的推理吞吐量,体现了在架构创新空间有限时,从工程实现中挖掘潜力的务实思路。
价值与影响
这份架构图谱的价值不仅在于其汇总的信息,更在于它揭示的行业演进态势:LLM 的架构发展似乎正从寻求“范式革命”转向进行“增量优化”。大规模的颠覆性创新(如 Transformer 的提出)近年来未见,当前的工作更多是在一个相对狭窄的设计空间内,通过组合与优化现有模块来提升模型效率。
驱动这一趋势的根本原因是长上下文推理带来的严峻计算成本挑战。未来的突破方向可能不在于注意力机制本身的根本性改变,而在于如何更智能地集成注意力、SSM、线性变换等不同模块,或者完全跳出当前框架,探索全新的序列建模范式。这份图谱为我们理解现状、定位瓶颈和思考未来提供了重要的参考依据。
来源:黑洞资源笔记




