LLM 架构演进图谱：收敛还是分裂

近年来，大型语言模型 (LLM) 的发展日新月异，其核心架构的演进路径尤为引人关注。Sebastian Raschka 博士在其博客中整理并发布了一份详尽的架构图谱，系统性地梳理了从 2024 年初到 2026 年春天发布的超过 40 个开源大模型。这份图谱清晰地揭示了一个核心趋势：整个领域的研究者都在致力于解决同一个根本性挑战——如何让注意力机制变得更高效、更经济，从而支持更长的上下文处理，同时竭力维持甚至提升模型性能。

设计语言的收敛与实现路径的分裂

观察这份图谱，我们可以发现一个明显的现象：模型的高层设计语言正在快速收敛。混合专家 (MoE) 架构、查询键归一化 (QK-Norm) 以及滑窗注意力 (Sliding Window Attention) 等技术，几乎成为了这一时期新发布模型的“标准配置”。这标志着社区在某些基础设计理念上达成了共识，形成了一套相对稳定的架构范式。

然而，在如何具体实现这些理念、突破现有瓶颈的路径上，却呈现出百花齐放的分裂态势。为了应对标准注意力机制 O(n²) 的复杂度在超长上下文场景下带来的巨大计算与内存开销，各家机构押注了不同的技术路线。有的模型尝试引入 Mamba 这类基于状态空间模型 (SSM) 的模块进行混搭；有的则探索用线性注意力 (Linear Attention) 完全或部分替换传统注意力；还有的像 DeepSeek V3 推出的多头潜在注意力 (MLA)，通过压缩键值缓存 (KV Cache) 来提升效率。这种“目标一致，手段各异”的局面，正是当前 LLM 架构创新的生动写照。

从“大力出奇迹”到“微操优化”

图谱清晰地展示了技术标杆的转移过程。早期，Llama 3 所坚持的分组查询注意力 (GQA) 加旋转位置编码 (RoPE) 的组合被视为经典。而当 DeepSeek V3 横空出世，其采用的 MLA 配合稠密前缀 (Dense Prefix) 和共享专家的设计，迅速树立了“大力出奇迹”的新范式，在性能与效率间取得了显著平衡。随后，整个 2025 年涌现的诸多百亿参数级别以上的 MoE 模型，如 Llama 4 Maverick、Mistral Large 3 等，都或多或少地借鉴了这套设计模板。

有观点认为这是一种简单的“抄作业”，但更深层次地看，这恰恰反映了整个领域共同面临的核心瓶颈：长上下文推理的惊人计算成本。当大家被同一堵墙挡住时，借鉴已被验证有效的“梯子”是合乎逻辑的。这也将竞争推向了更精细的层面——大模型的训练已经进入了“微操”阶段。诸如 QK-Norm 以惊人的速度普及，从 Qwen3 开始几乎成为新模型标配；OLMo 2 为了适配 QK-Norm 甚至将整体规范化方案从前置归一化 (pre-norm) 改为后置归一化 (post-norm)。这些细节的调整，如归一化层的位置、RoPE 的维度、专家路由的稀疏度策略，在过去可能不被重视，如今却成为影响模型稳定性和最终性能的关键因素。

“混搭”风潮与工程务实主义

进入 2026 年，图谱中显现出一个更鲜明的趋势：“混搭”架构成为主流探索方向。研究者们普遍认识到，让昂贵的标准注意力机制处理全部序列是不现实的，必须引入替代方案来分担计算压力。于是，我们看到了一系列巧妙的组合策略。

例如，Qwen3.5 采用了 DeltaNet 与普通注意力以 3:1 的比例在交替层中使用的设计；Kimi Linear 则将大部分注意力层替换为线性注意力版本，仅保留四分之一的 MLA 层以保障关键性能；NVIDIA 的 Nemotron 3 Nano 则更为激进，使用 Mamba-2 处理大部分层级，仅在最关键的节点保留注意力模块。这些方案的共同思路是承认“注意力并非全程必需”，但其分歧点在于对替代技术的选择：线性注意力虽节省显存，但其长程依赖建模能力仍受质疑；状态空间模型速度占优，但其训练动态难以调校；滑窗注意力实现简单，却可能造成信息丢失。每种选择都是一场权衡与赌博。

在这一片架构微创新中，Step 3.5 Flash 代表了一种务实的工程主义思路。它并未追求颠覆性的架构改动，而是通过多令牌预测 (MTP-3) 等先进的训练与推理优化技术，在总参数量 196B、激活参数量仅 11B 的情况下，实现了与参数量大得多的模型相匹敌的推理吞吐量。这提示我们，当架构层面的革命性创新进入平台期时，在工程实现与优化算法上深挖潜力，同样能带来显著的效率提升。

结论：从范式革命到增量优化

Sebastian Raschka 的这份架构图谱，其价值远不止于罗列了从 3B 到 1T 参数规模的模型及其关键设计、发布日期和配置链接。它更像是一面镜子，让我们清晰地看到 LLM 架构的演进轨迹正从一个激动人心的“范式革命”时期，逐渐滑向一个深耕细作的“增量优化”阶段。Transformer 之后，尚未出现公认的、能够全面取代它的下一代基础架构。

那么，下一个突破点将在哪里？它或许并不在于对注意力机制本身的进一步修补，而在于如何更智能、更高效地将注意力、状态空间模型、线性变换等现有组件组合成一个有机整体。又或者，它需要我们完全跳出当前的序列建模框架，去寻找一个全新的基础计算范式。无论如何，这份图谱为我们理解现状、思考未来提供了极其宝贵的全景视角。这场在狭窄设计空间内进行的、既收敛又分裂的精彩探索，仍将继续。

原文链接： 一张图看懂40个开源大模型：2024-2026年，LLM架构正在收敛还是分裂

LLM 架构演进图谱：收敛还是分裂

设计语言的收敛与实现路径的分裂

从“大力出奇迹”到“微操优化”

“混搭”风潮与工程务实主义

结论：从范式革命到增量优化

相关标签

继续阅读