TechFoco Logo
首页专题归档站点地图
© 2026 TechFoco. All rights reserved.
文章归档专题网站地图站点地图 XML爬虫规则GitHub
  1. 首页
  2. /
  3. 返回专题
  4. /
  5. LLM 架构演进图谱:收敛还是分裂

LLM 架构演进图谱:收敛还是分裂

2026年03月19日•TechFoco 精选

LLM架构设计趋同(MoE、QK-Norm成标配),但技术路线分裂(MLA、Mamba、线性注意力混搭),核心是优化长上下文计算成本。

近年来,大型语言模型 (LLM) 的发展日新月异,其核心架构的演进路径尤为引人关注。Sebastian Raschka 博士在其博客中整理并发布了一份详尽的架构图谱,系统性地梳理了从 2024 年初到 2026 年春天发布的超过 40 个开源大模型。这份图谱清晰地揭示了一个核心趋势:整个领域的研究者都在致力于解决同一个根本性挑战——如何让注意力机制变得更高效、更经济,从而支持更长的上下文处理,同时竭力维持甚至提升模型性能。

设计语言的收敛与实现路径的分裂

观察这份图谱,我们可以发现一个明显的现象:模型的高层设计语言正在快速收敛。混合专家 (MoE) 架构、查询键归一化 (QK-Norm) 以及滑窗注意力 (Sliding Window Attention) 等技术,几乎成为了这一时期新发布模型的“标准配置”。这标志着社区在某些基础设计理念上达成了共识,形成了一套相对稳定的架构范式。

然而,在如何具体实现这些理念、突破现有瓶颈的路径上,却呈现出百花齐放的分裂态势。为了应对标准注意力机制 O(n²) 的复杂度在超长上下文场景下带来的巨大计算与内存开销,各家机构押注了不同的技术路线。有的模型尝试引入 Mamba 这类基于状态空间模型 (SSM) 的模块进行混搭;有的则探索用线性注意力 (Linear Attention) 完全或部分替换传统注意力;还有的像 DeepSeek V3 推出的多头潜在注意力 (MLA),通过压缩键值缓存 (KV Cache) 来提升效率。这种“目标一致,手段各异”的局面,正是当前 LLM 架构创新的生动写照。

从“大力出奇迹”到“微操优化”

图谱清晰地展示了技术标杆的转移过程。早期,Llama 3 所坚持的分组查询注意力 (GQA) 加旋转位置编码 (RoPE) 的组合被视为经典。而当 DeepSeek V3 横空出世,其采用的 MLA 配合稠密前缀 (Dense Prefix) 和共享专家的设计,迅速树立了“大力出奇迹”的新范式,在性能与效率间取得了显著平衡。随后,整个 2025 年涌现的诸多百亿参数级别以上的 MoE 模型,如 Llama 4 Maverick、Mistral Large 3 等,都或多或少地借鉴了这套设计模板。

有观点认为这是一种简单的“抄作业”,但更深层次地看,这恰恰反映了整个领域共同面临的核心瓶颈:长上下文推理的惊人计算成本。当大家被同一堵墙挡住时,借鉴已被验证有效的“梯子”是合乎逻辑的。这也将竞争推向了更精细的层面——大模型的训练已经进入了“微操”阶段。诸如 QK-Norm 以惊人的速度普及,从 Qwen3 开始几乎成为新模型标配;OLMo 2 为了适配 QK-Norm 甚至将整体规范化方案从前置归一化 (pre-norm) 改为后置归一化 (post-norm)。这些细节的调整,如归一化层的位置、RoPE 的维度、专家路由的稀疏度策略,在过去可能不被重视,如今却成为影响模型稳定性和最终性能的关键因素。

“混搭”风潮与工程务实主义

进入 2026 年,图谱中显现出一个更鲜明的趋势:“混搭”架构成为主流探索方向。研究者们普遍认识到,让昂贵的标准注意力机制处理全部序列是不现实的,必须引入替代方案来分担计算压力。于是,我们看到了一系列巧妙的组合策略。

例如,Qwen3.5 采用了 DeltaNet 与普通注意力以 3:1 的比例在交替层中使用的设计;Kimi Linear 则将大部分注意力层替换为线性注意力版本,仅保留四分之一的 MLA 层以保障关键性能;NVIDIA 的 Nemotron 3 Nano 则更为激进,使用 Mamba-2 处理大部分层级,仅在最关键的节点保留注意力模块。这些方案的共同思路是承认“注意力并非全程必需”,但其分歧点在于对替代技术的选择:线性注意力虽节省显存,但其长程依赖建模能力仍受质疑;状态空间模型速度占优,但其训练动态难以调校;滑窗注意力实现简单,却可能造成信息丢失。每种选择都是一场权衡与赌博。

在这一片架构微创新中,Step 3.5 Flash 代表了一种务实的工程主义思路。它并未追求颠覆性的架构改动,而是通过多令牌预测 (MTP-3) 等先进的训练与推理优化技术,在总参数量 196B、激活参数量仅 11B 的情况下,实现了与参数量大得多的模型相匹敌的推理吞吐量。这提示我们,当架构层面的革命性创新进入平台期时,在工程实现与优化算法上深挖潜力,同样能带来显著的效率提升。

结论:从范式革命到增量优化

Sebastian Raschka 的这份架构图谱,其价值远不止于罗列了从 3B 到 1T 参数规模的模型及其关键设计、发布日期和配置链接。它更像是一面镜子,让我们清晰地看到 LLM 架构的演进轨迹正从一个激动人心的“范式革命”时期,逐渐滑向一个深耕细作的“增量优化”阶段。Transformer 之后,尚未出现公认的、能够全面取代它的下一代基础架构。

那么,下一个突破点将在哪里?它或许并不在于对注意力机制本身的进一步修补,而在于如何更智能、更高效地将注意力、状态空间模型、线性变换等现有组件组合成一个有机整体。又或者,它需要我们完全跳出当前的序列建模框架,去寻找一个全新的基础计算范式。无论如何,这份图谱为我们理解现状、思考未来提供了极其宝贵的全景视角。这场在狭窄设计空间内进行的、既收敛又分裂的精彩探索,仍将继续。


原文链接: 一张图看懂40个开源大模型:2024-2026年,LLM架构正在收敛还是分裂

相关标签

Large Language ModelsLLM ArchitectureAttention MechanismTransformerMoEState Space ModelsLinear Attention

继续阅读

较新文章

AI 投毒 GEO 黑产 315 晚会曝光

较早文章

AI 编程的陷阱与软件工程真相

相关文章

查看更多
LLM 架构演进图谱:收敛还是分裂

LLM 架构演进图谱:收敛还是分裂

LLM架构设计趋同(MoE、QK-Norm成标配),但技术路线分裂(MLA、Mamba、线性注意力混搭),核心是优化长上下文计算成本。

2026年03月19日
Large Language ModelsLLM Architecture
谷歌 Sequential Attention 技术解析:让 AI 模型又快又准

谷歌 Sequential Attention 技术解析:让 AI 模型又快又准

谷歌Sequential Attention技术通过序列化注意力权重选择特征子集,实现模型压缩与加速,同时保持准确性。

2026年02月09日
AI OptimizationModel Compression
重复提示词:大模型性能提升的零成本技巧

重复提示词:大模型性能提升的零成本技巧

重复提示词可显著提升大模型表现,原理是让每个token都能看到完整上下文,弥补单向注意力缺陷。

2026年01月25日
Large Language ModelsPrompt Engineering

50 小时精通大语言模型训练

50小时掌握大模型训练。两遍学习法:先建框架,再动手实践。核心是Python、数学、神经网络与Transformer。从3Blue1Brown到Karpathy课程,免费资源+刻意练习是关键。

2026年01月23日
Machine LearningDeep Learning

微软开源 TRELLIS.2 图生 3D 模型

微软开源图生3D模型TRELLIS.2,4B参数,支持1536³分辨率,30-40秒快速生成带纹理的3D模型。

2025年12月27日
3D GenerationComputer Vision
超越标准 LLM 的新兴架构解析

超越标准 LLM 的新兴架构解析

新兴LLM架构:线性注意力提升长序列效率,文本扩散加速生成,代码世界模型探索结构理解,小型递归变换器轻量高效。

2025年11月09日
LLM ArchitectureLinear Attention