TechFoco Logo
首页专题归档站点地图
© 2026 TechFoco. All rights reserved.
文章归档专题网站地图站点地图 XML爬虫规则GitHub
  1. 首页
  2. /
  3. 返回专题
  4. /
  5. 2024-2026年开源大模型架构图谱:收敛与分裂

2024-2026年开源大模型架构图谱:收敛与分裂

2026年03月19日•TechFoco 精选

本文基于 Sebastian Raschka 整理的 40 多个开源大模型架构图谱,分析了 2024 年至 2026 年间 LLM 架构的演进趋势。核心观察是设计语言趋同,但具体技术方案呈现分裂与混搭,反映出行业正...

Article Image
Article Image

近期,Sebastian Raschka 整理并发布了一份涵盖 2024 年初至 2026 年春季的 40 多个开源大语言模型(LLM)的架构图谱。这份图谱系统性地展示了近年来主流模型的设计选择,为观察 LLM 架构的演进路径提供了一个清晰的视角。分析这些模型可以发现,它们几乎都围绕一个核心目标展开:在保持模型性能的前提下,设法让注意力机制变得更高效、成本更低,并支持更长的上下文处理。

核心内容

从图谱来看,当前 LLM 架构的发展呈现出一种矛盾的现象:设计语言在收敛,而具体技术方案却在分裂。

一方面,某些组件或设计模式已成为行业标配,显示出明显的收敛趋势。例如,混合专家(MoE)架构、查询-键归一化(QK-Norm)以及滑窗注意力(Sliding Window Attention)被广泛采用。DeepSeek-V3 推出的 MLA(Multi-head Latent Attention)结合稠密前缀和共享专家的设计,在 2025 年成为了众多百亿参数以上 MoE 模型(如 Llama 4 Maverick, Mistral Large 3)参考的模板。

另一方面,在如何具体优化注意力机制这一核心问题上,技术路线出现了显著的分裂与混搭。为了突破标准注意力 O(n²) 复杂度对长上下文的限制,2026 年后的模型开始尝试多种替代或补充方案:

  • Qwen3.5 采用 DeltaNet 与普通注意力层交替堆叠。
  • Kimi Linear 将大部分注意力层替换为线性注意力,仅保留少量 MLA 层。
  • NVIDIA 的 Nemotron 3 Nano 则更激进地使用 Mamba-2(一种状态空间模型,SSM)处理大部分层,仅让注意力机制在关键节点生效。 这些尝试的共同点是承认标准注意力难以全程高效运行,需要其他组件分担计算压力,但各家对线性注意力、状态空间模型(SSM)或滑窗注意力等替代方案的有效性持有不同判断。

此外,训练已进入“微操”阶段。像 QK-Norm 的快速普及、规范化方案(如 OLMo 2 从 pre-norm 转向 post-norm)的细微调整,以及专家路由稀疏度等超参数的调优,这些以往容易被忽视的工程细节,如今对模型性能的影响愈发关键。Step 3.5 Flash 模型是一个典型案例,它通过多令牌预测(MTP-3)等工程优化,在总参数量远小于竞争对手的情况下实现了可比的推理吞吐量,体现了在架构创新空间有限时,从工程实现中挖掘潜力的务实思路。

价值与影响

这份架构图谱的价值不仅在于其汇总的信息,更在于它揭示的行业演进态势:LLM 的架构发展似乎正从寻求“范式革命”转向进行“增量优化”。大规模的颠覆性创新(如 Transformer 的提出)近年来未见,当前的工作更多是在一个相对狭窄的设计空间内,通过组合与优化现有模块来提升模型效率。

驱动这一趋势的根本原因是长上下文推理带来的严峻计算成本挑战。未来的突破方向可能不在于注意力机制本身的根本性改变,而在于如何更智能地集成注意力、SSM、线性变换等不同模块,或者完全跳出当前框架,探索全新的序列建模范式。这份图谱为我们理解现状、定位瓶颈和思考未来提供了重要的参考依据。


来源:黑洞资源笔记

相关标签

大语言模型LLM架构注意力机制TransformerMoE

继续阅读

较新文章

315晚会曝光GEO投毒:AI标准答案背后的灰色产业链

较早文章

AI编程:加速原型,放大工程挑战

相关文章

查看更多
中国大语言模型市场格局与技术观察

中国大语言模型市场格局与技术观察

本文基于社区讨论,梳理了中国大语言模型市场的三层竞争格局,分析了字节跳动、DeepSeek、六小虎等主要参与者的市场地位、商业模式及部分技术特点。

2026年03月26日
大语言模型中国AI
2024-2026年开源大模型架构图谱:收敛与分裂

2024-2026年开源大模型架构图谱:收敛与分裂

本文基于 Sebastian Raschka 整理的 40 多个开源大模型架构图谱,分析了 2024 年至 2026 年间 LLM 架构的演进趋势。核心观察是设计语言趋同,但具体技术方案呈现分裂与混搭,反映出行业正...

2026年03月19日
大语言模型LLM架构
Lossless Claw:基于 LCM 的无损上下文管理插件

Lossless Claw:基于 LCM 的无损上下文管理插件

Lossless Claw 是一个为 OpenClaw 设计的开源插件,它采用有向无环图和智能摘要技术管理对话上下文,旨在突破大语言模型的上下文窗口限制,实现消息的无损存储与高效回溯。

2026年03月19日
上下文管理有向无环图
谷歌AI绕过付费墙技术分析

谷歌AI绕过付费墙技术分析

近期发现,用户可通过将付费文章链接提供给谷歌AI,使其通过搜索引擎特权通道获取并总结全文。当访问被阻时,上传空PDF文件再贴链接可欺骗系统成功读取。这一现象降低了绕过付费墙的技术门槛,引发了关于内容付费模式与AI伦...

2026年03月19日
AI付费墙
Anthropic 指控工业级蒸馏攻击引争议

Anthropic 指控工业级蒸馏攻击引争议

Anthropic 公开指控 DeepSeek 等中国 AI 公司通过大量 API 调用对 Claude 实施“工业级蒸馏攻击”。然而,Anthropic 自身训练数据来源的版权问题同样受到质疑,事件引发了关于技术...

2026年02月27日
模型蒸馏数据版权
AI写作的“重点来了”现象与反思

AI写作的“重点来了”现象与反思

本文分析了AI生成文本中频繁使用“重点来了”等导航词的特征,指出其源于对工业化写作模式的模仿,并探讨了这种模式对写作风格及读者判断力的潜在影响。

2026年02月22日
AI写作自然语言处理