2024-2026年开源大模型架构图谱:收敛与分裂
本文基于 Sebastian Raschka 整理的 40 多个开源大模型架构图谱,分析了 2024 年至 2026 年间 LLM 架构的演进趋势。核心观察是设计语言趋同,但具体技术方案呈现分裂与混搭,反映出行业正...
TechFoco

共 6 篇文章,按时间倒序展示。
本文基于 Sebastian Raschka 整理的 40 多个开源大模型架构图谱,分析了 2024 年至 2026 年间 LLM 架构的演进趋势。核心观察是设计语言趋同,但具体技术方案呈现分裂与混搭,反映出行业正...

谷歌研究院提出的 Sequential Attention 技术,通过序列化注意力机制将子集选择过程嵌入模型训练,旨在不牺牲准确性的前提下实现模型压缩与加速。该技术已在图像分类等任务中验证了其有效性,并为大语言模型...


Google Research 研究发现,在不启用推理模式时,将提示词原样重复一遍可显著提升大语言模型在多项基准测试中的表现,且几乎不增加计算成本。

本文探讨了AI Agent在复杂任务中面临的上下文漂移问题,并分析了Manus等方案通过三个核心Markdown文件管理注意力、追踪进度的机制。文章进一步讨论了社区提出的进阶工作流设计,以及上下文工程作为新兴学科的...

本文系统梳理了大型语言模型在训练与推理阶段的优化技术,涵盖显存、计算和推理三大方向,包括 Flash Attention、量化、并行策略等前沿方法,旨在应对模型规模增长带来的挑战。
