注意力机制专题

共 6 篇文章，按时间倒序展示。

2024-2026年开源大模型架构图谱：收敛与分裂

本文基于 Sebastian Raschka 整理的 40 多个开源大模型架构图谱，分析了 2024 年至 2026 年间 LLM 架构的演进趋势。核心观察是设计语言趋同，但具体技术方案呈现分裂与混搭，反映出行业正...

2026年03月19日TechFoco

谷歌研究院提出的 Sequential Attention 技术，通过序列化注意力机制将子集选择过程嵌入模型训练，旨在不牺牲准确性的前提下实现模型压缩与加速。该技术已在图像分类等任务中验证了其有效性，并为大语言模型...

2026年02月09日TechFoco

本文探讨了大型语言模型上下文长度增长停滞的现象，分析了硬件瓶颈、注意力质量、实际利用能力等深层制约因素，并指出行业正从追求长度转向优化使用效率。

2026年02月09日TechFoco

Google Research 研究发现，在不启用推理模式时，将提示词原样重复一遍可显著提升大语言模型在多项基准测试中的表现，且几乎不增加计算成本。

2026年01月25日TechFoco

本文探讨了AI Agent在复杂任务中面临的上下文漂移问题，并分析了Manus等方案通过三个核心Markdown文件管理注意力、追踪进度的机制。文章进一步讨论了社区提出的进阶工作流设计，以及上下文工程作为新兴学科的...

2026年01月05日TechFoco

本文系统梳理了大型语言模型在训练与推理阶段的优化技术，涵盖显存、计算和推理三大方向，包括 Flash Attention、量化、并行策略等前沿方法，旨在应对模型规模增长带来的挑战。

2025年10月07日TechFoco