2024-2026年开源大模型架构图谱:收敛与分裂
本文基于 Sebastian Raschka 整理的 40 多个开源大模型架构图谱,分析了 2024 年至 2026 年间 LLM 架构的演进趋势。核心观察是设计语言趋同,但具体技术方案呈现分裂与混搭,反映出行业正...
TechFoco

共 3 篇文章,按时间倒序展示。
本文基于 Sebastian Raschka 整理的 40 多个开源大模型架构图谱,分析了 2024 年至 2026 年间 LLM 架构的演进趋势。核心观察是设计语言趋同,但具体技术方案呈现分裂与混搭,反映出行业正...

谷歌高级总监发布了一份 171 页的 LLM 白皮书,系统性地介绍了从 Transformer 基础到前沿模型架构、推理对齐及代码实现等核心内容。

DeepSeek-MoE-ResourceMap 是一个专注于 DeepSeek 模型,特别是其 MoE 架构和 V3 版本的技术资源集合库。该库提供了对 DeepSeek V3 架构的深度解析,汇集了多种训练与部...
