TechFoco Logo
首页专题归档站点地图
© 2026 TechFoco. All rights reserved.
文章归档专题网站地图站点地图 XML爬虫规则GitHub
  1. 首页
  2. /
  3. 返回归档
  4. /
  5. Deepseek mHC 架构解读:用双随机矩阵修复超连接

Deepseek mHC 架构解读:用双随机矩阵修复超连接

2026年05月07日•TechFoco 精选

Realmbird 正在撰写关于 Deepseek 新架构 mHC 的系列文章。mHC 是对超连接(HC)的修复,解决了梯度消失或爆炸问题,已在 Deepseek v4 中实现。其核心是使用 Sinkhorn-Kn...

Realmbird 正在撰写关于 Deepseek 新架构 mHC 的系列文章,目前已完成第一篇。mHC(Manifold-Constrained Hyper-Connections,流形约束超连接)是 Deepseek 新增的一种架构,并已在 Deepseek v4 中实现。该系列文章旨在解释这一新设计背后的原理与机制。

Article Image
Article Image

核心内容

mHC 是对 HC(超连接)的一种修复。HC 通过在残差流上添加权重和偏置来模拟更宽的残差流,但这种方法存在根本性问题:它会使得来自较早层的信号更难更新,导致残差流的“残差性”降低,进而引发梯度消失或爆炸。

mHC 的改进在于使用 Sinkhorn-Knopp 方法,使残差流上的权重和偏置变为双随机矩阵。双随机矩阵的行和列之和都为 1,类似于同时沿行和列应用 softmax。这种约束保证了梯度的稳定传递,同时仍保持性能提升。

此外,还存在一种变体 MHC-lite,它与 mHC 论文类似,但使用了 Birkhoff-von Neumann 方法来实现双随机矩阵。

价值与影响

mHC 解决了 HC 在训练过程中梯度不稳定这一关键问题,使得超连接架构可以更可靠地应用于大规模模型。作为 Deepseek v4 的一部分,mHC 展示了在残差流设计中引入数学约束(如双随机性)的实用价值。该系列文章的后续内容值得关注,以进一步理解 mHC 在注意力机制中的具体表现。


相关标签

mHCDeepseek超连接残差流双随机矩阵

继续阅读

较新文章

Netflix 模型服务中的路由现状

较早文章

人形机器人执行器:为何可反向驱动性是关键

相关文章

查看更多

DeepSeek 押注 Agent:从“会聊天”到“会干活”

本文基于公开招聘信息,分析了 DeepSeek 公司近期将战略重心转向 AI 智能体(Agent)的动向。文章探讨了 Agent 的核心概念、行业竞争焦点的转移,以及构建可用 Agent 系统所依赖的评测、基础设施...

2026年04月02日
AI AgentDeepSeek
DeepOCR:DeepSeek-OCR 的完全开源复现项目

DeepOCR:DeepSeek-OCR 的完全开源复现项目

DeepOCR 是由爱荷华州立大学和普林斯顿大学发起的开源项目,旨在完整复现 DeepSeek-OCR 的训练过程,提供了包括训练和评估在内的全部代码实现。

2025年11月12日
OCR计算机视觉
DeepOCR:完全开源复现 DeepSeek-OCR 训练过程

DeepOCR:完全开源复现 DeepSeek-OCR 训练过程

DeepOCR 是由爱荷华州立大学和普林斯顿大学发起的开源项目,旨在提供完整的代码以复现 DeepSeek-OCR 的训练与评估流程,而不仅仅是权重和报告。

2025年11月09日
OCRComputer Vision
DeepSeek-OCR 辨析:Token 压缩与 LLM 嵌入空间冗余

DeepSeek-OCR 辨析:Token 压缩与 LLM 嵌入空间冗余

本文探讨了 DeepSeek-OCR 技术成功背后的核心原因,指出其关键并非图像表示本身,而是揭示了大型语言模型嵌入空间存在的巨大冗余。通过对比剑桥大学的研究与 LIFT 论文的发现,论证了通过微调优化文本表示同样...

2025年10月26日
Token CompressionLLM Embedding Space
Copilot+ PC 新增 DeepSeek R1 7B/14B 模型支持

Copilot+ PC 新增 DeepSeek R1 7B/14B 模型支持

微软通过 Azure AI Foundry 为 Copilot+ PC 提供 DeepSeek R1 7B 和 14B 蒸馏模型,旨在将 AI 能力从云端扩展至终端设备,提供更高速高效的本地 AI 解决方案。

2025年03月04日
Copilot+ PCDeepSeek R1
10个DeepSeek写作提示词解析

10个DeepSeek写作提示词解析

本文介绍了一份包含10个用于辅助写作的DeepSeek提示词列表,旨在帮助用户更高效地利用AI进行内容创作。

2025年03月01日
DeepSeek写作提示