Deepseek mHC 架构解读:用双随机矩阵修复超连接
Realmbird 正在撰写关于 Deepseek 新架构 mHC 的系列文章。mHC 是对超连接(HC)的修复,解决了梯度消失或爆炸问题,已在 Deepseek v4 中实现。其核心是使用 Sinkhorn-Kn...
Realmbird 正在撰写关于 Deepseek 新架构 mHC 的系列文章,目前已完成第一篇。mHC(Manifold-Constrained Hyper-Connections,流形约束超连接)是 Deepseek 新增的一种架构,并已在 Deepseek v4 中实现。该系列文章旨在解释这一新设计背后的原理与机制。

核心内容
mHC 是对 HC(超连接)的一种修复。HC 通过在残差流上添加权重和偏置来模拟更宽的残差流,但这种方法存在根本性问题:它会使得来自较早层的信号更难更新,导致残差流的“残差性”降低,进而引发梯度消失或爆炸。
mHC 的改进在于使用 Sinkhorn-Knopp 方法,使残差流上的权重和偏置变为双随机矩阵。双随机矩阵的行和列之和都为 1,类似于同时沿行和列应用 softmax。这种约束保证了梯度的稳定传递,同时仍保持性能提升。
此外,还存在一种变体 MHC-lite,它与 mHC 论文类似,但使用了 Birkhoff-von Neumann 方法来实现双随机矩阵。
价值与影响
mHC 解决了 HC 在训练过程中梯度不稳定这一关键问题,使得超连接架构可以更可靠地应用于大规模模型。作为 Deepseek v4 的一部分,mHC 展示了在残差流设计中引入数学约束(如双随机性)的实用价值。该系列文章的后续内容值得关注,以进一步理解 mHC 在注意力机制中的具体表现。



