OpenAI 开源 MRC 网络协议，解决大模型训练网络瓶颈

训练大模型时，数万到十几万张 GPU 需要保持步调一致。一次训练步可能涉及几百万次数据传输，只要有一笔数据晚到，所有 GPU 都得等待。集群规模越大，链路抖动和故障越频繁。传统网络中，一条链路故障可能导致整个训练任务崩溃，需要回退到上一个检查点重跑，交换机重新计算路由表需要数秒甚至数十秒。OpenAI 在搭建 Stargate 这类大型算力基础设施时，遇到的第一个瓶颈就是网络。

核心内容

OpenAI 联合 AMD、博通、英特尔、微软、英伟达，通过 OCP（开放计算项目）开源了名为 MRC（Multipath Reliable Connection，多路径可靠连接）的网络协议。该协议的核心思路是：将数据包拆散，同时通过数百条路径并行传输，到达目的地后再按内存地址重新拼接。

链路出现问题时，MRC 可在微秒级绕开故障路径，无需交换机重新计算路由表。OpenAI 还砍掉了传统的动态路由协议 BGP，改用 SRv6 源路由：发送方直接指定每个数据包的传输路径，交换机退化为“无脑”转发器，故障面大幅缩小。

网络结构因此简化。原本需要 3 到 4 层交换机才能连接十几万张 GPU，MRC 的多平面设计只需 2 层，功耗、成本和故障点均有所降低。

MRC 已部署在 OpenAI 所有最大的英伟达 GB200 超算上，包括 Stargate 在德州 Abilene 与甲骨文合建的站点，以及微软 Fairwater 数据中心。多个 OpenAI 模型使用该协议完成训练。

价值与影响

MRC 的实际效果在最近一次前沿模型训练（服务于 ChatGPT 和 Codex）中得到了验证：团队重启了 4 台核心交换机，无需与训练团队协调；每分钟发生多次链路抖动，对训练任务没有可测量的影响。而在传统网络下，这类事故足以导致整个训练任务崩溃。

通过 OCP 开源，MRC 协议可供全行业参考和采用，有望降低大规模 AI 集群的网络部署和维护成本。

OpenAI 开源 MRC 网络协议，解决大模型训练网络瓶颈

核心内容

价值与影响

相关标签

继续阅读