TechFoco Logo
首页专题归档站点地图
© 2026 TechFoco. All rights reserved.
文章归档专题网站地图站点地图 XML爬虫规则GitHub
  1. 首页
  2. /
  3. 返回首页
  4. /
  5. OpenAI 开源 MRC 网络协议,解决大模型训练网络瓶颈

OpenAI 开源 MRC 网络协议,解决大模型训练网络瓶颈

2026年05月07日•TechFoco 精选

OpenAI 联合 AMD、博通、英特尔、微软、英伟达,通过 OCP 开源了训练 ChatGPT 所用的 MRC 网络协议。该协议通过多路径并行传输和 SRv6 源路由,将链路故障恢复时间降至微秒级,简化网络结构,...

训练大模型时,数万到十几万张 GPU 需要保持步调一致。一次训练步可能涉及几百万次数据传输,只要有一笔数据晚到,所有 GPU 都得等待。集群规模越大,链路抖动和故障越频繁。传统网络中,一条链路故障可能导致整个训练任务崩溃,需要回退到上一个检查点重跑,交换机重新计算路由表需要数秒甚至数十秒。OpenAI 在搭建 Stargate 这类大型算力基础设施时,遇到的第一个瓶颈就是网络。

Article Image
Article Image

核心内容

OpenAI 联合 AMD、博通、英特尔、微软、英伟达,通过 OCP(开放计算项目)开源了名为 MRC(Multipath Reliable Connection,多路径可靠连接)的网络协议。该协议的核心思路是:将数据包拆散,同时通过数百条路径并行传输,到达目的地后再按内存地址重新拼接。

链路出现问题时,MRC 可在微秒级绕开故障路径,无需交换机重新计算路由表。OpenAI 还砍掉了传统的动态路由协议 BGP,改用 SRv6 源路由:发送方直接指定每个数据包的传输路径,交换机退化为“无脑”转发器,故障面大幅缩小。

网络结构因此简化。原本需要 3 到 4 层交换机才能连接十几万张 GPU,MRC 的多平面设计只需 2 层,功耗、成本和故障点均有所降低。

MRC 已部署在 OpenAI 所有最大的英伟达 GB200 超算上,包括 Stargate 在德州 Abilene 与甲骨文合建的站点,以及微软 Fairwater 数据中心。多个 OpenAI 模型使用该协议完成训练。

价值与影响

MRC 的实际效果在最近一次前沿模型训练(服务于 ChatGPT 和 Codex)中得到了验证:团队重启了 4 台核心交换机,无需与训练团队协调;每分钟发生多次链路抖动,对训练任务没有可测量的影响。而在传统网络下,这类事故足以导致整个训练任务崩溃。

通过 OCP 开源,MRC 协议可供全行业参考和采用,有望降低大规模 AI 集群的网络部署和维护成本。


相关标签

MRC网络协议SRv6OCPAI 超算

继续阅读

较新文章

人形机器人执行器:为何可反向驱动性是关键

较早文章

中国 AI 实验室访问感受:谦逊、开放与专注