MRC от OpenAI в OCP: многопутевой RoCE, спрей пакетов и SRv6 для 131 000 GPU

900 млн человек еженедельно пользуются ChatGPT, и инфраструктура обучения фронтирных моделей упирается в сеть между GPU — OpenAI выложила в Open Compute Project спецификацию MRC (Multipath Reliable Connection): протокол для фабрик на интерфейсах 800 Гбит/с, который расширяет RoCE, разбрасывает пакеты одного переноса по сотням путей и уводит трафик с отказавших сегментов за микросекунды.
Разработку вели вместе с AMD, Broadcom, Intel, Microsoft и NVIDIA за два года; MRC уже развёрнут на крупнейших кластерах NVIDIA GB200, в том числе у Oracle Cloud Infrastructure в Абилине и в Microsoft Fairwater. Вместо привычной динамической маршрутизации в духе BGP в проде используют SRv6 source routing: путь зашит в адресе пакета, коммутаторы держат статические таблицы, а при потерях соединение само отрезает подозрительный путь и ретранслирует без пересборки маршрутов по всей фабрике.
Мультиплéйн-дизайн дробит 800 Гбит/с на несколько 100 Гбит/с плоскостей — так можно собрать полносвязную сеть примерно на 131 000 GPU всего из двух ярусов Ethernet-коммутаторов, тогда как одноплейн-800G обычно тянет на три–четыре уровня. В реальных прогонах ловили множественные флапы линков tier-0–tier-1 в минуту без заметного удара по синхронному претрейну; во время обучения недавней фронтирной модели для ChatGPT и Codex перезагрузили четыре коммутатора tier-1, не согласовывая окно с командами, которые держат джобы на кластере.
Источник: Unlocking large scale AI training networks with MRC (Multipath Reliable Connection).