
Архитектура MRC для создания AI/ML-сетей любого масштаба: обзор технологии
BorisKhasanov 26 минут назад Архитектура MRC для создания AI/ML-сетей любого масштаба: обзор технологии Сложный 41 мин 912 Блог компании MWS Cloud Сетевые технологии * Системы связи * IT-инфраструктура * Разработка...
Anthropic — What company has the best second artificial intelligence model at the end of June?
Значимый прорыв формирует отрасль ИИ: BorisKhasanov 26 минут назад Архитектура MRC для создания AI/ML-сетей любого масштаба: обзор технологии Сложный 41 мин 912 Блог компании MWS Cloud Сетевые технологии * Системы связи * IT-инфраструктура * Разработка публичных облаков * Аналитика Привет, меня зовут Борис Хасанов, я сетевой архитектор в MWS Cloud Platform. Решил поделиться с вами обзором новой технологии MRC* для создания сетей для AI/ML-кластеров, так называемых backend networks. Технология интересная и перспективная — там есть магия SRv6 :)На мой взгляд, информация будет полезна сетевым инженерам и архитекторам, которые интересуются этим вопросом.
Я проанализировал MRC и сделал подробное техническое описание в этой статье. * MRC — Multipath Reliable Connection, расширение RoCE-архитектуры, предложенное коллегами из OpenAI, Microsoft, Nvidia, AMD, Broadcom. Недавно вышло несколько англоязычных публикаций с его анонсом.
Технические детали
Вот одна из них на сайте OpenAI. Масштабирование предобучения LLM и ловушка хвостовой задержки Производительность синхронных задач (jobs) по предобучению (pretraining) LLM на очень больших масштабах со множеством вовлечённых GPU и комбинаций из pipeline parallelism, data parallelism, tensor parallelism и expert parallelism определяется хвостовой задержкой (tail latency). Предобучение LLM — начальное обучение модели на гигантских неразмеченных данных: текстах, изображениях, видео, чтобы получить фундаментальные знания о структуре языка, закономерностях, логике, фактах и прочем.
Предобучение важно для LLM, потому что:— позволяет использовать колоссальные объёмы доступных неразмеченных данных, например из интернета;— даёт хорошую начальную инициализацию весов модели — без неё обучить огромную модель с нуля на маленькой размеченной выборке практически невозможно;— потребляет 99% вычислительных ресурсов в жизненном цикле модели. Сущность синхронных задач заключается в том, что каждая обучающая итерация разбивается на шаги:— каждый ускоритель обрабатывает свою порцию данных (микробатч) — вычисляет градиенты;— ускорители обмениваются градиентами, обычно через all-reduce, и усредняют их;— все одновременно применяют одинаковые усреднённые градиенты к весам модели;— никто не переходит к следующей итерации, пока все устройства не завершат текущую итерацию. Основные преимущества синхронных задач:— Гарантированная сходимость и воспроизводимость.
— Простота использования эффективных алгоритмов. — Стабильность скорости сходимости. Хвостовая задержка (tail latency) — это задержка обработки запроса или выполнения операции на определённом проценте самых медленных вызовов, обычно на последних 1, 5 или 0,1% (99, 95 или 99,9-й перцентиль).
В контексте синхронного предобучения нейронных сетей это означает, что общая скорость вычислений ограничена самым медленным устройством (например, GPU) в кластере: пока оно не завершит свою часть работы, все остальные узлы простаивают.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





