Геометрия превосходства: Почему DeepSeek-V4 и Moonshot AI убили AdamW, и как оптимизатор Muon меняет физику обучения
YH7H22 1 час назад Геометрия превосходства: Почему DeepSeek-V4 и Moonshot AI убили AdamW, и как оптимизатор Muon меняет физику обучения Средний 2 мин 162 Машинное обучение * Мы часто спорим об архитектурах:...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. YH7H22 1 час назад Геометрия превосходства: Почему DeepSeek-V4 и Moonshot AI убили AdamW, и как оптимизатор Muon меняет физику обучения Средний 2 мин 162 Машинное обучение * Мы часто спорим об архитектурах: трансформеры, mamba, гибридные слои. Но мы редко смотрим на двигатель, который заставляет эти архитектуры сходиться. Последние годы этим двигателем был AdamW.
Но если вы следите за SOTA моделями 2026 года, вы заметили тектонический сдвиг. DeepSeek-V4 и Kimi K2 / Moonlight заявили о переходе на новый оптимизатор Muon. Он позволил Moonshot AI обучить модель на 15.
Технические детали
5 триллионах токенов без единого спайка, а DeepSeek кардинально ускорить сходимость. Почему гиганты отказываются от AdamW? Потому что AdamW концептуально слеп.
Проблема Adam: Слепота к ГеометрииКак работает AdamW? Он берет градиент каждого параметра, делит его на экспоненциальное скользящее среднее (EMA) прошлых градиентов и делает шаг. Ключевая проблема: Adam воспринимает нейросеть как огромный набор независимых скаляров.
Он берет матрицу весов линейного слоя W размером 4096×4096 и оптимизирует в ней 16 миллионов изолированных чисел. Он не понимает, что эти числа образуют геометрическую структуру. В результате возникает спектральный перекос.
Отраслевые последствия
Оптимизатор тратит огромную емкость на то, чтобы обновлять направления с высокой дисперсией, полностью игнорируя скрытые, низкодисперсные, но критически важные признаки. Матрица весов становится "плохо обусловленной". Для маленьких моделей это не страшно.
Но когда у вас триллионы параметров, эта слепота к геометрии стоит вам десятки миллионов долларов на лишние итерации GPU. Физика Muon: Ортогонализация градиентовMuon, предложенный Келлером Джорданом, решает эту проблему фундаментально. Он говорит: "Веса Трансформера это не набор чисел.
И обновлять их нужно по законам матричной геометрии". Вместо того чтобы масштабировать каждый элемент отдельно, Muon берет всю матрицу накопленного импульса градиентов и ортогонализирует её. Что это дает физически?
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





