GFusion: как мы обучали диффузионную LLM в GigaChat
perkyfever 7 минут назад GFusion: как мы обучали диффузионную LLM в GigaChat Сложный 10 мин 191 Блог компании Сбер Машинное обучение * Искусственный интеллект Салют, Хабр!Хочу поделиться проектом, которым я занимался во...
<5 — 2026'da uzaya kaç SpaceX Starship fırlatması ulaşacak?
Значимый прорыв формирует отрасль ИИ: perkyfever 7 минут назад GFusion: как мы обучали диффузионную LLM в GigaChat Сложный 10 мин 191 Блог компании Сбер Машинное обучение * Искусственный интеллект Салют, Хабр! Хочу поделиться проектом, которым я занимался во время стажировки в команде GigaChat Pretrain. В течение нескольких месяцев мы исследовали диффузионные языковые модели (dLLM) — относительно новое направление в LLM, в котором многие идеи только начинают проверяться на практике.
Главной целью было не тратить огромное количество ресурсов на обучение с нуля, а взять базовую авторегрессионную модель GigaChat3-10B-A1. 8B-base и перевести её в диффузионный режим. Так появились наши экспериментальные GFusion-10B-A1.
Технические детали
8B-base и GFusion-10B-A1. TLDRПрежде чем углубляться в детали, отмечу главные результаты проекта:Ускорение генерации. В режиме одного пользователя GFusion в среднем на 70% быстрее своего брата GigaChat3, и даже превосходит вариант с дополнительной MTP-головой на 39%.
GFusion достигает ускорения при просадке качества всего на 2-4 п. в сравнении с GigaChat3, причем этот трейд-офф можно контролировать через параметры генерации диффузии. Мы поддержали GFusion в SGLang, а также добавили новый алгоритм семплирования, который ускоряет генерацию других диффузионных LLM.
Оптимизировали attention для текстовой диффузии, что позволило нам получить +60% к средней скорости обучения GFusion по сравнению с Flex-Attention. Сравнение скорости генерации GFusion и вариантов GigaChat3Далее я подробнее расскажу о том, как мы проходили полный цикл обучения, какие подходы к обучению dLLM сработали лучше, откуда берётся ускорение и с какими ограничениями мы столкнулись по дороге. Большинство современных LLM являются авторегрессионными (AR): каждый следующий токен предсказывается по предыдущему контексту.
Отраслевые последствия
Эта схема отлично оптимизирована на практике, но у неё есть фундаментальное ограничение: строго последовательная генерация по одному токену. Часть этого ограничения умеют обходить через спекулятивный декодинг, когда более мелкая модель предлагает несколько последовательных предсказаний, а основная верифицирует их за один проход. Это позволяет получить ускорение, но основная модель в любом случае остаётся авторегрессионной.
Диффузионные модели ослабляют это ограничение: они работают не с одним следующим токеном, а с частично замаскированным блоком фиксированного размера. Модель итеративно восстанавливает маски, постепенно превращая блок в осмысленный текст. Токены внутри одного блока могут декодироваться не только слева направо, а в произвольном порядке и по несколько за один проход.
При этом сами блоки генерируются авторегрессионно, что позволяет переиспользовать KV-кеш для уже готового контекста. Процесс генерации диффузии на примере блока из четырёх токеновЕсли за один проход модель декодирует не один, а сразу несколько токенов, то для генерации той же последовательности требуется меньше forward pass-ов.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





