Shannon 1 час назад Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP 8 мин 1.3K Искусственный интеллект В llama.cpp добавили поддержку MTP Qwen3.6....

В сфере искусственного интеллекта произошло заметное событие. Shannon 1 час назад Qwen3. 6 27B MTP весит на +0. 3 Гб больше, а даёт ускорение в ~2 раза.

С 60 t/s до 130 t/s без потерь. Что такое MTP 8 мин 1. 3K Искусственный интеллект В llama.

Технические детали

cpp добавили поддержку MTP Qwen3. Дополнительные слои Multi-Token Prediction позволяют сгенерировать сразу несколько токенов за 1 проход, что ускоряет генерацию в 1. Качество при этом остается lossless.

Для моделей, которые не имеют встроенного MTP, есть альтернативы в лице EAGLE-3 и DFlash. Что такое MTPMulti-Token Prediction (MTP) представляют собой дополнительные слои на выходе модели которые работают со скрытым состоянием этой же модели, эти слои обучаются вместе с моделью и они обучаются предсказывать несколько следующих токенов. Стандартный авторегрессионный трансформер, он же LLM, после прямого прохода имеет выходной слой со скрытым состоянием, которое преобразуют в логиты вероятностей следующего токена.

Это только 1 следующий токен, но скрытое состояние может нести информацию о нескольких следующих шагах. Слои MTP представляют собой несколько голов MTP, которые учатся независимо предсказывать t+1, t+2, t+k следующие токены из одного скрытого состояния. Количество голов определяет сколько можно предсказать следующих токенов.

Отраслевые последствия

cpp поддержку MTP добавили для Qwen3. 6: Gemma4 и других моделей поддержка в разработке. EAGLE-3Если у модели нет MTP голов, можно применить другой схожий принцип.

Скрытое состояние уже содержит информацию о следующих токенах, и можно обучить внешний блок, который научится извлекать из этого состояния информацию. Таким образом можно для любой модели предсказывать k следующих токенов аналогично MTP. В методе EAGLE-3 создается и обучается 1 легковесная голова, которая добавляет вконце модели, и, в отличии от MTP, это всего 1 голова, которая используется рекурсивно для предсказания k токенов.

Для популярных моделей уже созданы eagle3 модули, которые нужно скачивать отдельно. Также для этого метода важно качество датасета для обучения eagle3. cpp в статусе черновика: идеи извлечения токенов из скрытого состояния и пытаясь обойти медленную скорость авторегрессивного трансформера, в котором каждый новый токен зависит от предыдущего и генерация идёт один за другим, был представлен способ блочной диффузии.

Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

Технические детали

Отраслевые последствия

Related Prediction Markets

Related News