
DeepSeek‑V4‑Flash на двух DGX Spark: как мы убрали очередь и получили multi‑user
AGmind 53 минуты назад DeepSeek‑V4‑Flash на двух DGX Spark: как мы убрали очередь и получили multi‑user Средний 11 мин 2K Open source * Системное администрирование * DevOps * Искусственный интеллект Подняли...
Anthropic — What company has the best second artificial intelligence model at the end of June?
Вот важная новость с фронта ИИ: AGmind 53 минуты назад DeepSeek‑V4‑Flash на двух DGX Spark: как мы убрали очередь и получили multi‑user Средний 11 мин 2K Open source * Системное администрирование * DevOps * Искусственный интеллект Подняли DeepSeek‑V4‑Flash на двух GB10, упёрлись в потолок consumer Blackwell, прошли три тупика со спекулятивным декодингом — и в итоге получили параллельную работу ресёрч‑агента и длинной генерации без очереди. Что реально сработалоПосле всех тупиков остались скучные, но работающие изменения. Главное — поднять --max-num-seqs с 1 до 8.
Единица означала, что в рантайме одновременно живёт ровно один запрос; всё остальное ждало в очереди, и второй пользователь получал первый токен через 14–15 секунд. Откуда взялась эта единица — отдельная история. Когда мы только подняли V4 и дали ей два параллельных запроса с длинным контекстом, скорость генерации падала почти до нуля: видеокарта загружена полностью, а на выходе доли токена в секунду.
Технические детали
Проще всего было убрать симптом, запретив параллельность, — что мы и сделали, заодно решив, что GB10 параллельную нагрузку не вывозит. Диагноз оказался неверным. Дело было не в параллельности, а в том, что под SM121 не был включён нужный attention‑путь (sparse‑MLA, о нём ниже), и размер батча работал против нас.
Единица ничего из этого не лечила — она прятала симптом, выключая ровно ту возможность, ради которой всё затевалось. Стоило включить sparse‑MLA и вернуть нормальный размер пула — провал не вернулся. Sparse‑MLA под SM121 — VLLM_TRITON_MLA_SPARSE=1.
Включает sparse‑MLA путь, заточенный под эту линию GB10. Без него модель либо не стартует, либо сваливается в неподходящий attention‑бэкенд. Prefix caching — --enable-prefix-caching.
Отраслевые последствия
Для агентных нагрузок критично. Ресёрч‑агент гоняет один и тот же длинный контекст по кругу между шагами. Без кэша каждый запрос заново прогоняет prefill на сорок с лишним тысяч токенов, и кластер занят не генерацией, а пережёвыванием одного и того же.
В бою доля попаданий в кэш дошла до 88% — к этой цифре вернёмся в разделе с метриками. Штатная MTP‑спекуляция DeepSeek на нашей нагрузке работала: acceptance держался в районе 55–64%, то есть драфтер угадывал заметную часть токенов, а не просто добавлял накладные расходы. Отдельно про проверку.
После смены MoE‑ или attention‑пути смотреть надо не на код ответа, а на его связность. Наш sanity‑check был предельно простым: спросить столицу Франции и убедиться, что в ответе Париж. curl вернёт 200 и тогда, когда численный путь сломан, а модель выдаёт грамматически правильный, но бессмысленный текст.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





