
Новая архитектура для агентов: как Intel и SambaNova разделили инференс между GPU, RDU и CPU
Andvecher 38 минут назад Новая архитектура для агентов: как Intel и SambaNova разделили инференс между GPU, RDU и CPU 7 мин 869 Блог компании МТС IT-инфраструктура * Машинное обучение * Серверное администрирование *...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. Andvecher 38 минут назад Новая архитектура для агентов: как Intel и SambaNova разделили инференс между GPU, RDU и CPU 7 мин 869 Блог компании МТС IT-инфраструктура * Машинное обучение * Серверное администрирование * Обзор В апреле 2026-го Intel и ИИ-платформа SambaNova опубликовали совместный blueprint гетерогенного инференса: prefill — на GPU, decode — на SambaNova SN50 RDU, агентские действия — на Intel Xeon 6. Готовое решение обещают во второй половине 2026-го, и оно встает в обычную стойку 30 кВт с воздушным охлаждением, без капитальных переделок машинного зала. Идея такая: как только случился массовый приход агентов, decode перестал быть побочной фазой и становится доминирующей нагрузкой, а монолитная архитектура «GPU на всё» начала просаживаться по экономике.
Коротко разберем, как это работает и почему это может стать востребованным. Почему одного ускорителя малоИнференс LLM состоит из двух фаз с противоположными требованиями к оборудованию. Prefill обрабатывает входной промпт, операции независимы и считаются параллельно — фаза compute-bound.
Технические детали
Decode — авторегрессионная генерация, каждый токен зависит от предыдущего, на каждом шаге читается весь KV-кеш на десятки гигабайтов ради сравнительно скромного числа операций. Это memory-bandwidth-bound-фаза. Устройство KV-кеша отлично разобрано в этом материале.
GPU исторически закрывал обе фазы потому, что под prefill его архитектура подходит идеально, а под decode — приемлемо: дорого, но работало. Пока пользователь дергал чат раз в минуту, decode-фазы между сессиями перекрывались параллельными prefill других пользователей и утилизация в целом сходилась. С агентами картина становится ну совсем другой.
Один пользовательский запрос порождает 5–15 обращений к модели — «подумать, что делать», «написать SQL», «сформулировать вывод», и так до конца цепочки. Каждое обращение — это фактически decode. Узкое место сместилось туда, и простаивающие compute-блоки GPU на каждом цикле стали заметной строкой в счете.
Отраслевые последствия
Собственно, так появились условия для возникновения логики разделения фаз по специализированному оборудованию. Три роли в пайплайнеGPU на prefillНа prefill GPU остается эталоном, и Intel с SambaNova не предлагают его заменять. Подойдет любой ускоритель из существующего парка: H100, B200, MI300.
Это осознанный и логичный выбор. У энтерпрайза и облачных провайдеров в GPU-мощностях лежат миллиарды долларов; предложение «выкиньте всё и переезжайте на новое» — плохое предложение. Гетерогенная архитектура встраивается дополнением (вместо полной замены), и под эту brownfield-логику выстроена вся коммерческая упаковка.
Brownfield-логика — подход к развитию бизнеса, строительству или IT-проектам, основанный на использовании, модернизации или реконструкции уже существующей инфраструктуры, зданий или старых систем, вместо создания их с нуля. SambaNova SN50 RDU на decodeИ вот технический центр всей конструкции. Без SN50 остается обычный CPU+GPU-сервер.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





