
Cколько железа нужно ИИ-агенту? Как мы считали ресурсы для on-premise LLM и почему калькуляторы ошиблись в 5 раз
smirnoff_ai 24 минуты назад Cколько железа нужно ИИ-агенту? Как мы считали ресурсы для on-premise LLM и почему калькуляторы ошиблись в 5 раз Простой 6 мин 2 Блог компании LLMStart.ru Искусственный интеллект Машинное...
Anthropic — What company has the best second artificial intelligence model at the end of June?
Значимый прорыв формирует отрасль ИИ: smirnoff_ai 24 минуты назад Cколько железа нужно ИИ-агенту? Как мы считали ресурсы для on-premise LLM и почему калькуляторы ошиблись в 5 раз Простой 6 мин 2 Блог компании LLMStart. ru Искусственный интеллект Машинное обучение * Программирование * Управление продуктом * Кейс Сколько железа нужно ИИ-агенту?
Как мы считали ресурсы для on-premise LLMМы в LLMStart. ru делаем AI-системы для бизнеса. Часто работаем с on-premise — это закрытые контуры, где безопасность не разрешает внешние API.
Технические детали
В одном проекте мы разворачивали LLM-агента на 2× RTX Pro 6000 Blackwell под GPT-OSS-120B (MoE). Нам нужно было дать клиенту железную гарантию: сколько одновременных диалогов потянет система. Облачного автоскейлинга нет, права на ошибку — тоже.
Сначала пошли простым путем — открыли публичный калькулятор. Он пообещал 4696 токенов в секунду при 8 параллельных пользователях. Прежде чем радовать заказчика, мы написали скрипт и прогнали тесты на реальном железе.
880 токенов в секунду. Расхождение — в 5 раз! Кому это читать:AI-инженерам, считающим железо под on-premise LLM.
Отраслевые последствия
Тем, кто работает с нестандартными сборками (у нас тут редкая связка workstation-GPU RTX Pro 6000 Blackwell и MoE-модели, на которой калькуляторы сходят с ума). Всем, кто хочет понять разницу между теоретическим потолком и суровой реальностью. Оценка в теории: почему калькулятор обещал нам золотые горыВ качестве целевой модели мы выбрали GPT-OSS-120B.
Это крупная reasoning-модель с архитектурой MoE (Mixture of Experts). Фишка в том, что из 120B параметров на каждом запросе работают только ~5B. По качеству — топ среди аналогов.
По памяти — идеальный баланс (модели крупнее на нашем железе просто не завелись бы). Заказчик выбрал нестандартное железо: 2× RTX Pro 6000 Blackwell (по 96 GB VRAM каждая, итого 192 GB). Это редкая штука, не из стандартных дата-центров.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





