smirnoff_ai 24 минуты назад Cколько железа нужно ИИ-агенту? Как мы считали ресурсы для on-premise LLM и почему калькуляторы ошиблись в 5 раз Простой 6 мин 2 Блог компании LLMStart.ru Искусственный интеллект Машинное...

Значимый прорыв формирует отрасль ИИ: smirnoff_ai 24 минуты назад Cколько железа нужно ИИ-агенту? Как мы считали ресурсы для on-premise LLM и почему калькуляторы ошиблись в 5 раз Простой 6 мин 2 Блог компании LLMStart. ru Искусственный интеллект Машинное обучение * Программирование * Управление продуктом * Кейс Сколько железа нужно ИИ-агенту?

Как мы считали ресурсы для on-premise LLMМы в LLMStart. ru делаем AI-системы для бизнеса. Часто работаем с on-premise — это закрытые контуры, где безопасность не разрешает внешние API.

Технические детали

В одном проекте мы разворачивали LLM-агента на 2× RTX Pro 6000 Blackwell под GPT-OSS-120B (MoE). Нам нужно было дать клиенту железную гарантию: сколько одновременных диалогов потянет система. Облачного автоскейлинга нет, права на ошибку — тоже.

Сначала пошли простым путем — открыли публичный калькулятор. Он пообещал 4696 токенов в секунду при 8 параллельных пользователях. Прежде чем радовать заказчика, мы написали скрипт и прогнали тесты на реальном железе.

880 токенов в секунду. Расхождение — в 5 раз! Кому это читать:AI-инженерам, считающим железо под on-premise LLM.

Отраслевые последствия

Тем, кто работает с нестандартными сборками (у нас тут редкая связка workstation-GPU RTX Pro 6000 Blackwell и MoE-модели, на которой калькуляторы сходят с ума). Всем, кто хочет понять разницу между теоретическим потолком и суровой реальностью. Оценка в теории: почему калькулятор обещал нам золотые горыВ качестве целевой модели мы выбрали GPT-OSS-120B.

Это крупная reasoning-модель с архитектурой MoE (Mixture of Experts). Фишка в том, что из 120B параметров на каждом запросе работают только ~5B. По качеству — топ среди аналогов.

По памяти — идеальный баланс (модели крупнее на нашем железе просто не завелись бы). Заказчик выбрал нестандартное железо: 2× RTX Pro 6000 Blackwell (по 96 GB VRAM каждая, итого 192 GB). Это редкая штука, не из стандартных дата-центров.

Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.

Cколько железа нужно ИИ-агенту? Как мы считали ресурсы для on-premise LLM и почему калькуляторы ошиблись в 5 раз

Технические детали

Отраслевые последствия

Related Prediction Markets

Related News