
Как мы собрали локальный AI-сервер на 4× RTX 4090 с водянкой — кейс для крупного клиента
Dmitrii-Chashchin 33 минуты назад Как мы собрали локальный AI-сервер на 4× RTX 4090 с водянкой — кейс для крупного клиента Средний 14 мин 1.3K DevOps * Управление проектами * Управление продажами * Искусственный...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. Dmitrii-Chashchin 33 минуты назад Как мы собрали локальный AI-сервер на 4× RTX 4090 с водянкой — кейс для крупного клиента Средний 14 мин 1. 3K DevOps * Управление проектами * Управление продажами * Искусственный интеллект Машинное обучение * Кейс ПредысторияГод назад к нам пришёл заказ: собрать локальный сервер под задачи аналитики звонков для крупной компании в России. Поток — 10 000+ звонков в месяц.
По требованию службы безопасности — всё в их контуре, on-premise. Никаких облачных API. Основной наш бизнес — речевая аналитика.
Технические детали
Звонки забираем откуда угодно: CRM, IP-телефония, операторы (МТС, Билайн, Мегафон, Alltel и прочие), API Яндекс. Диска, любые внешние источники, до которых доехал клиент. Дальше всё транскрибируется, прогоняется через LLM, на выходе — оценка разговора, корневые причины, тесты для сотрудников.
Привыкли работать в облаке. А тут — другой формат. Обсуждение и проектирование тянулись около полугода — спорили о компонентах, искали в наличии, пересобирали конфигурацию на бумаге.
А потом, как водится, всё собрали за пару недель в ускоренном режиме в самом конце. Честно: на тот момент мы не были экспертами в железе. Был запал, был запрос — этого хватило, чтобы взяться и сделать качественно.
Отраслевые последствия
В этой статье — что собрали, почему именно так, и какие ловушки прошли. Полную комплектацию (модели, ссылки, артикулы) приложу в конце — пишите в личку или в ТГ-канал. Финальная сборка — то, что получилось в итогеОткуда взялась конфигурацияПервый источник — Reddit.
Когда мы плотно залезли в тему «локальный ИИ сервер под ключ», то наткнулись на чужой пост: сборка на пользовательских видеокартах, не серверных. Конкретно — вот этот пост в r/LocalLLaMA: Got myself a 4-way RTX 4090 rig for local LLM. Тогда (год назад) материалов на эту тему почти не было — ни роликов, ни статей о том, как грамотно подобрать железо под ИИ-кейс.
Тот самый референс с Reddit — сборка автора r/LocalLLaMAЯ написал автору исходного поста с вопросом: что бы он переделал, если бы собирал заново, и какие конкретно модели и бенчмарки гонял. Спрашивал на ломаном английском, без всяких прелюдий — просто «hello, my name is Dmitrii». Переписка с автором референсной сборки на RedditОтветил моментально, подсказал пару моментов по тензорному параллелизму и более оптимальной конфигурации.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





