id4455000 31 минуту назад Tesla v100 SXM2 X2 32GB total Средний 7 мин 1.3K Искусственный интеллект Старое железо Компьютерное железо Кейс Из песочницы Можно ли запустить современную 27-миллиардную модель и полноценного...

Вот важная новость с фронта ИИ: id4455000 31 минуту назад Tesla v100 SXM2 X2 32GB total Средний 7 мин 1. 3K Искусственный интеллект Старое железо Компьютерное железо Кейс Из песочницы Можно ли запустить современную 27-миллиардную модель и полноценного автономного агента на паре серверных ускорителей 2017 года, установленных в обычный десктоп через переходники? Короткий ответ — да, но с оговорками, которые важно знать заранее.

В этом материале я разбираю практический кейс: развёртывание Qwen3. 6-27B на двух Tesla V100-SXM2-16GB под управлением автономного агента Hermes от Nous Research. Карты подключены к потребительской платформе через адаптеры SXM2→PCIe — конфигурация, которую несложно собрать дома, но которая накладывает жёсткие ограничения на доступную видеопамять и межкарточную пропускную способность.

Технические детали

По итогам эксперимента эту связку можно считать нижней границей практической применимости для локального запуска Hermes: всё работает, но ровно на пределе возможностей железа. Ниже — последовательный разбор всех подводных камней, рабочие конфигурации с готовыми командами и честный вывод о том, где проходит та самая стена, которую не обойти настройками. Железо и цель- Сервер: Proxmox, проброс (PCIe passthrough) двух карт в одну VM.

- GPU: 2× Tesla V100-SXM2-16GB через переходники SXM2→PCIe. - Важная деталь: NVLink между картами нет (переходники выводят только PCIe-линии), и 6700k даёт всего 16 линий PCIe 3. 0 → карты работают в режиме x8/x8.

- Цель: запустить Qwen3. 6-27B-AWQ и подключить агента Hermes от Nous Research, которому нужно минимум 65 000 токенов контекста. Проверить топологию и режим линий можно так (внутри VM, после установки драйвера):nvidia-smi topo -m # между GPU0/GPU1 ждём NV*, а получили PHB = NVLink нет nvidia-smi -q | grep -A2 "Link Width" # Current: 8x = потолок межкарточного обменаГрабля №1: «карты грузятся на 50%»Классическая жалоба: при работе двух карт каждая загружена примерно наполовину.

Отраслевые последствия

cpp и подобные движки по умолчанию делят модель по слоям (pipeline/layer split): пока считает GPU0, GPU1 ждёт. Лечится переходом на tensor parallelism, где модель режется «поперёк» и обе карты считают каждый токен одновременно. В vLLM это флаг --tensor-parallel-size 2.

Именно он даёт обеим картам реальные ~100% загрузки. Грабля №2: новый vLLM не поддерживает VoltaQwen3. 0, а свежий vLLM уже не поддерживает архитектуру Volta (sm_70) — падает при старте.

Вдобавок AWQ-ядра (Marlin) требуют sm_80+. Решение — community-форк 1Cat-vLLM, который возвращает SM70-ядра внимания, AWQ под Volta и поддержку Qwen3. Почему именно 1Cat-vLLM, а не другой движокЗдесь сходятся сразу несколько требований, и закрыть их все может только этот форк:- Стоковый vLLM новых версий выкинул поддержку sm_70 — на V100 не стартует в принципе.

Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.

Tesla v100 SXM2 X2 32GB total

Технические детали

Отраслевые последствия

Related Prediction Markets

Related News