
Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 3 — Запуск локальных моделей ИИ
Yuiy78 1 час назад Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 3 — Запуск локальных моделей ИИ Средний 11 мин 2.9K Искусственный интеллект Видеокарты Настольные компьютеры Старое...
Вот важная новость с фронта ИИ: Yuiy78 1 час назад Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 3 — Запуск локальных моделей ИИ Средний 11 мин 2. 9K Искусственный интеллект Видеокарты Настольные компьютеры Старое железо Компьютерное железо Обзор В третьей части обзора посмотрим на что способна Tesla V100 в работе с современными локальными моделями ИИ. Сравним ее с более современными серверными ускорителями и видеокартами по вычислительной мощности.
Проверим какие модели ИИ она способна запустить в LM Studio и протестируем их. Сравнение производительности Tesla V100 с современными серверными ускорителями и видеокартамиNVIDIA Tesla V100 стала первым массовым серверным ускорителем с интегрированными тензорными ядрами, что в 2017 году ознаменовало революцию в сфере обучения нейронных сетей. Данный ускоритель стал стандартом для индустрии и активно использовался при разработке прорывных моделей того времени, таких как GPT-2 (хотя финальная версия этой модели обучалась на TPU).
Технические детали
Рост сложности моделей ИИ и объемов данных со временем требовал увеличения мощности и объема быстрой памяти, что напрямую стимулировало прогресс в разработке аппаратных ускорителей. Ниже приведена таблица для сравнения вычислительной мощности Tesla V100 с более современными серверными ускорителями и видеокартами NVIDIA. МодельГодПиковая вычислительная мощность в зависимости от формата представления чисел с плавающей запятой (Floating Point), TFLOPSОбъем памяти, ГбFP64FP32TF32 TensorFP16/BF16 TensorFP8 TensorFP4 Tensor DenseV10020177.
7—125——16/32A10020209. 5312624——40/80H1002022346798919793958—80/96H2002024346798919793958—141B200202537752200450090009000180/192B30020251. 27522004500900015000288RTX 40702023—29—117 233—12RTX 40802022—49—195390—16RTX 40902022—83—330660—24RTX 50702025—31—12324749412RTX 50802025—56—22545090016RTX 50902025—105—419838167632Из-за отсутствия поддержки современных форматов (FP8/FP4), прямое сравнение по мощности с современными картами возможно лишь в форматах FP16 и FP32.
Если взять наиболее универсальный формат данных для LLM - FP16, то более современные серверные ускорители существенно опережают Tesla V100 по вычислительной мощности, а ее главные конкуренты - видеокарты RTX 4070 и RTX 5070. Однако близкие показатели TFLOPS не всегда означают одинаковую скорость вычислений. Tesla V100 использует старые тензорные ядра 1-го поколения, в то время как RTX 4070 и RTX 5070 имеют гораздо более эффективные ядра 4-го и 5-го поколений.
Они выполняют операции над матрицами значительно быстрее. Однако в задачах, ограниченных памятью, Tesla V100 выигрывает за счёт высокой пропускной способности HBM2 ~900 ГБ/с, тогда как у RTX 4070 пропускная способность GDDR6X ~504 ГБ/с, а у RTX 5070 ~672 ГБ/с. Для оценки средней вычислительной мощности CUDA и тензорных ядер я запустил скрипт, написанный на Python с использованием библиотеки PyTorch, который измеряет производительность матричного умножения (GEMM).
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





