Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?
nlaik 8 минут назад Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере? Средний 9 мин 98 Машинное обучение * Open source * Видеокарты Аналитика Сравнил предсказания калькулятора с...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. nlaik 8 минут назад Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере? Средний 9 мин 98 Машинное обучение * Open source * Видеокарты Аналитика Сравнил предсказания калькулятора с реальными запусками llama. cpp на RTX 4060 Ti, 3090 и Apple M2 Pro.
Спойлер: где-то точно, где-то мимо на 30%Когда я начал ковыряться с локальными LLM полгода назад, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит «Llama 3. Что это значит для моей видеокарты с 16 GB VRAM?
Технические детали
А если я хочу 32k контекст? А с квантованием Q4_K_M? Цифры в README часто не учитывают KV cache, который при больших контекстах ест VRAM сильнее, чем сама модель.
Несколько недель назад мне попался простой open-source калькулятор — whatmodelscanirun. ru (русскоязычный форк оригинального проекта whatmodels от BenD10, MIT-лицензия). Вводишь VRAM, выбираешь модель, видишь, влезет ли.
Внутри — нетривиальная математика: учитывается размер весов, KV cache по слоям, GQA-оптимизация, memory bandwidth для оценки tokens/sec. Я решил проверить, насколько точные прогнозы он даёт, прогнав его на трёх своих сетапах и сравнив с реальными запусками через llama. Заодно разобрался, как калькулятор работает внутри.
Отраслевые последствия
Это интересный пример того, как простой статический SvelteKit-сайт реализует довольно серьёзную математику по оценке возможностей железа. Что это и кому нужноОригинальный проект называется whatmodels, автор — BenD10. Один разработчик, MIT-лицензия, 57 коммитов, последнее обновление данных по моделям — апрель 2026.
На английском доступен на whatmodelscanirun. com, на русском — на whatmodelscanirun. Я пользовался русской версией для удобства, но математика и данные одинаковые — это форк, не самостоятельный проект.
На входе:GPU из списка (или ручной ввод VRAM)Минимальный нужный context windowМинимальная нужная скорость генерации (токенов в секунду)Опционально — system RAM для offloading в ОЗУ На выходе — список моделей с разбивкой на три категории:fits (вмещается) — модель влезает с запасомtight (впритык) — может не хватить при больших контекстахdoesn’t fit (не вмещается) — не запустится без offload в системную RAM Для каждой модели показывается: квантование, максимальный context window для этого железа, оценка tokens/sec, необходимость offload-а. Звучит как «ещё один онлайн-калькулятор», но что меня зацепило — внутри математика правильная, не «сколько-то приблизительно». Алгоритм учитывает реальную физику работы LLM на GPU.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





