Развернул Gemma 4 31B на одной 4090 48GB — и проверил, нужен ли Q8
daniel_ivanov 7 минут назад Развернул Gemma 4 31B на одной 4090 48GB — и проверил, нужен ли Q8 Простой 2 мин 92 Искусственный интеллект Open source * Кейс В прошлой статье я собрал бенчмарк под свою работу, и в практике...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. daniel_ivanov 7 минут назад Развернул Gemma 4 31B на одной 4090 48GB — и проверил, нужен ли Q8 Простой 2 мин 92 Искусственный интеллект Open source * Кейс В прошлой статье я собрал бенчмарк под свою работу, и в практике победила Gemma 4 31B — мгновенный отклик, дёшево, почти как у 744-миллиардного гиганта. Логичный следующий шаг: поднять её у себя в контуре и ответить на два вопроса, которые все задают и никто не меряет. → Нужен ли «честный» Q8, или хватает 4-бит?
→ Переживает ли нормально tool-calling квантизацию? Спойлер: Q8 не дал ничего, а tool-calling держится — но не из-за кванта. Дальше — как разворачивал, на чём споткнулся, и цифры.
Технические детали
Железо и стекОдна RTX 4090 на 48 ГБ (спот), llama. cpp, GGUF от Unsloth. Никакого vLLM/SGLang: для одного пользователя на одной карте llama.
cpp сейчас — король, а их continuous batching и RadixAttention выстреливают только под конкурентной нагрузкой, которой у меня нет. Квант: Q4-dynamic vs Q8Ключевая деталь — это не наивный Q4. Unsloth Dynamic 4-bit (UD-Q4_K_XL) держит чувствительные слои в большей точности, а 4-бит уходит только туда, где это безопасно; по их KL-дивергенции это почти топ.
Прогнал обе квантизации на тех же 50 задачах, тем же 3-судейным набором:Q4-dynamicQ8Балл0. 742Прошло задач45/5042/50Tool-calling1. 4VRAM27 ГБ40 ГБQ8 дал +0.
Отраслевые последствия
6 раза медленнее, +13 ГБ видеопамяти (меньше места под контекст), и при этом Q4 прошёл задач даже больше. Прирост Q8 — микроскопический и только на доках/стратегии (+0. Все объективные задачи (код, SQL, инфра, tool-calling) — идентичны.
Вывод: на 48 ГБ можно запустить Q8 — но в моем случае не стоит. Dynamic-4bit = та же точность, вдвое меньше памяти, полный контекст, быстрее. «Честный Q8» здесь будет самообман.
Tool-calling: дело было не в квантеГлавный рычаг надёжности tool-calling оказался не в квантизации, а в одном флаге сервера: --jinja. Он включает родной chat-template модели, который и форматирует, и парсит вызовы инструментов. Без него tool-calling ломается хоть на Q4, хоть на Q8.
Событие, по словам экспертов, усилит конкуренцию в сфере ИИ.





