Три попытки обогнать в бенче базовую Gemma 4 дообучением — и все три мимо
daniel_ivanov 1 час назад Три попытки обогнать в бенче базовую Gemma 4 дообучением — и все три мимо Простой 6 мин 1.2K Open source * Искусственный интеллект Кейс У нас есть открытый бенчмарк для оценки русскоязычных LLM...
В сфере искусственного интеллекта произошло заметное событие. daniel_ivanov 1 час назад Три попытки обогнать в бенче базовую Gemma 4 дообучением — и все три мимо Простой 6 мин 1. 2K Open source * Искусственный интеллект Кейс У нас есть открытый бенчмарк для оценки русскоязычных LLM на спортивном домене — ЛИИ-Спорт-Bench-RU, 655 экспертных вопросов по 35 видам спорта. В прошлой статье мы выбрали базовую модель: Gemma 4 31B.
После этого начался главный вопрос — как сделать её лучше под домен. Две недели мы пытались обогнать собственную базу. Потом ещё раз файнтюном на переделанном корпусе.
Технические детали
Все три раунда базовая версия выиграла. Это статья про отрицательный результат. Я считаю, он полезнее победы — потому что его можно воспроизвести (и научиться на моих ошибках) и он объясняет, какой инструмент лучше бы подошел под какую задачу.
Дальше — цифры, стек и три разбора «почему не взлетело». Вводные: что и на чём измерялиБенчмарк — 655 вопросов, 8 категорий (правила, методика, биомеханика, психология, регуляторика, история, антидопинг, сценарные ситуации), три уровня сложности. Для итераций гоняли пилотный срез на 200 вопросах.
Судейство — классический для наших подходов ансамбль из трёх независимых моделей: Claude Opus 4. Каждый ответ оценивается по рубрике (точность / полнота / бонус / русский язык), берётся среднее по трём судьям. Self-judging bias раскрыт: Opus и Gemini одновременно и кандидаты в других прогонах, и судьи здесь — смещение замерено и зафиксировано.
Отраслевые последствия
Железо — арендованный сервер с RTX PRO 6000 Blackwell на 96 ГБ. Софтовый стэк — llama. cpp (server-cuda), Q8_0, контекст 32K, KV-кэш тоже Q8.
Важная деталь: и базу, и все дообученные варианты гоняли на одном и том же стеке (llama. cpp Q8), чтобы сравнение было честным — а не «база через OpenRouter против нашего GGUF» (честно, сначала так и сделал, OR самый простой вариант, но похоже там BF16). Точка отсчёта:base gemma-4-31b-it (llama.
cpp Q8, 200 вопросов, ансамбль из 3 судей) overall 7. SFT (LoRA): дообучили — стало хужеПервый подход — supervised fine-tuning. LoRA через Unsloth (Gemma 4 со своим head_dim=512 не дружит с обычным FlashAttention-2 — Unsloth со своими ядрами это закрывает; обычный LoRA, не DoRA, иначе ломается merge в GGUF).
Событие, по словам экспертов, усилит конкуренцию в сфере ИИ.





