
Pollux: LLM-as-a-judge для русского
DanAsOne 24 минуты назад Pollux: LLM-as-a-judge для русского Простой 20 мин 55 Блог компании Сбер Natural Language Processing * Машинное обучение * Искусственный интеллект Open source * Туториал Прошло несколько лет с...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. DanAsOne 24 минуты назад Pollux: LLM-as-a-judge для русского Простой 20 мин 55 Блог компании Сбер Natural Language Processing * Машинное обучение * Искусственный интеллект Open source * Туториал Прошло несколько лет с тех пор, как нейросетевые модели стали применимы в генерации текста. Сегодня языковые модели уверенно решают задачи написания кода, поддержки диалогов и планирования маршрутов. Тем не менее, до сих пор не сложилось универсального подхода для валидации LLM перед их внедрением в цифровые продукты.
Один из традиционных методов — метрики на основе n-грамм: BLEU, ROUGE, METEOR. Они сравнивают ответ модели с эталоном и оценивают степень совпадений слов или фраз. Чем больше совпадений, тем лучше.
Технические детали
Но проблема в том, что эти метрики не учитывают семантику. На вопрос: «Сколько будет 2+2? » модель отвечает: «Будет четыре» — эталон «4».
Тогда может показаться хорошей идеей использовать семантические метрики: BERTScore, cosine similarity между эмбеддингами. Они же сравнивают смысл, а не буквы. Эталон:Золото не растворяется в соляной кислотеОтвет модели:Золото растворяется в соляной кислотеBERTScore ≈ 0,95 — эмбеддинги почти идентичны, частица «не» теряется в многомерном пространстве.
Корреляция всех перечисленных метрик с экспертной оценкой человека остаётся низкой. На практике это приводит к тому, что ответы LLM оценивают либо привлечённые эксперты (дорого и долго), либо разработчики «на глаз», что вносит субъективность и не гарантирует высокого качества. Но у нас есть решение!
Отраслевые последствия
В этой статье я расскажу, как мы в Sber AI обучили специализированного LLM-судью (LLM-as-a-Judge) Pollux для оценки русскоязычных LLM. Мы выложили его в открытый доступ и вы можете встроить его в свой продукт уже сегодня. СодержаниеЧто такое LLM-as-a-Judge и зачем он нужен в продуктеПочему LLM-as-a-Judge работаетКак правильно настроить LLM-as-a-JudgeЧто мы сделали в PolluxКак мы проверяли, что «судья» действительно умеет судитьКак запустить PolluxКак применять LLM-as-a-Judge в разных сценариях:Онлайн-мониторинг качестваRAG и бенчмаркиОценка безопасностиМультиагентные системыПопарное сравнение — side-by-sideReward для RLИнтеграции и примеры использования во фреймворкахLangChain и LangSmithDeepEvalLightEvalПочему стоит попробовать PolluxЧто такое LLM-as-a-Judge и зачем он нужен в продуктеЕсли вы когда‑либо промптили ИИ‑модель для своей задачи, то наверняка замечали, как различаются ответы разных версий или настроек.
Наши впечатления обычно звучат так: «этот ответ дружелюбнее», «структура стала чётче», «модель теперь реже галлюцинирует». В продукте такие качественные сравнения приходится делать постоянно, например, при выборе между разными моделями или при A/B‑тестировании промптов. Было бы идеально, если бы некий инструмент понимал нашу логику и выставлял вердикты быстрее, дешевле и в промышленных масштабах.
Именно для этого появился подход LLM‑as‑a‑Judge. Это отдельная языковая модель, которая оценивает ответы другой модели.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





