
1C Code Bench — спустя 5 месяцев
BelowZero 25 минут назад 1C Code Bench — спустя 5 месяцев Средний 5 мин 836 Блог компании Сбер 1С * Программирование * Искусственный интеллект Бенчмарк разработан в Управлении экспериментальных систем машинного обучения...
Вот важная новость с фронта ИИ: BelowZero 25 минут назад 1C Code Bench — спустя 5 месяцев Средний 5 мин 836 Блог компании Сбер 1С * Программирование * Искусственный интеллект Бенчмарк разработан в Управлении экспериментальных систем машинного обучения Sber Al. Мы учим собственные модели, активно продвигаем науку в области, ставим уникальные эксперименты, пишем статьи уровня А* и создаем собственные бенчмарки. 1C Code Bench создан командой GigaCode R&D и командой разметки УЭСМО.
В прошлой статье я описал 1C Code Bench — бенчмарк для оценки способности LLM писать правильный код на 1С. Там я описал принципы составления задач и проверки результатов, использованные технологии и прочее. На момент написания той статьи бенчмарк насчитывал 20 задач.
Технические детали
Где мы сейчасВ чём слабость маленьких бенчмарков:статистический шум;малое покрытие разнообразия бизнес-требований;слишком большая гранулярность ранжирования;слишком большое влияние задач-аутлайеров. В текущей версии уже 147 задач — вполне серьёзный набор, чтобы делать замеры без вышеперечисленных недостатков. Помимо увеличения количества мы ввели градации сложности — простые, средние и сложные.
Цель задач осталась прежней: модель должна написать одну функцию на языке 1С, которая выполняет определённую бизнес-задачу. Результаты оценки десяти популярных моделейМы измеряли:compile rate — решение получает статус compile, если оно прошло проверку синтаксиса и код отработал без ошибок;success rate — решение получает статус success, если результат написанного кода прошёл проверочный тест. Кто участвовал в забеге:МодельВендорХарактеристикаGemini 3 ProGoogleФлагман линейки Gemini, с длинным контекстом и сильным reasoning.
Gemini 3 FlashGoogleЛёгкий и быстрый младший брат Pro, дешевле в инференсе. 6AnthropicТоповая модель Anthropic. 6AnthropicСредняя по размеру и цене модель Anthropic, одноклассник Gemini 3 Flash.
Отраслевые последствия
5OpenAIФлагман общей линейки GPT-5. 3 CodexOpenAIСпециализированный для кодогенерации вариант GPT-5. AI (Zhipu AI)Открытая большая MoE-модель из Китая, обучена в том числе писать код.
6 MaxAlibabaСамая большая MoE-модель из линейки Qwen, открытая. 6 35BAlibabaМаленькая dense-модель той же линейки, целевой сценарий — локальный запуск. DeepSeek V4 ProDeepSeekОткрытая флагманская MoE-модель от Deepseek.
Не все измеряемые модели находятся в одной весовой категории — в наборе есть и тяжёлые проприетарные флагманы (Gemini 3 Pro, Opus 4. 5), и средние модели (Sonnet 4. 6, Gemini 3 Flash), и большие открытые MoE (GLM 5.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





