
1C Code Bench — бенчмарк для оценки способности LLM писать код на 1С
BelowZero 24 минуты назад 1C Code Bench — бенчмарк для оценки способности LLM писать код на 1С Средний 9 мин 1.2K Блог компании Сбер Программирование * Машинное обучение * Искусственный интеллект Кейс В эпоху бума...
Вот важная новость с фронта ИИ: BelowZero 24 минуты назад 1C Code Bench — бенчмарк для оценки способности LLM писать код на 1С Средний 9 мин 1. 2K Блог компании Сбер Программирование * Машинное обучение * Искусственный интеллект Кейс В эпоху бума больших языковых моделей (LLM) возникает вопрос: насколько хорошо современные LLM пишут код на платформе 1С:Предприятие? Для объективной оценки этих возможностей мы разработали 1C Code Bench — специализированный бенчмарк, позволяющий систематически тестировать и сравнивать способности различных LLM решать типовые задачи программирования на 1С.
Кодовые бенчмаркиКодовые бенчмарки — это наборы задач для оценки способности LLM генерировать работающий код. Принцип их работы прост: модели предлагают задачу с описанием требуемой функции, она генерирует код, который затем проверяют набором тестов. Основная метрика pass@k показывает долю задач, для которых хотя бы одно из k сгенерированных решений проходит все тесты (при k = 1 это просто доля успешных решений).
Технические детали
Бенчмарки делятся на два типа:Простые бенчмарки (HumanEval, MBPP, HumanEval+) содержат изолированные алгоритмические задачи: написать одну функцию по описанию и проверить её модульными тестами. Мультиагентные бенчмарки (SWE-Bench, SWE-Bench Verified) моделируют реальную разработку: модель получает issue из GitHub-репозитория и должна самостоятельно найти нужные файлы, понять контекст и внести корректные изменения в кодовую базу. Такие бенчмарки значительно сложнее, так как требуют от модели навыков навигации по коду, понимания архитектуры и работы с несколькими файлами одновременно.
Зачем нужен бенчмарк для 1С? Существующие бенчмарки для оценки кодогенерации (HumanEval, MBPP, CodeForces и др. ) ориентированы на популярные языки программирования: Python, JavaScript, Java и так далее.
Платформа 1С:Предприятие с её встроенным языком остаётся не у дел. При этом 1С — самая популярная платформа для автоматизации бизнеса в России и СНГ. Разработчики 1С ежедневно решают задачи, которые потенциально можно автоматизировать с помощью LLM:написание запросов к базе данных;обработка табличных частей документов;формирование движений по регистрам;работа с формами и элементами управления;написание отчётов и обработок;интеграция с внешними системами.
1C Code Bench призван ответить на вопросы:Какие задачи уже решают LLM, а в какие придётся потратить больше времени на исправления глюков? Структура бенчмарка и задачиМы взяли конфигурацию «Демонстрационное приложение», добавили в неё некоторые объекты в конфигурацию, добавили небольшое количество данных и получилась наша Демо-база. Бенчмарк содержит 20 тестовых задач, разделённых на три уровня сложности:базовый: основы языка, простые операции с данными;средний: запросы, работа с документами и регистрами;сложный: комплексные бизнес-сценарии.
Событие, по словам экспертов, усилит конкуренцию в сфере ИИ.





