
Агент против агента: опыт участия в агентских соревнованиях BitGN PAC1 и AgentBeats
ai-talent 1 час назад Агент против агента: опыт участия в агентских соревнованиях BitGN PAC1 и AgentBeats Средний 8 мин 2.4K Искусственный интеллект Машинное обучение * Карьера в IT-индустрии Мнение Егор...
GPT-5.6 31 Temmuz 2026'da yayınlanacak mı?
В сфере искусственного интеллекта произошло заметное событие. ai-talent 1 час назад Агент против агента: опыт участия в агентских соревнованиях BitGN PAC1 и AgentBeats Средний 8 мин 2. 4K Искусственный интеллект Машинное обучение * Карьера в IT-индустрии Мнение Егор СпиринРуководитель лаборатории прикладных агентов (ЛаПА) AI Talent HubПривет, Хабр! Меня зовут Егор Спирин, я руковожу лабораторией прикладных агентов (ЛаПА) в AI Talent Hub при ИТМО.
Мне всегда были интересны соревнования в IT — сначала ICPC, где важны алгоритмы и скорость, потом Kaggle, где всё сводится к одной метрике на фиксированном датасете. В обоих случаях понятно, что именно оценивается и как улучшить результат. Агентные соревнования устроены иначе: здесь оценивается не ответ, а поведение системы в процессе.
Технические детали
Это ставит новый вопрос — как вообще провести такое соревнование? В этой статье расскажу о сути агентских соревнований, чем они отличаются от классических, и об опыте участия в BitGN PAC1 и AgentBeats. Откуда берется метрика и почему с агентами все сложнееЦель соревнования в машинном обучении — показать лучший результат на задаче.
Есть датасет, метрика, участники пытаются выбить число как можно больше. Классификация — измеряем F1-score. Распознавание объектов на фото — считаем, сколько правильно нашли людей и собак.
Все прозрачно: у тебя есть число, у лидера есть число, разница — это отставание, которое нужно сократить. Подаешь предсказания на тестовую выборку, платформа сверяет с правильными ответами, возвращает метрику. Никакой неопределенности в том, что именно измеряется.
Отраслевые последствия
Агент устроен иначе: он получает задачу и сам решает, как её выполнить. С этим возникает сразу несколько вопросов. Первый — бинарная метрика слишком груба.
Решил задачу или нет — важно, но недостаточно. Нас еще интересует оптимальность: сколько шагов сделал агент, сколько времени занял прогон, сколько токенов потратил. Два агента могут оба решить задачу, но один сделал это за 8 tool calls, а другой — за 47 с тремя retries.
Это разный результат. Второй — у нас нет такого же размера данных. Раньше на соревнованиях давали датасеты, на которых можно обучать модели и запускать проверки.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.




