
MLE-bench: золото взято, а доказательства остались в /tmp
dmagog 28 минут назад MLE-bench: золото взято, а доказательства остались в /tmp Средний 7 мин 1K Машинное обучение * Искусственный интеллект Python * Кейс Из песочницы В апреле мой агент смог перешагнуть золотой порог...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. dmagog 28 минут назад MLE-bench: золото взято, а доказательства остались в /tmp Средний 7 мин 1K Машинное обучение * Искусственный интеллект Python * Кейс Из песочницы В апреле мой агент смог перешагнуть золотой порог на MLE-bench в агентских соревнованиях Berkeley RDI, а когда я решил показать «тот самый код, который взял золото» — понял, что не уверен, существует ли он вообще. Меня зовут Георгий, и в своей первой статье на площадке я решил разобраться, что же происходило на самом деле. Цифровой детектив: с чем я преодолел планку, где этот результат теперь (спойлер: нигде) и сколько смысла в этом «золоте».
Это история о том, как я расследовал собственную «победу»Про сами агентские соревнования уже хорошо написали коллеги из AI Talent Hub — пост «Агент против агента». В них агентов оценивали не по тексту ответа, а по реальным действиям — где сам бенчмарк становится агентом: зелёный агент-судья общается с твоим — фиолетовым агентом напрямую. Соревнование, где судья тоже агентСоревнование AgentX–AgentBeats от Berkeley RDI проходило с осени 2025 по лето 2026: осенью команды собирали агентов-оценщиков, а весной — соревновались агенты-решатели.
Технические детали
Больше 3400 участников второй фазы и больше десятка треков: финансы, игры, исследования, computer-use, безопасность, мультиагентность и другие. Для себя я выбрал MLE-bench — бенчмарк ML-инженерии. MLE-bench — это набор из 75 реальных Kaggle-соревнований (изначально от OpenAI), на котором проверяют, способен ли агент пройти весь путь ML-инженера сам: прочитать данные, собрать признаки, обучить модели и отдать валидный submission.
Пороги золота, серебра и бронзы берутся из перцентилей оригинальной Kaggle-доски. Главный твист формата: бенчмарк — сам агент. Зелёный (green) агент-оценщик выдаёт задачу фиолетовому (purple) агенту-решателю по протоколу A2A, тот её решает, Зелёный считает результат.
Человека в цикле нет. Green-агент (MLE-bench) │ A2A: tar. gz — данные и условие задачи ▼ Purple-агент: LLM-петля, до 30 итераций модель пишет код → run_python → вывод → назад в контекст → (повтор) … пока в рабочей папке не появится submission.
Отраслевые последствия
csv │ A2A: submission. csv (base64) ▼ Green-агент: метрика по скрытому тесту → сверка с порогами На MLE-bench Зелёный судит механически: прогоняет метрику соревнования по скрытому тесту и сверяет с порогами. Не как в разговорных треках вроде τ²-bench — там зелёный агент сам ведёт диалог, спорит и решает, дотащил ли ты задачу.
«Агенты судят агентов» здесь означает «агент ставит задачу и сводит счёт», а не «кто ему больше понравился». Задача мне выпала классическая: Spaceship Titanic — бинарная классификация, ~8700 строк train и ~4300 test, метрика — accuracy. Золотой стандарт всех курсов по Data Science и соревнованиях Kaggle.
Улика: как Зелёный передаёт задачу ФиолетовомуМой purple-агент — сервис на FastAPI, который говорит на A2A. Зелёный присылает соревнование архивом tar. gz в частях A2A-сообщения (base64).
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





