andrivasg только что Harness Bench: как оценить агентский harness и выбрать связку с моделью 12 мин 0 Блог компании red_mad_robot Natural Language Processing * Python * Open source * Привет! Я Андрей Иванов,...

Вот важная новость с фронта ИИ: andrivasg только что Harness Bench: как оценить агентский harness и выбрать связку с моделью 12 мин 0 Блог компании red_mad_robot Natural Language Processing * Python * Open source * Привет! Я Андрей Иванов, NLP-исследователь в R&D-лаборатории red_mad_robot. Когда мы собираем AI-агента, первым делом выбираем модель под задачу.

Но в реальном приложении она не работает в одиночку, ей нужен агентский harness — программная обвязка. Поэтому выбирать приходится не просто модель, а связку «модель + harness». Чтобы делать этот выбор осознанно, мы создали Harness Bench — открытый фреймворк, который тестирует связки на реальных задачах в одинаковых условиях.

Технические детали

В статье расскажу, как он устроен, разберу баги опенсорсных обвязок, которые ломают автоматический прогон, а потом покажу на цифрах, как смена harness влияет на способности одной и той же модели. Проблема: модель больше не весь инструментИндустрия перешла от обычных LLM к AI-агентам. Сама по себе модель — это «мозг»: она умеет только предсказывать текст.

Чтобы планировать шаги, писать и запускать код, искать информацию, ей нужны «руки». Их и даёт harness — он обращается к модели, предоставляет ей инструменты и среду выполнения. Так генерация текста превращается в полезные действия.

Раньше всю эту обвязку писали вручную и поддерживали сами. Теперь готовые решения дают её из коробки — вместе с оркестрацией и песочницами. Примеры таких harness-фреймворков: Hermes, OpenClaw, OpenCode.

Отраслевые последствия

Но их много, ведут они себя по-разному, поэтому выбрать подходящую связку непросто. IT-сообщество только приходит к тому, что harness нужно тщательно тестировать:В мае 2026 года появился проект WildClawBench. Его цель — отделить интеллект модели от качества агентской обвязки.

В свежих гайдах Anthropic подчеркнули, как важно оценивать агента в реальной среде, где он будет ошибаться и самостоятельно восстанавливать контекст. Создатели SWE-bench выпустили отдельную версию SWE-bench Verified. Выяснилось, что одна и та же модель выдаёт очень разные результаты в зависимости от harness, в который она обёрнута.

Подойдут ли нам привычные бенчмарки? Стандарты вроде SimpleQA для поиска фактов в интернете или SWE-bench для программирования создавались под completion-модели. Они жёстко привязаны к статичному формату и не рассчитаны на автономный многошаговый цикл.

Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.

Harness Bench: как оценить агентский harness и выбрать связку с моделью

Технические детали

Отраслевые последствия

Related Prediction Markets

Related News