
Harness Bench: как оценить агентский harness и выбрать связку с моделью
andrivasg только что Harness Bench: как оценить агентский harness и выбрать связку с моделью 12 мин 0 Блог компании red_mad_robot Natural Language Processing * Python * Open source * Привет! Я Андрей Иванов,...
<5 — 2026'da uzaya kaç SpaceX Starship fırlatması ulaşacak?
Вот важная новость с фронта ИИ: andrivasg только что Harness Bench: как оценить агентский harness и выбрать связку с моделью 12 мин 0 Блог компании red_mad_robot Natural Language Processing * Python * Open source * Привет! Я Андрей Иванов, NLP-исследователь в R&D-лаборатории red_mad_robot. Когда мы собираем AI-агента, первым делом выбираем модель под задачу.
Но в реальном приложении она не работает в одиночку, ей нужен агентский harness — программная обвязка. Поэтому выбирать приходится не просто модель, а связку «модель + harness». Чтобы делать этот выбор осознанно, мы создали Harness Bench — открытый фреймворк, который тестирует связки на реальных задачах в одинаковых условиях.
Технические детали
В статье расскажу, как он устроен, разберу баги опенсорсных обвязок, которые ломают автоматический прогон, а потом покажу на цифрах, как смена harness влияет на способности одной и той же модели. Проблема: модель больше не весь инструментИндустрия перешла от обычных LLM к AI-агентам. Сама по себе модель — это «мозг»: она умеет только предсказывать текст.
Чтобы планировать шаги, писать и запускать код, искать информацию, ей нужны «руки». Их и даёт harness — он обращается к модели, предоставляет ей инструменты и среду выполнения. Так генерация текста превращается в полезные действия.
Раньше всю эту обвязку писали вручную и поддерживали сами. Теперь готовые решения дают её из коробки — вместе с оркестрацией и песочницами. Примеры таких harness-фреймворков: Hermes, OpenClaw, OpenCode.
Отраслевые последствия
Но их много, ведут они себя по-разному, поэтому выбрать подходящую связку непросто. IT-сообщество только приходит к тому, что harness нужно тщательно тестировать:В мае 2026 года появился проект WildClawBench. Его цель — отделить интеллект модели от качества агентской обвязки.
В свежих гайдах Anthropic подчеркнули, как важно оценивать агента в реальной среде, где он будет ошибаться и самостоятельно восстанавливать контекст. Создатели SWE-bench выпустили отдельную версию SWE-bench Verified. Выяснилось, что одна и та же модель выдаёт очень разные результаты в зависимости от harness, в который она обёрнута.
Подойдут ли нам привычные бенчмарки? Стандарты вроде SimpleQA для поиска фактов в интернете или SWE-bench для программирования создавались под completion-модели. Они жёстко привязаны к статичному формату и не рассчитаны на автономный многошаговый цикл.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





