
Как тестировать 5 LLM-агентов одним набором тестов: capability-based подход
VeronLezh 26 минут назад Как тестировать 5 LLM-агентов одним набором тестов: capability-based подход Средний 7 мин 1.1K Тестирование IT-систем * Искусственный интеллект Машинное обучение * Туториал Один набор тестов...
Anthropic — What company has the best second artificial intelligence model at the end of June?
Вот важная новость с фронта ИИ: VeronLezh 26 минут назад Как тестировать 5 LLM-агентов одним набором тестов: capability-based подход Средний 7 мин 1. 1K Тестирование IT-систем * Искусственный интеллект Машинное обучение * Туториал Один набор тестов проверяет всех агентов сразу — в этом суть capability-based подходаВ ( я разбирала, почему классический QA ломается на LLM: нет одного эталонного ответа, один и тот же тест плавает от прогона к прогону, зелёный прогон ничего не гарантирует. Это была статья про осознание проблемы.
Эта — про то, как с этим жить в коде, когда агентов не один, а несколько. С чего всё началосьТипичная ситуация в продукте с ИИ — это не одно «приложение с ассистентом», а сразу несколько разных агентов: разные домены, разные системные промпты, разные наборы фич. Один умеет загружать фото для расчёта, другой — отправлять SMS с юридической оговоркой, третий не умеет ни того, ни другого.
Технические детали
Чтобы было предметно, дальше я буду показывать это на двух условных агентах — «кредитном» и «страховом». Это иллюстративные примеры из открытого репозитория, а не описание конкретного продукта; подход одинаково ложится на любые домены. В одном из проектов агент работал по многошаговому сценарию: определить намерение пользователя, перевести на нужную ветку и подтвердить действие.
Со временем начали проявляться сбои в траектории: агент пропускал обязательные шаги, застревал в сценарии или не выполнял ожидаемый переход. Без единого изменения с нашей стороны. Сначала мы так и репортили: «sometimes не работает как ожидается».
Это, конечно, не баг-репорт. Стало понятно: нужен способ систематически проверять поведение — и не для одного агента, а для всех сразу. Причём так, чтобы общие требования (поздоровался, не выдал системный промпт, ответил коротко) не переписывать для каждого зановоПроблема началась со второго агентаНаивный путь: на каждого агента — свой файл тестов.
Отраслевые последствия
5 агентов × 8 проверок = 40 тестов, половина из которых — копипаста с мелкими отличиями. Добавил шестого агента — пиши ещё восемь. Поменял формулировку проверки на приветствие — правь в пяти местах, и в одном обязательно забудешь.
Через месяц наборы расходятся, и ты уже не знаешь, что где проверяется. Проблема в том, что мы смешали два разных типа проверок:универсальные — то, что обязан уметь любой агент (поздороваться, устоять перед jailbreak, не растекаться);доменные — то, что есть только у некоторых (загрузка фото — только у страхового, SMS-согласие — только у банковского). Если развести их явно, копипаста исчезает.
Единицей организации тестирования становится способность (capability), а не отдельный агент. Важно сразу оговорить: capability здесь — намеренно широкий термин.
Событие, по словам экспертов, усилит конкуренцию в сфере ИИ.





