AI-агенты в продакшене: почему demo не равно реальность
nlaik 13 минут назад AI-агенты в продакшене: почему demo не равно реальность Уровень сложности Средний Время на прочтение 8 мин Охват и читатели 353 Машинное обучение * Искусственный интеллект Python * Кейс Из песочницы...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. nlaik 13 минут назад AI-агенты в продакшене: почему demo не равно реальность Уровень сложности Средний Время на прочтение 8 мин Охват и читатели 353 Машинное обучение * Искусственный интеллект Python * Кейс Из песочницы Как я строил агента для код-ревью на LangGraph и где сломалась красивая теория Пару месяцев назад я смотрел демку: AI-агент получал пулл-реквест, пробегал по diff-у, находил потенциальный race condition и писал развёрнутый комментарий с предложением фикса. Всё это занимало около 40 секунд. В нашей команде ревью давно стало бутылочным горлышком.
Двое сеньоров, около двенадцати PR в день, каждый висит в очереди по полдня. Идея автоматизировать первый проход — типовые замечания, проверки стайлгайда, очевидные ошибки — выглядела очень соблазнительно. Я прикинул план: LangGraph для оркестрации, GPT-4 в качестве модели, GitHub API для интеграции.
Технические детали
Неделя на прототип, ещё неделя на полировку. Дальше можно катить в продакшен. Забегая вперёд, скажу, что я ошибся в оценке примерно в четыре раза.
А результат оказался совсем не тем, что я ожидал. Ниже расскажу, что именно пошло не так и какие выводы я сделал. Постановка задачи Изначально требования выглядели понятно.
Есть PR, в нём diff — набор изменённых файлов. Агент должен: проверить код на соответствие нашему стайлгайду: именование, структура, паттерны; найти типовые ошибки: необработанные исключения, потенциальные утечки ресурсов, забытые await; оценить очевидные проблемы с производительностью; написать комментарии в PR, как это сделал бы живой ревьюер. Заменять человека я не планировал.
Отраслевые последствия
Идея была в том, чтобы агент делал первый проход, а сеньор, открывая PR, видел готовые замечания по мелочам и мог сосредоточиться на архитектуре и бизнес-логике. Архитектура на старте получилась линейной. Webhook от GitHub запускает пайплайн, агент забирает diff и контекст файлов, разбивает изменения на чанки по файлам, для каждого чанка вызывает LLM, собирает все замечания в один список, дедуплицирует и публикует комментарии в PR.
│ ▼ │ ▼ │ ▼ │ ▼ │ ▼ Чисто, линейно, понятно. И, как выяснилось позже, наивно. Прототип на LangGraph MVP я собрал за четыре дня.
LangGraph удобен тем, что граф описывается декларативно: каждая нода — это функция, рёбра определяют поток данных, а состояние передаётся через типизированный словарь. Ниже — упрощённый скелет графа. Я опускаю обработку ошибок, ретраи и работу с GitHub API, чтобы сосредоточиться на структуре.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





