nlaik 13 минут назад AI-агенты в продакшене: почему demo не равно реальность Уровень сложности Средний Время на прочтение 8 мин Охват и читатели 353 Машинное обучение * Искусственный интеллект Python * Кейс Из песочницы...

В сфере искусственного интеллекта произошло заметное событие. nlaik 13 минут назад AI-агенты в продакшене: почему demo не равно реальность Уровень сложности Средний Время на прочтение 8 мин Охват и читатели 353 Машинное обучение * Искусственный интеллект Python * Кейс Из песочницы Как я строил агента для код-ревью на LangGraph и где сломалась красивая теория Пару месяцев назад я смотрел демку: AI-агент получал пулл-реквест, пробегал по diff-у, находил потенциальный race condition и писал развёрнутый комментарий с предложением фикса. Всё это занимало около 40 секунд. В нашей команде ревью давно стало бутылочным горлышком.

Двое сеньоров, около двенадцати PR в день, каждый висит в очереди по полдня. Идея автоматизировать первый проход — типовые замечания, проверки стайлгайда, очевидные ошибки — выглядела очень соблазнительно. Я прикинул план: LangGraph для оркестрации, GPT-4 в качестве модели, GitHub API для интеграции.

Технические детали

Неделя на прототип, ещё неделя на полировку. Дальше можно катить в продакшен. Забегая вперёд, скажу, что я ошибся в оценке примерно в четыре раза.

А результат оказался совсем не тем, что я ожидал. Ниже расскажу, что именно пошло не так и какие выводы я сделал. Постановка задачи Изначально требования выглядели понятно.

Есть PR, в нём diff — набор изменённых файлов. Агент должен: проверить код на соответствие нашему стайлгайду: именование, структура, паттерны; найти типовые ошибки: необработанные исключения, потенциальные утечки ресурсов, забытые await; оценить очевидные проблемы с производительностью; написать комментарии в PR, как это сделал бы живой ревьюер. Заменять человека я не планировал.

Отраслевые последствия

Идея была в том, чтобы агент делал первый проход, а сеньор, открывая PR, видел готовые замечания по мелочам и мог сосредоточиться на архитектуре и бизнес-логике. Архитектура на старте получилась линейной. Webhook от GitHub запускает пайплайн, агент забирает diff и контекст файлов, разбивает изменения на чанки по файлам, для каждого чанка вызывает LLM, собирает все замечания в один список, дедуплицирует и публикует комментарии в PR.

│ ▼ │ ▼ │ ▼ │ ▼ │ ▼ Чисто, линейно, понятно. И, как выяснилось позже, наивно. Прототип на LangGraph MVP я собрал за четыре дня.

LangGraph удобен тем, что граф описывается декларативно: каждая нода — это функция, рёбра определяют поток данных, а состояние передаётся через типизированный словарь. Ниже — упрощённый скелет графа. Я опускаю обработку ошибок, ретраи и работу с GitHub API, чтобы сосредоточиться на структуре.

Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.

AI-агенты в продакшене: почему demo не равно реальность

Технические детали

Отраслевые последствия

Related Prediction Markets

Related News