
Как дать AI-агенту не лом, а ключ от браузера: разбираем agent-browser от Vercel
kee_real 17 минут назад Как дать AI-агенту не лом, а ключ от браузера: разбираем agent-browser от Vercel Уровень сложности Простой Время на прочтение 5 мин Охват и читатели 1.2K Искусственный интеллект Программирование...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. kee_real 17 минут назад Как дать AI-агенту не лом, а ключ от браузера: разбираем agent-browser от Vercel Уровень сложности Простой Время на прочтение 5 мин Охват и читатели 1. 2K Искусственный интеллект Программирование * Веб-разработка * Браузеры Обзор agent-browser против монстра-DOM-дерева Если вы в последнее время пытались прикрутить к своему любимому LLM-агенту возможность самостоятельно гулять по интернету, дебажить веб-приложения, и даже верстать, вы наверняка столкнулись с суровой реальностью. Оказывается, засунуть современный веб в контекстное окно нейросети — очень "дорогая" задача.
Обычно в таких случаях не глядя берут проверенные инструменты вроде Puppeteer или Playwright, которые обернуты в те самые три буквы MCP . Но ребята из Vercel недавно выкатили свою альтернативу — agent-browser (cli-утилиту, написанную на связке Rust и, некогда Node, но об этом позже). Зачем понадобился еще один велосипед для автоматизации, если у нас уже есть стандарты индустрии?
Технические детали
Что не так с существующими решениями (Puppeteer, Playwright MCP и тд) Никто не спорит, Playwright и Puppeteer — это шедевры инженерии. Они идеально подходят для того, для чего создавались: детерминированного end-to-end тестирования, CI/CD пайплайнов и предсказуемого парсинга. Но когда мы пытаемся передать управление браузером AI-агенту через популярный сейчас Model Context Protocol (MCP), начинается боль, и заканчиваются токены.
Агенту нужно "видеть" контент страницы, чтобы понимать, куда кликать. Есть два основных способа дать ему эту возможность: Скормить сырой HTML. И моментально выжечь весь контекст на одном только DOM-дереве тяжелого SPA-приложения.
Отдать Accessibility Tree. Это стандартный подход для MCP-серверов, но полные деревья весят все равно неадекватно много. Проблема совершенно не выдумана.
Отраслевые последствия
Загляните в issue-трекеры популярных инструментов: например, в официальном репозитории ChromeDevTools/chrome-devtools-mcp разработчики прямо показывают в логах , как один только клик и снятие снимка сложной страницы (вроде Jupyter Notebook) выбивает в трубу от 15 000 до 200 000 токенов за шаг. Агент делает пару кликов, забывает, зачем вообще пришел на сайт и как его зовут, и с треском падает с ошибкой context length exceeded . К тому же, LLM часто галлюцинируют в сложных CSS-селекторах.
В итоге традиционные инструменты заставляют агента жрать лишние токены и постоянно промахиваться мимо кнопок. Как Vercel избавились от лишнего и в своем же решении в том числе Команда Vercel последнее время плотно занялась AI-инструментами (тот же v0, инфра для агентов и тд) и столкнулась с очевидным затыком: им нужен был способ валидации фронтенда. Когда автономный кодинговый агент пишет компонент, он должен сам открыть браузер, покликать и убедиться, что всё работает.
Изначально они слепили гибрид: Rust-клиент плюс тяжелый фоновый процесс на Node.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





