nlaik 5 минут назад Почему AI-агент ищет по коду неправильно, и как это чинит cocoindex-code за две команды Средний 9 мин 9 Искусственный интеллект Open source * Программирование * Обзор Большинство харнессов ищут...

В сфере искусственного интеллекта произошло заметное событие. nlaik 5 минут назад Почему AI-агент ищет по коду неправильно, и как это чинит cocoindex-code за две команды Средний 9 мин 9 Искусственный интеллект Open source * Программирование * Обзор Большинство харнессов ищут grep’ом по ключевым словам, а не по смыслу. Поставил AST-based семантический поиск на свой проект, разобрался с устройством и сравнил с CodeGraph и SocratiCodeЕсли вы работаете с Claude Code, Cursor или Codex на большом проекте, то знаете типичную боль: просишь агента «найди, где у нас обрабатывается авторизация», а он начинает гонять grep по ключевым словам. Если функция называется validateUserSession, а вы спросили про «авторизацию» — grep её не найдёт, потому что он ищет совпадение строк, а не смысл.

Агент бегает по файлам, жжёт токены, и через десяток вызовов либо находит, либо сдаётся. Это фундаментальное ограничение текстового поиска. И его решает семантический поиск — когда запрос и код сопоставляются по смыслу через эмбеддинги, а не по буквальному совпадению.

Технические детали

Я уже разбирал на Хабре два инструмента из этой ниши — CodeGraph (граф символов через tree-sitter) и SocratiCode (векторный поиск на Qdrant). Недавно мне попался третий — cocoindex-code, и он зацепил меня тем, что ставится буквально в две команды и работает без настройки баз данных. Поставил, прогнал на своём проекте, разобрался с устройством.

Что приятно — телеграм-пост, через который я узнал про инструмент, оказался на удивление честным. Обычно я трачу полстатьи на разбор маркетинговых преувеличений, но тут почти всё, что заявлено, подтверждается. Что это и в чём идеяcocoindex-code (CLI-команда ccc) — это легковесный инструмент семантического поиска по кодовой базе.

7k звёзд на GitHub, построен поверх движка CocoIndex — это Rust-движок для трансформации данных от тех же авторов. Ключевая идея — дать coding-агенту инструмент, который ищет по смыслу, а не по тексту. Вместо grep агент делает запрос «find how user sessions are managed», и получает релевантные куски кода, даже если слова «session» в них нет.

Отраслевые последствия

Главное отличие от аналогов, которое меня и заинтересовало — zero config. Не нужно поднимать Qdrant в Docker (как у SocratiCode), не нужно настраивать векторную БД, не нужен API-ключ для эмбеддингов. Всё работает локально из коробки.

Установка реально в две команды, и я это проверил. Заявленная экономия — 70% токенов для coding-агента. Цифра из README, и она правдоподобна: вместо того чтобы агент читал десятки файлов целиком, он получает несколько точечных релевантных чанков.

Установка: реально две командыТут без подвоха. Ставится через pipx:pipx install 'cocoindex-code' Флаг важен — он тянет sentence-transformers для локальных эмбеддингов, чтобы всё работало без API-ключа. По умолчанию используется модель Snowflake/snowflake-arctic-embed-xs — маленькая и быстрая.

Событие, по словам экспертов, усилит конкуренцию в сфере ИИ.

Почему AI-агент ищет по коду неправильно, и как это чинит cocoindex-code за две команды

Технические детали

Отраслевые последствия

Related Prediction Markets

Related News