
Как мы перешли на Opus и стали платить меньше
python_leader 13 минут назад Как мы перешли на Opus и стали платить меньше Уровень сложности Простой Время на прочтение 6 мин Охват и читатели 821 Искусственный интеллект Машинное обучение * DevOps * Программирование *...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. python_leader 13 минут назад Как мы перешли на Opus и стали платить меньше Уровень сложности Простой Время на прочтение 6 мин Охват и читатели 821 Искусственный интеллект Машинное обучение * DevOps * Программирование * Кейс Перевод Автор оригинала: Andrea Luzzardi На прошлой неделе мы писали о том, как скармливали терабайты CI-логов LLM . Большинство вопросов на Hacker News касались не самих логов — спрашивали про агента: какие модели, как они взаимодействуют и во сколько всё это обходится. Сейчас мы работаем на Opus 4.
6 и платим меньше, чем когда всё крутилось на Sonnet 4. Причина в основном в том, чего Opus не делает : 80% сбоев до него не доходят, а когда доходят — он не читает ни одной строки лога. Архитектура выглядит так: Пусть дешёвый агент решает, нужен ли дорогой На прошлой неделе мы проанализировали около 4 000 CI-сбоев.
Технические детали
818 оказались новыми проблемами. Остальные 3 187 — это уже известная проблема, которая снова всплыла: нестабильный тест, сбой инфраструктуры, сетевой глюк, который мы уже фиксировали. Нет смысла поднимать дорогую модель, если в 80% случаев ответ — «это дубликат».
К сожалению, детектировать дубликаты детерминированно невозможно: одна и та же задача может падать по совершенно разным причинам, поэтому нужно реально смотреть в логи, чтобы понять, встречали ли вы это раньше. Изначально мы использовали Sonnet — как баланс между ценой и качеством. Работало, но это было худшее из двух миров: всё равно дорого, и результаты хуже, чем у frontier-модели.
Мы перешли на паттерн «triager»: Haiku-агент с очень конкретной и узкой задачей. Отслеживается ли эта проблема уже или нет? Если нет — эскалация до Opus.
Отраслевые последствия
Детектировать дубликаты с Haiku оказалось непросто. Чтобы максимально упростить задачу, мы прикрепили сообщения об ошибках к предыдущим сбоям и дали Haiku два инструмента поиска: точное совпадение для известных фрагментов ошибок и семантический поиск ( pgvector ) для похожих, но не идентичных ошибок. RAG умер, а семантический поиск — вполне себе.
operator does not exist bigint character varying и migration type mismatch on installation_id — разные строки, но одна и та же первопричина, и семантический поиск это видит. Haiku-агент читает логи, ищет сообщения об ошибках, пытается найти совпадение с известными сбоями и принимает решение. При сомнениях — эскалирует.
Ложноположительный результат стоит немного денег; ложноотрицательный означает, что мы пропустим что-то реальное. 4 из 5 сбоев до Opus не доходят. Совпадение у triager стоит примерно в 25 раз меньше, чем полное расследование.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





