
Сломанный кэш выглядит как рабочий: prompt caching для тех, кто строит LLM-агентов
xonika9 15 минут назад Сломанный кэш выглядит как рабочий: prompt caching для тех, кто строит LLM-агентов Простой 12 мин 414 Искусственный интеллект Машинное обучение * Обзор Когда оптимизация ломается, она обычно об...
Anthropic — What company has the best second artificial intelligence model at the end of June?
Вот важная новость с фронта ИИ: xonika9 15 минут назад Сломанный кэш выглядит как рабочий: prompt caching для тех, кто строит LLM-агентов Простой 12 мин 414 Искусственный интеллект Машинное обучение * Обзор Когда оптимизация ломается, она обычно об этом сообщает: падает тест, прилетает алерт. Prompt caching устроен иначе. Сломанный кэш не выдаёт ни одной ошибки: агент работает как ни в чём не бывало, просто каждый ответ обходится в разы дороже и приходит на пару секунд позже.
Единственное место, где поломку видно, это счёт в конце месяца. 💡 Впервые написал это у себя в блоге «Контролируемые галлюцинации». Оригинал статьи здесьЯ строю агента поверх моделей OpenAI и долго не вспоминал про кэш вообще: там он включён по умолчанию, бесплатен на запись, и кажется, что думать не о чем.
Технические детали
Ровно здесь и спрятана ловушка. Автоматика снимает с тебя заботу ровно до тех пор, пока ты сам, из лучших побуждений, не добавишь в начало промпта пару полезных строк. Вся дисциплина кэша держится на одном правиле: стабильное в начало, изменчивое в хвост.
Звучит просто, нарушается легко, а на агентах цена ошибки кратная. В этой статье разберу, что провайдер на самом деле сохраняет в кэш, чем подходы OpenAI, Anthropic и Google отличаются друг от друга, как собрать промпт, который не убивает собственный кэш, и по каким полям проверять, что он работает. Почему на агентах кэш это воздух, а не бонусЧтобы понять, почему кэш для агента критичен, надо вспомнить, как агент устроен.
Сама модель ничего не помнит, она stateless. Память держит обвязка. Каждый ход она заново собирает в один запрос системные инструкции, описания всех инструментов, всю историю прошлых действий и свежий ввод.
Отраслевые последствия
Даже когда состояние хранит сам провайдер, как Responses API у OpenAI с его previous_response_id, памяти у модели не прибавляется: диалог лежит у сервиса, а контекст всё равно прочитывается заново на каждом ходу. Такой режим экономит сеть, но не prefill, поэтому кэш он не заменяет. Большая часть этого контекста, как формулирует Lance Martin, от хода к ходу одна и та же, и без кэша ты платишь за неё целиком каждый раз заново.
Почему такая "память" это дорогая вычислительная работа, а не пассивный склад, я разбирал в анатомии памяти LLM и инженерии контекста. Насколько перекошен баланс, лучше всего показывает Manus: у их агента отношение входных токенов к выходным держится около 100 к 1. На один короткий ответ приходятся десятки тысяч токенов контекста, и почти весь он повторяется ход за ходом.
Для обычного чата это мелочь. Для агента вроде моего, который крутится в цикле по двадцать-тридцать ходов, основная статья расходов. У всех трёх крупных провайдеров чтение из кэша стоит примерно в десять раз дешевле обычного входного токена.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.




