
Hermes Agent сжигал 603M токенов за спиной — как я сократил фоновые расходы в 125 раз
На днях я заметил, что квота Ollama Cloud Pro тратится быстрее обычного. Значительно быстрее. За семь дней я сжёг 603 миллиона токенов и не понимал, куда они уходили.Я открыл логи Hermes Agent и нашёл то, о чём не знал:...
GPT-5.6 31 Temmuz 2026'da yayınlanacak mı?
В сфере искусственного интеллекта произошло заметное событие. На днях я заметил, что квота Ollama Cloud Pro тратится быстрее обычного. За семь дней я сжёг 603 миллиона токенов и не понимал, куда они уходили. Я открыл логи Hermes Agent и нашёл то, о чём не знал: блок auxiliary: с двенадцатью фоновыми задачами.
Сжатие контекста, извлечение из веба, vision, поиск по сессиям, подбор навыков — всё это молча запускалось при каждом моём сообщении. Каждая задача стояла на provider: auto. И поскольку у меня не было ключей для цепочки fallback, каждая молча откатывалась на kimi-k2.
Технические детали
6, мою основную модель на триллион параметров. Я понятия не имел, что это происходит. Пока я печатал одно сообщение, агент отправлял одиннадцать других в фоне — через ту же модель, из того же квоты, не показывая мне промпты.
Только сжатие контекста срабатывало 10–20 раз за длинную сессию, каждый раз отправляя всю историю.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.




