sm1ck 54 минуты назад AI-компаньон в проде на третьем месяце — 5 архитектурных решений и инфра-тюнинг Средний 25 мин 1.8K Искусственный интеллект Python * Машинное обучение * Кейс Из песочницы Каждый, кто пробовал...

Значимый прорыв формирует отрасль ИИ: sm1ck 54 минуты назад AI-компаньон в проде на третьем месяце — 5 архитектурных решений и инфра-тюнинг Средний 25 мин 1. 8K Искусственный интеллект Python * Машинное обучение * Кейс Из песочницы Каждый, кто пробовал собрать AI-чат по типовой схеме — chat-completions API, OpenAI Memory, один эндпоинт Stable Diffusion — рано или поздно упирается в одни и те же стены. Бот забывает разговор через десять реплик.

Иногда сервер бодро отвечает HTTP 200, как будто всё в порядке, а внутри — пустая строка: ни ошибки, ни таймаута, модель просто отказалась говорить и сделала это молча. Один и тот же текстовый запрос рисует двух разных персонажей. А одеть нарисованного персонажа в конкретное платье из каталога не получается вообще.

Технические детали

Я три месяца держу в проде AI-компаньона: один и тот же бэкенд обслуживает и Telegram-бот, и веб-приложение. Аудитория — сотни ежедневных пользователей, не сотни тысяч. Конверсия из бесплатного в платный тариф — однозначные проценты, как у любого продукта на ранней стадии.

Поэтому в статье не будет цифр про «миллион MAU», но будут цены за тысячу токенов, реальные доли попаданий в кеш, дневные потолки трат и до/после по тонкой настройке прода. Эта статья — четыре инженерных build-log поста, которые я выкладывал на dev. to (серия «Building HoneyChat»), сведённые в один связный материал на русском.

Плюс два раздела, которых в исходниках не было: про деньги (юнит-экономика на третьем месяце) и про операционный тюнинг, который сдвинул потолок DAU больше чем в два раза без переписывания архитектуры. ОглавлениеПамять: Redis + ChromaDBМаршрутизация LLM и кеш промптовВизуальная консистентность: LoRA и IP-AdapterЮнит-экономика на третьем месяцеПрод-тюнинг: что подкрутил в инфре на третьем месяцеЧто бы переделал, начав сейчасГде это работает в проде и источникиTL;DRПамять — Redis под свежий буфер реплик плюс ChromaDB под сжатые пересказы кусков диалога. Три чтения параллельно.

Отраслевые последствия

Превращать каждое отдельное сообщение в вектор — прямая дорога к индексу на миллионы документов с плохим поиском. Маршрутизация LLM — у пользователя в UI два темпа отношений (slow_burn и instant) плюс legacy-дефолт natural. Под каждый темп, под каждый тариф — своя модель.

Плюс цепочка резервных через разных провайдеров. Главная ловушка, на которой все спотыкаются: модель отвечает HTTP 200, а внутри пустая строка и причина «сработал фильтр контента» — не ошибка, не падение, просто тишина. Кеш промптов — на Gemini 3.

1 Flash Lite один маркер cache_control: ephemeral поверх системного промпта (это стартовые инструкции с описанием персонажа и правилами поведения) экономит 75% на закешированной части запроса. У меня этот один маркер закрывает четверть всего LLM-бюджета. Картинки — LoRA, небольшая надстройка над базовой моделью, которую вы дообучаете под каждого персонажа отдельно.

Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.

AI-компаньон в проде на третьем месяце — 5 архитектурных решений и инфра-тюнинг

Технические детали

Отраслевые последствия

Related Prediction Markets

Related News