smirnoff_ai 48 минут назад Мультимодальность в ИИ-агентах: картинки на вход, картинки на выход и отказ от Multimodal RAG Простой 8 мин 2.2K Блог компании LLMStart.ru Искусственный интеллект Машинное обучение *...

Значимый прорыв формирует отрасль ИИ: smirnoff_ai 48 минут назад Мультимодальность в ИИ-агентах: картинки на вход, картинки на выход и отказ от Multimodal RAG Простой 8 мин 2. 2K Блог компании LLMStart. ru Искусственный интеллект Машинное обучение * Программирование * Управление разработкой * Кейс Мультимодальность в ИИ-агентахНа связи Сергей Смирнов, AI-инженер и основатель LLMStart.

Мы делаем AI-системы для бизнеса. Сегодня разбираем мультимодальность в нашем ИИ-агенте для компании Айтон. Этот агент консультирует сотрудников по 1С:УНФ.

Технические детали

В первой статье серии я рассказывал про контекст-инжиниринг. Во второй — про оценку качества. Сейчас поговорим про картинки.

В нашем агенте мультимодальность — это не просто модная фишка. Это реальная необходимость. Агент живет в Telegram.

Как это работает:Пользователь пишет вопрос. Часто прикрепляет скриншот с ошибкой. Агент ищет ответ в методичке.

Отраслевые последствия

Отвечает текстом и прикладывает свой скриншот-инструкцию. И вот тут логика ломается. Оказывается, у входящих и исходящих картинок — совершенно разная физика.

Нельзя просто сказать «мы используем мультимодальность» и закрыть вопрос. Выбор технологии зависит не от масштаба проекта, а от свойств самих картинок в вашем домене. Спойлер: ниже мы разберем две стороны работы со скриншотами.

Я покажу анализ 258 реальных диалогов из продакшена. И объясню, почему модный multimodal RAG (векторизация картинок) нам вообще не понадобился. Давайте разберем оба потока отдельно, а в конце сведем все в понятную схему принятия решений.

Событие, по словам экспертов, усилит конкуренцию в сфере ИИ.

Мультимодальность в ИИ-агентах: картинки на вход, картинки на выход и отказ от Multimodal RAG

Технические детали

Отраслевые последствия

Related Prediction Markets

Related News