
Мультимодальность в ИИ-агентах: картинки на вход, картинки на выход и отказ от Multimodal RAG
smirnoff_ai 48 минут назад Мультимодальность в ИИ-агентах: картинки на вход, картинки на выход и отказ от Multimodal RAG Простой 8 мин 2.2K Блог компании LLMStart.ru Искусственный интеллект Машинное обучение *...
Значимый прорыв формирует отрасль ИИ: smirnoff_ai 48 минут назад Мультимодальность в ИИ-агентах: картинки на вход, картинки на выход и отказ от Multimodal RAG Простой 8 мин 2. 2K Блог компании LLMStart. ru Искусственный интеллект Машинное обучение * Программирование * Управление разработкой * Кейс Мультимодальность в ИИ-агентахНа связи Сергей Смирнов, AI-инженер и основатель LLMStart.
Мы делаем AI-системы для бизнеса. Сегодня разбираем мультимодальность в нашем ИИ-агенте для компании Айтон. Этот агент консультирует сотрудников по 1С:УНФ.
Технические детали
В первой статье серии я рассказывал про контекст-инжиниринг. Во второй — про оценку качества. Сейчас поговорим про картинки.
В нашем агенте мультимодальность — это не просто модная фишка. Это реальная необходимость. Агент живет в Telegram.
Как это работает:Пользователь пишет вопрос. Часто прикрепляет скриншот с ошибкой. Агент ищет ответ в методичке.
Отраслевые последствия
Отвечает текстом и прикладывает свой скриншот-инструкцию. И вот тут логика ломается. Оказывается, у входящих и исходящих картинок — совершенно разная физика.
Нельзя просто сказать «мы используем мультимодальность» и закрыть вопрос. Выбор технологии зависит не от масштаба проекта, а от свойств самих картинок в вашем домене. Спойлер: ниже мы разберем две стороны работы со скриншотами.
Я покажу анализ 258 реальных диалогов из продакшена. И объясню, почему модный multimodal RAG (векторизация картинок) нам вообще не понадобился. Давайте разберем оба потока отдельно, а в конце сведем все в понятную схему принятия решений.
Событие, по словам экспертов, усилит конкуренцию в сфере ИИ.





