
RAG-Anything: Как собрать по-настоящему мультимодальный RAG
Magnificus 12 минут назад RAG-Anything: Как собрать по-настоящему мультимодальный RAG Средний 8 мин 521 Блог компании BotHub Машинное обучение * Искусственный интеллект Лайфхаки для гиков Программирование * Обзор...
В сфере искусственного интеллекта произошло заметное событие. Magnificus 12 минут назад RAG-Anything: Как собрать по-настоящему мультимодальный RAG Средний 8 мин 521 Блог компании BotHub Машинное обучение * Искусственный интеллект Лайфхаки для гиков Программирование * Обзор Существует множество достойных RAG-фреймворков, проверенных на многочисленных бенчмарках, так что точность работы системы в современных реалиях - не такая большая проблема. Однако, для любого, кто сталкивался с прикладной интеграцией RAG в рабочие пайплайны, не секрет, что рано или поздно сталкиваешься с постобработкой многочисленных форматов. Комбинируешь OCR, парсеры, ридеры…RAG-Anything устраняет ненужные телодвижения.
С помощью RAG-Anything возможно обрабатывать подавляющее большинство ходовых форматов файлов. В этой статье мы разберем механизм работы фреймворка и на примере посмотрим, как он работает с изображениями. Чем обеспечена мультимодальность?
Технические детали
Значительная часть известных RAG-фреймворков рассчитана на работу, прежде всего, с текстовыми данными. Но и ежу понятно, что чаще всего мы используем сложные по своей структуре документы а-ля pdf-файл с картинками, таблицами, графиками, форматированным текстом, и все это сочетается в одном файле. Согласитесь, что для использования RAG-подхода в небольшом проекте создание классов для обработки каждого нужного формата, а также OCR и NER кажется избыточным.
RAG-Anything, разработанный командой Гонконгского университета (HKU), решает эту проблему кардинально. В основе своей использует LightRAG. Все доступные для обработки форматы в RAG-AnythingPDF, DOC, DOCX, PPT, PPTX, XLS, XLSX, TXT, MD, HTML, JPG, JPEG, PNG, BMP, TIFF, GIF, WEBP Как же он работает?
Не является ли это тупой мешаниной всех тулзов? Давайте взглянем поближе: Схема работы RAG-Anything изнутриПайплайн обработки можно описать следующим образом: Парсинг -> Мультимодальная обработка -> Мультимодальные анализаторы -> Мультимодальный граф знаний + векторное хранилище. Что происходит внутри?
Отраслевые последствия
Парсинг документовДля парсинга документов используется MinerU. Он превращает медиа-контент в формат, удобный для работы LLM (markdown, json). Также сохраняется все форматирование документа (заголовки, таблички, отступы и т.
)Мультимодальная обработкаФреймворк использует разные каналы для обработки контента, опираясь на его тип. Он может одновременно обрабатывать pdf, . png и просто текстовое представление благодаря использованию разных каналов обработки.
Мультимодальные анализаторыФреймворк использует дополнительную обработку для мультимодального контента в лице анализаторов. Среди анализаторов представлены следующие категории:Анализатор визуала (интеграция OCR, структура и иерархия расположения визуальных элементов). Интерпретатор структуры документа (таблички, отступы, и тд.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.




