
Как работает адаптивный RAG, которому вообще не нужна LLM
SecretEditor 1 час назад Как работает адаптивный RAG, которому вообще не нужна LLM Средний 5 мин 2.8K Блог компании MWS AI Блог компании МТС Машинное обучение * Алгоритмы * Искусственный интеллект Обзор Один из самых...
Значимый прорыв формирует отрасль ИИ: SecretEditor 1 час назад Как работает адаптивный RAG, которому вообще не нужна LLM Средний 5 мин 2. 8K Блог компании MWS AI Блог компании МТС Машинное обучение * Алгоритмы * Искусственный интеллект Обзор Один из самых популярных способов снизить процент галлюцинаций языковых моделей — метод RAG, то есть схема, в которой модель при необходимости обращается к внешним данным, а не опирается исключительно на внутренние знания. Все LLM текущего поколения работают с RAG, но он делает систему затратнее по вычислениям и сам по себе может допускать ошибки, если внешний контекст оказался плохим или нерелевантным.
Сегодня я разберу исследование LLM-Independent Adaptive RAG: Let the Question Speak for Itself, в котором ученые из MWS AI, AIRI, Сколтеха и еще нескольких университетов предлагают решение этой проблемы через новый подход к adaptive retrieval, когда RAG запускается не автоматом, а только при необходимости. В чем новизна методаВы будете правы, если воскликнете – «концепция не принципиально новая! Но не спешите с выводами: практически все существующие adaptive RAG-подходы принимают решение "искать/не искать" через саму LLM: по её внутренним состояниям, по выходным сигналам или согласно оценке неопределённости.
Технические детали
А это снова даёт заметные вычислительные затраты и во многом съедает тот выигрыш в эффективности, ради которого adaptive retrieval вообще и задумывался. Авторы исследования предлагают отказаться от дорогой проверки необходимости RAG через LLM. и заменить её более лёгким способом: определять, нужен ли retrieval, по внешним признакам самого вопроса и связанных с ним сущностей.
Свой подход они назвали LLM-independent adaptive retrieval. Иными словами, ученые предлагают смотреть не внутрь модели, а на сам вопрос. Для этого собираются внешние признаки, связанные с вопросом и сущностями в нём.
К примеру: степень популярности по просмотрам в Wikipedia; хорошо ли сама модель в принципе знает такие сущности;какого типа вопрос и насколько он сложный. Дальше схема работает так:Сначала система получает вопрос → из этого вопроса извлекаются нужные внешние признаки → после этого лёгкий классификатор (не LLM) решает, нужен retrieval или нет. Если нужен, система идёт во внешний поиск и уже потом отдаёт найденный контекст генеративной модели.
Отраслевые последствия
Если не нужен, модель отвечает сразу, без лишнего шага. И в этом главная фича: решение о поиске выносится из дорогого слоя большой модели в более дешёвый слой признаков и классификатора. Даже признак knowledgability, который связан со знанием сущностей моделью, просчитывается заранее: метод LLM-independent adaptive retrieval предвычисляет такие оценки и потом используют их без нового запроса к LLM на каждом вопросе.
Собственно этот подход позволяет тратить на решение о поиске менее 1% вычислительных ресурсов (FLOPs) от общей стоимости генерации ответа, что значительно дешевле классических подходов RAG.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





