
Пять документов ломают ваш RAG: где реальная уязвимость и что с ней делать
kmoseenk 11 часов назад Пять документов ломают ваш RAG: где реальная уязвимость и что с ней делать Уровень сложности Средний Время на прочтение 12 мин Охват и читатели 7.8K Блог компании OTUS Машинное обучение *...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. kmoseenk 11 часов назад Пять документов ломают ваш RAG: где реальная уязвимость и что с ней делать Уровень сложности Средний Время на прочтение 12 мин Охват и читатели 7. 8K Блог компании OTUS Машинное обучение * Искусственный интеллект Информационная безопасность * Аналитика Перевод Автор оригинала: Christian Schneider Материал подготовлен для будущих студентов курс "NLP / Natural Language Processing". У RAG-систем есть фундаментальный парадокс доверия: пользовательские запросы считаются недоверенным вводом, а извлеченный из базы знаний контекст по умолчанию считается доверенным, хотя и то и другое попадает в один и тот же промпт.
Согласно исследованию, опубликованному на USENIX Security 2025 (или см. github репо ), всего пять тщательно подготовленных документов, нацеленных на конкретный запрос, могут манипулировать ответами ИИ с успешностью более 90% даже в базе из миллионов документов. OWASP LLM08:2025 теперь формально признает слабые места в векторах и эмбеддингах одним из рисков топ-10, включая атаки с обратным восстановлением эмбеддингов, которые при компрометации векторов позволяют восстановить 50–70% исходных слов во входных данных.
Технические детали
Защита RAG требует глубокой эшелонированной обороны на этапах загрузки данных, поиска и генерации: каждый документ нужно рассматривать как код, а каждый эмбеддинг – как чувствительные данные. Если вы уже развернули систему генерации с дополнением из поиска (Retrieval-Augmented Generation, RAG), ваша команда безопасности, скорее всего, сосредоточилась на очевидном векторе атаки: вредоносных пользовательских запросах. Вы добавили проверку ввода, внедрили защитные ограничения, то есть фильтры, которые выявляют и блокируют вредоносные промпты, а возможно, даже развернули классификатор промпт-инъекций.
Дверь со стороны пользователя заперта. Но есть и вторая граница доверия. И ее часто оставляют без защиты.
RAG работает так: система извлекает релевантные документы из базы знаний и добавляет их в контекст большой языковой модели вместе с пользовательским запросом. Такая архитектура создает неявное разделение по уровню доверия, которое большинство команд безопасности даже не ставит под сомнение: пользовательский ввод недоверенный, а извлеченный контент доверенный. В конце концов, он ведь поступает из вашей собственной базы знаний.
Отраслевые последствия
Именно это допущение становится архитектурной уязвимостью, из-за которой RAG-системы особенно уязвимы. Злоумышленник, который может повлиять на то, что попадает в вашу базу знаний, то есть в корпус документов, из которого система извлекает данные, может внедрить вредоносные инструкции через загрузку документов, интеграции данных или скомпрометированные конвейеры обработки данных. Эти инструкции обойдут все пользовательские защитные механизмы, которые вы развернули.
Угроза не входит через парадную дверь, которую вы охраняете. Она попадает внутрь через корпус, которому вы доверяете.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





