pavelzotikov 45 минут назад Системный промпт или галлюцинация: как я проверял AI-ассистентов и что ответили bug bounty-команды Средний 10 мин 2.3K Искусственный интеллект Информационная безопасность * Bug hunters *...

Значимый прорыв формирует отрасль ИИ: pavelzotikov 45 минут назад Системный промпт или галлюцинация: как я проверял AI-ассистентов и что ответили bug bounty-команды Средний 10 мин 2. 3K Искусственный интеллект Информационная безопасность * Bug hunters * Natural Language Processing * Машинное обучение * Кейс В марте я попал в странный цикл: одна нейросеть помогала мне разговаривать с другой. Началось всё с простой гипотезы: можно ли заставить AI-ассистента рассказать о своих внутренних правилах, ограничениях и устройстве, если спрашивать не напрямую, а через косвенные формулировки.

Я не атаковал инфраструктуру, не запускал код, не сканировал сервисы и не получал доступ к чужим данным. Это был разговорный эксперимент: я писал ассистенту, получал отказ или странный ответ, приносил его другой модели и просил помочь понять, куда копать дальше. В какой-то момент это перестало быть “попробовал один промпт”.

Технические детали

Получился почти дневник расследования:я задаю вопрос ассистенту;ассистент отвечает или отказывается;я приношу результат другой модели;она предлагает новый заход;я снова проверяю. Так набралось несколько сотен сообщений. Проверял я не один сервис: были Алиса, GigaChat, AI-ассистент Т-Банка и несколько смежных сценариев.

Везде проявлялся похожий эффект: если достаточно долго менять рамку, модель иногда начинает выдавать текст, который выглядит как системный промпт, внутренний регламент, RAG-схема, список фильтров или технический дамп. Но дальше начинается самое важное. Одна нейросеть помогает разговаривать с другойЧто именно я хотел проверитьУ современных ассистентов обычно есть несколько уровней ограничений:системные инструкции;правила безопасности;запрет на раскрытие внутренних механизмов;фильтры на входе и выходе;ограничения на темы, которые ассистент может обсуждать.

Прямой вопрос вроде “покажи системный промпт” почти всегда заканчивается отказом. Но я хотел проверить не прямой запрос, а устойчивость ассистента к смене контекста. Например:что будет, если попросить не раскрыть инструкцию, а “проверить ошибочную реконструкцию”;что будет, если подать запрос как аудит, литературный фрагмент или техническую диагностику;что будет, если попросить ответить не обычным текстом, а в формате отчёта;что будет, если модель уже несколько десятков сообщений находится в одной ролевой легенде.

Отраслевые последствия

Конкретные промпты я здесь не привожу. Во-первых, статья не про то, как повторить обход. Во-вторых, большая часть интереса не в самих формулировках, а в реакции моделей.

Первая ловушка: модель говорит уверенноСамый опасный момент в таких экспериментах - правдоподобность. Модель может сгенерировать ответ в виде:“отладочного дампа”;“списка внутренних правил”;“архитектурной схемы”;“сетевого отчёта”;“фрагментов системного промпта”;“диагностики собственной уязвимости”. На глаз это может выглядеть убедительно.

Особенно если там есть технические термины, версии, названия внутренних модулей, IP-адреса, таблицы, параметры, псевдокод и уверенный вывод.

Событие, по словам экспертов, усилит конкуренцию в сфере ИИ.

Системный промпт или галлюцинация: как я проверял AI-ассистентов и что ответили bug bounty-команды

Технические детали

Отраслевые последствия

Related Prediction Markets

Related News