llm security и каланы@llmsecurity P.85

llm security и каланы

На основе этих знаний исследователи демонстрируют следующую атаку, в ходе которой происходит полная эксфильтрация пользовательского диалога:

1.Пользователь триггерит (в данном случае, прямым запросом) переход на страницу с непрямым prompt injection.
2. Эта инъекция вызывает другой плагин, Doc Maker, в который сохраняется история диалога. Так украсть диалог проще, т.к. мы обходим ограничение на максимальную длину GET-запроса, которое возникает, если мы пытаемся засунуть всю историю в параметр URL картинки.
3. Ссылка на этот диалог сохраняется во второй документ через тот же Doc Maker, который мы затем просим открыть. Этот трюк помогает обойти защиту от отображения небезопасных URL: утверждается, что компонент url_safe разрешает рендер, если ссылка встречается в истории диалога больше одного раза.
4. Наконец, мы просим с фронтенд помощью Markdown отрендерить картинку с параметром, включающим ссылку на результирующий второй документ, отправляя таким образом ссылку на документ с чатом злоумышленнику. Картинкой, кстати, может быть прозрачный пиксель, чтобы вызывать меньше подозрений.

В дополнении к этому, исследователи показывают, что если очень попросить, ChatGPT еще и не будет выводить описание процесса, так что пользователь вообще в итоге может не понять, что происходит, если не начнет изучать содержимое документов.

www.tgoop.com/llmsecurity/85

130 viewsMar 10, 2024 at 19:09

tgoop.com/llmsecurity/85

Create: 2024-03-10
Last Update: 2025-07-06 19:27:28

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/85

Telegram News

На основе этих знаний исследователи демонстрируют следующую атаку