На основе этих знаний исследователи демонстрируют следующую атаку, в ходе которой происходит полная эксфильтрация пользовательского диалога:
1.Пользователь триггерит (в данном случае, прямым запросом) переход на страницу с непрямым prompt injection.
2. Эта инъекция вызывает другой плагин, Doc Maker, в который сохраняется история диалога. Так украсть диалог проще, т.к. мы обходим ограничение на максимальную длину GET-запроса, которое возникает, если мы пытаемся засунуть всю историю в параметр URL картинки.
3. Ссылка на этот диалог сохраняется во второй документ через тот же Doc Maker, который мы затем просим открыть. Этот трюк помогает обойти защиту от отображения небезопасных URL: утверждается, что компонент
4. Наконец, мы просим с фронтенд помощью Markdown отрендерить картинку с параметром, включающим ссылку на результирующий второй документ, отправляя таким образом ссылку на документ с чатом злоумышленнику. Картинкой, кстати, может быть прозрачный пиксель, чтобы вызывать меньше подозрений.
В дополнении к этому, исследователи показывают, что если очень попросить, ChatGPT еще и не будет выводить описание процесса, так что пользователь вообще в итоге может не понять, что происходит, если не начнет изучать содержимое документов.
1.Пользователь триггерит (в данном случае, прямым запросом) переход на страницу с непрямым prompt injection.
2. Эта инъекция вызывает другой плагин, Doc Maker, в который сохраняется история диалога. Так украсть диалог проще, т.к. мы обходим ограничение на максимальную длину GET-запроса, которое возникает, если мы пытаемся засунуть всю историю в параметр URL картинки.
3. Ссылка на этот диалог сохраняется во второй документ через тот же Doc Maker, который мы затем просим открыть. Этот трюк помогает обойти защиту от отображения небезопасных URL: утверждается, что компонент
url_safe
разрешает рендер, если ссылка встречается в истории диалога больше одного раза.4. Наконец, мы просим с фронтенд помощью Markdown отрендерить картинку с параметром, включающим ссылку на результирующий второй документ, отправляя таким образом ссылку на документ с чатом злоумышленнику. Картинкой, кстати, может быть прозрачный пиксель, чтобы вызывать меньше подозрений.
В дополнении к этому, исследователи показывают, что если очень попросить, ChatGPT еще и не будет выводить описание процесса, так что пользователь вообще в итоге может не понять, что происходит, если не начнет изучать содержимое документов.
tgoop.com/llmsecurity/85
Create:
Last Update:
Last Update:
На основе этих знаний исследователи демонстрируют следующую атаку, в ходе которой происходит полная эксфильтрация пользовательского диалога:
1.Пользователь триггерит (в данном случае, прямым запросом) переход на страницу с непрямым prompt injection.
2. Эта инъекция вызывает другой плагин, Doc Maker, в который сохраняется история диалога. Так украсть диалог проще, т.к. мы обходим ограничение на максимальную длину GET-запроса, которое возникает, если мы пытаемся засунуть всю историю в параметр URL картинки.
3. Ссылка на этот диалог сохраняется во второй документ через тот же Doc Maker, который мы затем просим открыть. Этот трюк помогает обойти защиту от отображения небезопасных URL: утверждается, что компонент
4. Наконец, мы просим с фронтенд помощью Markdown отрендерить картинку с параметром, включающим ссылку на результирующий второй документ, отправляя таким образом ссылку на документ с чатом злоумышленнику. Картинкой, кстати, может быть прозрачный пиксель, чтобы вызывать меньше подозрений.
В дополнении к этому, исследователи показывают, что если очень попросить, ChatGPT еще и не будет выводить описание процесса, так что пользователь вообще в итоге может не понять, что происходит, если не начнет изучать содержимое документов.
1.Пользователь триггерит (в данном случае, прямым запросом) переход на страницу с непрямым prompt injection.
2. Эта инъекция вызывает другой плагин, Doc Maker, в который сохраняется история диалога. Так украсть диалог проще, т.к. мы обходим ограничение на максимальную длину GET-запроса, которое возникает, если мы пытаемся засунуть всю историю в параметр URL картинки.
3. Ссылка на этот диалог сохраняется во второй документ через тот же Doc Maker, который мы затем просим открыть. Этот трюк помогает обойти защиту от отображения небезопасных URL: утверждается, что компонент
url_safe
разрешает рендер, если ссылка встречается в истории диалога больше одного раза.4. Наконец, мы просим с фронтенд помощью Markdown отрендерить картинку с параметром, включающим ссылку на результирующий второй документ, отправляя таким образом ссылку на документ с чатом злоумышленнику. Картинкой, кстати, может быть прозрачный пиксель, чтобы вызывать меньше подозрений.
В дополнении к этому, исследователи показывают, что если очень попросить, ChatGPT еще и не будет выводить описание процесса, так что пользователь вообще в итоге может не понять, что происходит, если не начнет изучать содержимое документов.
BY llm security и каланы


Share with your friend now:
tgoop.com/llmsecurity/85