llm security и каланы@llmsecurity P.11

llm security и каланы

Далее исследователи пытаются вызвать недопустимое поведение у трех чат-ботов (GPT-{3.5, 4} и Claude 1.3) с помощью нескольких разных атак:

1. Просто попросить 🙏🙏🥺
2. Простая атака: одна из перечисленных выше.
3. Комбинированная атака: сразу несколько из перечисленных выше, например, и prefix injection, и base64-обфускаций.
4. Топ-атаки с сайта jailbreakchat[.]com.
5. То же самое, но атака идет в system prompt, а не в пользовательский ввод.
6. «Адаптивная атака»: по сути, в этой колонке будет плюс, если сработает хоть одна из вышеперечисленных.

Для конструирования атак использовали собранный вручную набор затравок на основе примеров недопустимого поведения, упомянутых в отчетах OpenAI и Anthropic по GPT-4 и Claude соответственно. Затем атаки тестировали на 317 опасных затравках, сгенерированных GPT-4. Результаты авторы размечали вручную, чтобы не подвергать разметчиков из Mechanical Turk душевным страданиям после чтения инструкций по воровству из магазинов 💪

Ситуация в итоге довольно грустная: каждого чат-бота удалось заставить сделать почти все, что хотелось исследователям.

🫡2

www.tgoop.com/llmsecurity/11

961 viewsJan 21, 2024 at 16:05

tgoop.com/llmsecurity/11

Create: 2024-01-21
Last Update: 2025-07-14 16:43:18

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/11

Telegram News

Далее исследователи пытаются вызвать недопустимое поведение у трех чат-ботов (GPT-{3.5