LLMSECURITY Telegram 11
Далее исследователи пытаются вызвать недопустимое поведение у трех чат-ботов (GPT-{3.5, 4} и Claude 1.3) с помощью нескольких разных атак:

1. Просто попросить 🙏🙏🥺
2. Простая атака: одна из перечисленных выше.
3. Комбинированная атака: сразу несколько из перечисленных выше, например, и prefix injection, и base64-обфускаций.
4. Топ-атаки с сайта jailbreakchat[.]com.
5. То же самое, но атака идет в system prompt, а не в пользовательский ввод.
6. «Адаптивная атака»: по сути, в этой колонке будет плюс, если сработает хоть одна из вышеперечисленных.

Для конструирования атак использовали собранный вручную набор затравок на основе примеров недопустимого поведения, упомянутых в отчетах OpenAI и Anthropic по GPT-4 и Claude соответственно. Затем атаки тестировали на 317 опасных затравках, сгенерированных GPT-4. Результаты авторы размечали вручную, чтобы не подвергать разметчиков из Mechanical Turk душевным страданиям после чтения инструкций по воровству из магазинов 💪

Ситуация в итоге довольно грустная: каждого чат-бота удалось заставить сделать почти все, что хотелось исследователям.
🫡2



tgoop.com/llmsecurity/11
Create:
Last Update:

Далее исследователи пытаются вызвать недопустимое поведение у трех чат-ботов (GPT-{3.5, 4} и Claude 1.3) с помощью нескольких разных атак:

1. Просто попросить 🙏🙏🥺
2. Простая атака: одна из перечисленных выше.
3. Комбинированная атака: сразу несколько из перечисленных выше, например, и prefix injection, и base64-обфускаций.
4. Топ-атаки с сайта jailbreakchat[.]com.
5. То же самое, но атака идет в system prompt, а не в пользовательский ввод.
6. «Адаптивная атака»: по сути, в этой колонке будет плюс, если сработает хоть одна из вышеперечисленных.

Для конструирования атак использовали собранный вручную набор затравок на основе примеров недопустимого поведения, упомянутых в отчетах OpenAI и Anthropic по GPT-4 и Claude соответственно. Затем атаки тестировали на 317 опасных затравках, сгенерированных GPT-4. Результаты авторы размечали вручную, чтобы не подвергать разметчиков из Mechanical Turk душевным страданиям после чтения инструкций по воровству из магазинов 💪

Ситуация в итоге довольно грустная: каждого чат-бота удалось заставить сделать почти все, что хотелось исследователям.

BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/11

View MORE
Open in Telegram


Telegram News

Date: |

It’s easy to create a Telegram channel via desktop app or mobile app (for Android and iOS): To edit your name or bio, click the Menu icon and select “Manage Channel.” Among the requests, the Brazilian electoral Court wanted to know if they could obtain data on the origins of malicious content posted on the platform. According to the TSE, this would enable the authorities to track false content and identify the user responsible for publishing it in the first place. Other crimes that the SUCK Channel incited under Ng’s watch included using corrosive chemicals to make explosives and causing grievous bodily harm with intent. The court also found Ng responsible for calling on people to assist protesters who clashed violently with police at several universities in November 2019. How to create a business channel on Telegram? (Tutorial)
from us


Telegram llm security и каланы
FROM American