LLMSECURITY Telegram 437
Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack
Mark Russinovich et al, Microsoft, 2023
Препринт, сайт

В отдельной серии разборов хочется посмотреть на методы джейлбрейкинга, которые пока обходились стороной, поэтому сегодня посмотрим на один из примеров многоступенчатого джейлбрейка, а именно популярного за счет пиар-машины Microsoft подхода под названием Crescendo.

Суть атаки достаточно проста: давайте будем задавать интересующий нас запретный запрос не в лоб, а аккуратно подведем LLM к нужной теме и будем задавать все более и более конкретные вопросы, пока в контекстном окне модели не накопится достаточно материала, который бы делал ответ на наш вопрос логично вытекающим из предыдущих. Отмечается, что это похоже на «ногу в двери» - технику психологической манипуляции, в которой у человека просят оказать небольшую услугу, чтобы повысить шансы, что он согласится в дальнейшем на гораздо большую просьбу.

Исследователи приводят пример с коктейлем Молотова. Если попросить рецепт прямо, модель откажет. Если спросить, какие самодельные виды оружия применялись в гражданской войне в Испании, как они были изобретены, а уже потом уточнить, а какой у зажигательной смеси конкретный способ приготовления, то модель предоставит нужный ответ. Отмечается, что Crescendo не требует white-box-доступа и может использоваться в мультимодальных сценариях для того, чтобы заставить систему со встроенным генератором картинок нарисовать что-то запретное.



tgoop.com/llmsecurity/437
Create:
Last Update:

Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack
Mark Russinovich et al, Microsoft, 2023
Препринт, сайт

В отдельной серии разборов хочется посмотреть на методы джейлбрейкинга, которые пока обходились стороной, поэтому сегодня посмотрим на один из примеров многоступенчатого джейлбрейка, а именно популярного за счет пиар-машины Microsoft подхода под названием Crescendo.

Суть атаки достаточно проста: давайте будем задавать интересующий нас запретный запрос не в лоб, а аккуратно подведем LLM к нужной теме и будем задавать все более и более конкретные вопросы, пока в контекстном окне модели не накопится достаточно материала, который бы делал ответ на наш вопрос логично вытекающим из предыдущих. Отмечается, что это похоже на «ногу в двери» - технику психологической манипуляции, в которой у человека просят оказать небольшую услугу, чтобы повысить шансы, что он согласится в дальнейшем на гораздо большую просьбу.

Исследователи приводят пример с коктейлем Молотова. Если попросить рецепт прямо, модель откажет. Если спросить, какие самодельные виды оружия применялись в гражданской войне в Испании, как они были изобретены, а уже потом уточнить, а какой у зажигательной смеси конкретный способ приготовления, то модель предоставит нужный ответ. Отмечается, что Crescendo не требует white-box-доступа и может использоваться в мультимодальных сценариях для того, чтобы заставить систему со встроенным генератором картинок нарисовать что-то запретное.

BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/437

View MORE
Open in Telegram


Telegram News

Date: |

Clear The visual aspect of channels is very critical. In fact, design is the first thing that a potential subscriber pays attention to, even though unconsciously. A Hong Kong protester with a petrol bomb. File photo: Dylan Hollingsworth/HKFP. To upload a logo, click the Menu icon and select “Manage Channel.” In a new window, hit the Camera icon. Telegram iOS app: In the “Chats” tab, click the new message icon in the right upper corner. Select “New Channel.”
from us


Telegram llm security и каланы
FROM American