tgoop.com/llmsecurity/28
Last Update:
MasterKey: Automated Jailbreak Across Multiple Large Language Model Chatbots
Deng et al., 2023
Статья, сайт
Сегодня у нас в программе статья класса «Я прочитал, чтобы вам не пришлось». Сейчас мы с вами узнаем, какие модели разрушают национальное единство, что общего у ERNIE и гигачата и причём тут SQL-инъекции.
Статья подана (и принята) на конференцию NDSS, и если вы о ней не слышали, то вы в этом не одиноки. В работе исследователи рассматривают атаки не только на конкретные white-box/black-box модели, но и на сервисы, которые могут иметь те или иные механизмы защиты.
Эти механизмы защиты могут быть самые разные и включать в себя как фильтрацию входа (пре-фильтрацию), так и разные способы пост-фильтрации. Чтобы понять, какой именно метод используется, исследователи предлагают воспользоваться опытом слепых SQL-инъекций, а именно слепых атак, основанных на времени. Представьте, что у вас есть возможность исполнять SQL-код на удалённой системе, но вы не можете прочитать вывод. Вы можете добавить в запрос клаузу IF и выполнить команду SLEEP на несколько секунд, чтобы, например, узнать версию сервера. Отследив время ответа сервера, вы можете получить ответ на свой вопрос.
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/28