tgoop.com/llmsecurity/368
Last Update:
В рамках бенчмарка тестируются три сценария:
1. ID (in-distribution) – оценивает, насколько подход хорошо справляется с джейлбрейками по методу, для которого у нас есть примеры.
2. OOD (out-of-distribution) – оценивает возможность подхода адаптироваться к вариациям метода джейлбрейка.
3. Ложноположительные срабатывания.
Для генерации джейлбрейков на базе шести black-box методов используется пакет EasyJailbreak. В список методов вошли: PAIR, ReNeLLM, Skeleton Key, MSJ, Crescendo и Cipher. Чтобы сгенерировать OOD-вариацию, исследователи немного меняют подход, например, в Crescendo добавляют кодирование инструкций в base64, в PAIR – добавляют опечатки в чувствительные слова и так далее. В качестве задач берут многострадальный AdvBench, для контроля ложных срабатываний – датасет WildChat. Для расширения датасета LLM генерирует вариации джейлбрейка по образцу уже имеющихся.
Чтобы немного упростить себе задачу, авторы статьи не берут в рассмотрение подход с цензурированием генераций модели, т.е. или пытаются поймать зловредные промпты, или пытаются заставить модель на них не реагировать. Подходов выбирают пять:
1. Regex: пусть LLM генерирует нам регулярки, которыми мы будем детектить джейлбрейки (это база). Здесь и далее в качестве генератора используют Claude-3.5-Sonnet.
2. Guard Fine-tuning: будем брать LLM-цензор и файн-тюнить на джейлбрейках. В качестве цензора используется Llama-Guard-2-8b.
3. Embedding: обучим логрег на эмбеддингах промптов. Для эмбеддингов берут all-MiniLM-L6-v2.
4. Guard Few-shot: покажем LLM-цензору примеры атак в системном промпте.
5. Defense Prompt: заставим LLM генерировать специальный суффикс, который должен нейтрализовать джейлбрейки, сохраняя функциональность (это не совсем очевидно, в конце статьи есть здоровенный пример).
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/368