llm security и каланы@llmsecurity P.368

llm security и каланы

В рамках бенчмарка тестируются три сценария:

1. ID (in-distribution) – оценивает, насколько подход хорошо справляется с джейлбрейками по методу, для которого у нас есть примеры.
2. OOD (out-of-distribution) – оценивает возможность подхода адаптироваться к вариациям метода джейлбрейка.
3. Ложноположительные срабатывания.

Для генерации джейлбрейков на базе шести black-box методов используется пакет EasyJailbreak. В список методов вошли: PAIR, ReNeLLM, Skeleton Key, MSJ, Crescendo и Cipher. Чтобы сгенерировать OOD-вариацию, исследователи немного меняют подход, например, в Crescendo добавляют кодирование инструкций в base64, в PAIR – добавляют опечатки в чувствительные слова и так далее. В качестве задач берут многострадальный AdvBench, для контроля ложных срабатываний – датасет WildChat. Для расширения датасета LLM генерирует вариации джейлбрейка по образцу уже имеющихся.

Чтобы немного упростить себе задачу, авторы статьи не берут в рассмотрение подход с цензурированием генераций модели, т.е. или пытаются поймать зловредные промпты, или пытаются заставить модель на них не реагировать. Подходов выбирают пять:

1. Regex: пусть LLM генерирует нам регулярки, которыми мы будем детектить джейлбрейки (это база). Здесь и далее в качестве генератора используют Claude-3.5-Sonnet.
2. Guard Fine-tuning: будем брать LLM-цензор и файн-тюнить на джейлбрейках. В качестве цензора используется Llama-Guard-2-8b.
3. Embedding: обучим логрег на эмбеддингах промптов. Для эмбеддингов берут all-MiniLM-L6-v2.
4. Guard Few-shot: покажем LLM-цензору примеры атак в системном промпте.
5. Defense Prompt: заставим LLM генерировать специальный суффикс, который должен нейтрализовать джейлбрейки, сохраняя функциональность (это не совсем очевидно, в конце статьи есть здоровенный пример).

GitHub

GitHub - EasyJailbreak/EasyJailbreak: An easy-to-use Python framework to generate adversarial jailbreak prompts.

An easy-to-use Python framework to generate adversarial jailbreak prompts. - EasyJailbreak/EasyJailbreak

www.tgoop.com/llmsecurity/368

300 viewsNov 16, 2024 at 13:26

tgoop.com/llmsecurity/368

Create: 2024-11-16
Last Update: 2025-06-29 14:45:35

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/368

Telegram News

В рамках бенчмарка тестируются три сценария: