LLMSECURITY Telegram 368
В рамках бенчмарка тестируются три сценария:

1. ID (in-distribution) – оценивает, насколько подход хорошо справляется с джейлбрейками по методу, для которого у нас есть примеры.
2. OOD (out-of-distribution) – оценивает возможность подхода адаптироваться к вариациям метода джейлбрейка.
3. Ложноположительные срабатывания.

Для генерации джейлбрейков на базе шести black-box методов используется пакет EasyJailbreak. В список методов вошли: PAIR, ReNeLLM, Skeleton Key, MSJ, Crescendo и Cipher. Чтобы сгенерировать OOD-вариацию, исследователи немного меняют подход, например, в Crescendo добавляют кодирование инструкций в base64, в PAIR – добавляют опечатки в чувствительные слова и так далее. В качестве задач берут многострадальный AdvBench, для контроля ложных срабатываний – датасет WildChat. Для расширения датасета LLM генерирует вариации джейлбрейка по образцу уже имеющихся.

Чтобы немного упростить себе задачу, авторы статьи не берут в рассмотрение подход с цензурированием генераций модели, т.е. или пытаются поймать зловредные промпты, или пытаются заставить модель на них не реагировать. Подходов выбирают пять:

1. Regex: пусть LLM генерирует нам регулярки, которыми мы будем детектить джейлбрейки (это база). Здесь и далее в качестве генератора используют Claude-3.5-Sonnet.
2. Guard Fine-tuning: будем брать LLM-цензор и файн-тюнить на джейлбрейках. В качестве цензора используется Llama-Guard-2-8b.
3. Embedding: обучим логрег на эмбеддингах промптов. Для эмбеддингов берут all-MiniLM-L6-v2.
4. Guard Few-shot: покажем LLM-цензору примеры атак в системном промпте.
5. Defense Prompt: заставим LLM генерировать специальный суффикс, который должен нейтрализовать джейлбрейки, сохраняя функциональность (это не совсем очевидно, в конце статьи есть здоровенный пример).



tgoop.com/llmsecurity/368
Create:
Last Update:

В рамках бенчмарка тестируются три сценария:

1. ID (in-distribution) – оценивает, насколько подход хорошо справляется с джейлбрейками по методу, для которого у нас есть примеры.
2. OOD (out-of-distribution) – оценивает возможность подхода адаптироваться к вариациям метода джейлбрейка.
3. Ложноположительные срабатывания.

Для генерации джейлбрейков на базе шести black-box методов используется пакет EasyJailbreak. В список методов вошли: PAIR, ReNeLLM, Skeleton Key, MSJ, Crescendo и Cipher. Чтобы сгенерировать OOD-вариацию, исследователи немного меняют подход, например, в Crescendo добавляют кодирование инструкций в base64, в PAIR – добавляют опечатки в чувствительные слова и так далее. В качестве задач берут многострадальный AdvBench, для контроля ложных срабатываний – датасет WildChat. Для расширения датасета LLM генерирует вариации джейлбрейка по образцу уже имеющихся.

Чтобы немного упростить себе задачу, авторы статьи не берут в рассмотрение подход с цензурированием генераций модели, т.е. или пытаются поймать зловредные промпты, или пытаются заставить модель на них не реагировать. Подходов выбирают пять:

1. Regex: пусть LLM генерирует нам регулярки, которыми мы будем детектить джейлбрейки (это база). Здесь и далее в качестве генератора используют Claude-3.5-Sonnet.
2. Guard Fine-tuning: будем брать LLM-цензор и файн-тюнить на джейлбрейках. В качестве цензора используется Llama-Guard-2-8b.
3. Embedding: обучим логрег на эмбеддингах промптов. Для эмбеддингов берут all-MiniLM-L6-v2.
4. Guard Few-shot: покажем LLM-цензору примеры атак в системном промпте.
5. Defense Prompt: заставим LLM генерировать специальный суффикс, который должен нейтрализовать джейлбрейки, сохраняя функциональность (это не совсем очевидно, в конце статьи есть здоровенный пример).

BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/368

View MORE
Open in Telegram


Telegram News

Date: |

Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link). Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. Unlimited number of subscribers per channel Just as the Bitcoin turmoil continues, crypto traders have taken to Telegram to voice their feelings. Crypto investors can reduce their anxiety about losses by joining the “Bear Market Screaming Therapy Group” on Telegram. Add up to 50 administrators
from us


Telegram llm security и каланы
FROM American