llm security и каланы@llmsecurity P.40

llm security и каланы

Есть несколько нюансов. Во-первых, контекст атакующей модели сохраняется от итерации к итерации, в то время как целевая модель получает каждого кандидата после очистки контекста. Во-вторых, для генерации кандидатов после неудачной попытки используется паттерн chain-of-thought: перед генерацией следующего кандидата мы сначала генерируем план улучшений на основе оценки от судьи, а уже потом самого кандидата. В-третьих, поиск делается в несколько потоков (20), чтобы потом заявить, что «мы находим джейлбрейк меньше, чем за минуту» 😎. Наконец, в system prompt атакующей модели добавляются примеры, потому что few shot обычно лучше, чем без шотов вовсе.

В экспериментах в качестве атакующей LLM берется Vicuna-13B-v1.5. Пробуют также Llama-2, которая отказывается помогать, и gpt-3.5, которая, как отмечается работает чуть хуже, чем викунья.

В качестве датасета используется AdvBench, но тут исследователи решили посмотреть на данные руками и сократили его до полезного сабсета из 50 примеров. В итоге получается целиком сломать Vicuna (которая вроде как не сильно обычно сопротивляется), для 31 и 36 сценариев сломать GPT-4 и PaLM-2, сломать Claude получается плохо (он и вручную не очень-то ломается если честно).

www.tgoop.com/llmsecurity/40

174 viewsFeb 6, 2024 at 20:36

tgoop.com/llmsecurity/40

Create: 2024-02-06
Last Update: 2025-07-24 15:19:29

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/40

Telegram News

Есть несколько нюансов. Во-первых