tgoop.com/llmsecurity/40
Last Update:
Есть несколько нюансов. Во-первых, контекст атакующей модели сохраняется от итерации к итерации, в то время как целевая модель получает каждого кандидата после очистки контекста. Во-вторых, для генерации кандидатов после неудачной попытки используется паттерн chain-of-thought: перед генерацией следующего кандидата мы сначала генерируем план улучшений на основе оценки от судьи, а уже потом самого кандидата. В-третьих, поиск делается в несколько потоков (20), чтобы потом заявить, что «мы находим джейлбрейк меньше, чем за минуту» 😎. Наконец, в system prompt атакующей модели добавляются примеры, потому что few shot обычно лучше, чем без шотов вовсе.
В экспериментах в качестве атакующей LLM берется Vicuna-13B-v1.5. Пробуют также Llama-2, которая отказывается помогать, и gpt-3.5, которая, как отмечается работает чуть хуже, чем викунья.
В качестве датасета используется AdvBench, но тут исследователи решили посмотреть на данные руками и сократили его до полезного сабсета из 50 примеров. В итоге получается целиком сломать Vicuna (которая вроде как не сильно обычно сопротивляется), для 31 и 36 сценариев сломать GPT-4 и PaLM-2, сломать Claude получается плохо (он и вручную не очень-то ломается если честно).
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/40