tgoop.com/llmsecurity/48
Last Update:
Исследователи сразу говорят, что метод строится на основе PAIR и является его расширением (т.е. PAIR его частный случай). Однако они отмечают две проблемы, связанные с PAIR:
1. В части случаев PAIR начинает генерировать промпты-кандидаты, которые сильно отходят от темы. Причем если не исключать такие off-topic промпты из истории диалога, то и будущие попытки с большей вероятностью будут off-topic.
2. В процессе улучшения изначальной попытки джейлбрейка атакующая LLM не исследует разные стратегии, а скатывается в повторение, внося лишь небольшие изменения в первую попытку.
Утверждается, что поскольку используется древовидная структура диалогов, то авторам получается добиться большего разнообразия диалогов, а первый шаг удаления нерелевантных промптов позволяет оптимизировать процесс.
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/48