tgoop.com/llmsecurity/26
Last Update:
Как уже упоминалось, не совсем понятно, почему авторы называют низкую энтропию «скрытностью»: все-таки, она позволяет защититься только от одного вида потенциальных детекторов джейлбрейков. Кроме того, из black-box-моделей тестировали только GPT-3.5 (предполагаю, что Claude, который приучен DAN-подобные джейлбрейки игнорировать, SEO-оптимизацией тоже не будет впечатлен, но на PaLM-2 взглянуть можно бы было). Если хочется иметь джейлбрейк для себя, то краткий GCG-суффикс (а то и soft-prompt) кажется более предпочтительным. С другой стороны, этот метод, кажется, вполне можно реализовать поверх llama-cpp и гонять у себя на калькуляторе 🍜.
В следующий раз мы посмотрим на статью, в которой исследуется не модели/API в изоляции, а чат-боты как приложения.
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/26