llm security и каланы@llmsecurity P.26

llm security и каланы

Как уже упоминалось, не совсем понятно, почему авторы называют низкую энтропию «скрытностью»: все-таки, она позволяет защититься только от одного вида потенциальных детекторов джейлбрейков. Кроме того, из black-box-моделей тестировали только GPT-3.5 (предполагаю, что Claude, который приучен DAN-подобные джейлбрейки игнорировать, SEO-оптимизацией тоже не будет впечатлен, но на PaLM-2 взглянуть можно бы было). Если хочется иметь джейлбрейк для себя, то краткий GCG-суффикс (а то и soft-prompt) кажется более предпочтительным. С другой стороны, этот метод, кажется, вполне можно реализовать поверх llama-cpp и гонять у себя на калькуляторе 🍜.

В следующий раз мы посмотрим на статью, в которой исследуется не модели/API в изоляции, а чат-боты как приложения.

www.tgoop.com/llmsecurity/26

148 viewsJan 28, 2024 at 16:40

tgoop.com/llmsecurity/26

Create: 2024-01-28
Last Update: 2025-07-26 00:16:18

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/26

Telegram News

Как уже упоминалось