llm security и каланы@llmsecurity P.177

llm security и каланы

Однако можно показать, что направление отказа можно убрать не только из активаций, но и прямо сразу из весов, путем все той же несложной математики. Для этого нужно вычесть из каждой матрицы весов эту же матрицу, домноженную на произведение единичного вектора на сам себя транспонированный (что эквивалентно операции, которая проводилась на инференсе, а потому дает такие же метрики).

В табличке ниже видно, что Llama-2 гораздо лучше сопротивляется этому джейлбрейку с дефолтным системным промптом. Поскольку мы в white box-сеттинге и нам сохранять промпт по умолчанию не обязательно, исследователи демонстрируют и метрики без системного промпта. По их предположению, эксплицитная просьба не следовать вредоносным инструкциям и способность отказываться, заложенная через элайнмент, – это два разных механизма, и предложенный метод влияет только на последний из них.

Кроме того, приложены оценки пяти моделей на четырех бенчмарках до и после ортогонализации: видно, что есть незначительное падение качества, наиболее выраженное на TruthfulQA. Это связано с тем, что в данном датасете есть вопросы, связанные со стереотипами и даже теориями заговора (см. скриншот), на которые модель (во всяком случае, по мнению составителей бенчмарка) должна отказываться отвечать.

www.tgoop.com/llmsecurity/178

179 viewsJun 21, 2024 at 15:33

tgoop.com/llmsecurity/177

Create: 2024-06-21
Last Update: 2025-07-02 13:53:39

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/177

Telegram News

Однако можно показать