LLMSECURITY Telegram 179
Однако можно показать, что направление отказа можно убрать не только из активаций, но и прямо сразу из весов, путем все той же несложной математики. Для этого нужно вычесть из каждой матрицы весов эту же матрицу, домноженную на произведение единичного вектора на сам себя транспонированный (что эквивалентно операции, которая проводилась на инференсе, а потому дает такие же метрики).

В табличке ниже видно, что Llama-2 гораздо лучше сопротивляется этому джейлбрейку с дефолтным системным промптом. Поскольку мы в white box-сеттинге и нам сохранять промпт по умолчанию не обязательно, исследователи демонстрируют и метрики без системного промпта. По их предположению, эксплицитная просьба не следовать вредоносным инструкциям и способность отказываться, заложенная через элайнмент, – это два разных механизма, и предложенный метод влияет только на последний из них.

Кроме того, приложены оценки пяти моделей на четырех бенчмарках до и после ортогонализации: видно, что есть незначительное падение качества, наиболее выраженное на TruthfulQA. Это связано с тем, что в данном датасете есть вопросы, связанные со стереотипами и даже теориями заговора (см. скриншот), на которые модель (во всяком случае, по мнению составителей бенчмарка) должна отказываться отвечать.



tgoop.com/llmsecurity/179
Create:
Last Update:

Однако можно показать, что направление отказа можно убрать не только из активаций, но и прямо сразу из весов, путем все той же несложной математики. Для этого нужно вычесть из каждой матрицы весов эту же матрицу, домноженную на произведение единичного вектора на сам себя транспонированный (что эквивалентно операции, которая проводилась на инференсе, а потому дает такие же метрики).

В табличке ниже видно, что Llama-2 гораздо лучше сопротивляется этому джейлбрейку с дефолтным системным промптом. Поскольку мы в white box-сеттинге и нам сохранять промпт по умолчанию не обязательно, исследователи демонстрируют и метрики без системного промпта. По их предположению, эксплицитная просьба не следовать вредоносным инструкциям и способность отказываться, заложенная через элайнмент, – это два разных механизма, и предложенный метод влияет только на последний из них.

Кроме того, приложены оценки пяти моделей на четырех бенчмарках до и после ортогонализации: видно, что есть незначительное падение качества, наиболее выраженное на TruthfulQA. Это связано с тем, что в данном датасете есть вопросы, связанные со стереотипами и даже теориями заговора (см. скриншот), на которые модель (во всяком случае, по мнению составителей бенчмарка) должна отказываться отвечать.

BY llm security и каланы






Share with your friend now:
tgoop.com/llmsecurity/179

View MORE
Open in Telegram


Telegram News

Date: |

Informative Developing social channels based on exchanging a single message isn’t exactly new, of course. Back in 2014, the “Yo” app was launched with the sole purpose of enabling users to send each other the greeting “Yo.” While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. 3How to create a Telegram channel? Activate up to 20 bots
from us


Telegram llm security и каланы
FROM American