llm security и каланы@llmsecurity P.170

llm security и каланы

Итак, исследователи представляют white-box джейлбрейк-атаку в пространстве репрезентаций. Для начала они отмечают, что в большом числе работ подмечается, что различные аспекты генерации, от тональности до юмора, являются линейными направлениями в пространстве активаций (интересно, что в ссылках есть даже Mikolov et al., 2013), и что если механически воздействовать на активации в этих направлениях, то можно управлять поведением модели.

Оказывается, что элайнмент тоже связан с одномерным подпространством. Как мы помним, между кусками трансформер-блока (селф-аттеншеном и линейными слоями) есть residual-соединения. В качестве исследуемых активаций возьмем активации, идущие по этим соединениям. Нужно всего лишь взять инструкции, которые вызывают отказ, и те, которые, их не вызывают, усреднить активации и из одного среднего вычесть другое. Направление вектора и есть направление отказа, его норма – «желание» модели отказаться от генерации. При этом трансформеры состоят из нескольких (L) блоков, и чтобы выбрать один вектор, исследователи предлагают просто перебрать все L получившихся векторов и выбрать тот, который на валидационном сете дает лучший результат.

www.tgoop.com/llmsecurity/170

125 viewsJun 21, 2024 at 15:29

tgoop.com/llmsecurity/170

Create: 2024-06-21
Last Update: 2025-07-05 22:49:29

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/170

Telegram News

Итак