llm security и каланы@llmsecurity P.31

llm security и каланы

Далее авторы достают древний джейлбрейк имени Никколо Макиавелли (AIM), в соответствии со своим пониманием о наличии фильтрации в чатботах добавляют туда немного обфускации (добавление пробелов между буквами), говорят, что, мол, самим такое писать лень, достают простой советский СЕРВЕР НА 8xA100 И НАЧИНАЮТ АДОВО ЖАРИТЬ VICUNA-13b. Усредненный рецепт в их случае включает полный continuous pretraining (???) на выполненных ChatGPT парафаразах джейлбрейков, файнтюнинг на парах джейбрейк -> парафраз и даже reward-ranked finetuning, от которого у всех чатботов элайнмент сам отклеивается. Шутки шутками, а утверждается (на сайте), что делают они это, запуская с дефолтными параметрами скрипты из LMFlow.

В итоге после всех этих издевательств из Vicuna получается MasterKey, которая, насколько я смог понять из текста, получает на вход затравку с джейлбрейков и порождает парафраз, и среднее 10 парафразов у MasterKey выше по эффективности (Attack Success Rate), чем у всяких чатгпт, причем в десятки раз.

www.tgoop.com/llmsecurity/31

129 viewsedited Feb 3, 2024 at 10:11

tgoop.com/llmsecurity/31

Create: 2024-02-03
Last Update: 2025-07-08 02:06:37

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/31

Telegram News

Далее авторы достают древний джейлбрейк имени Никколо Макиавелли (AIM)