tgoop.com/llmsecurity/31
Last Update:
Далее авторы достают древний джейлбрейк имени Никколо Макиавелли (AIM), в соответствии со своим пониманием о наличии фильтрации в чатботах добавляют туда немного обфускации (добавление пробелов между буквами), говорят, что, мол, самим такое писать лень, достают простой советский СЕРВЕР НА 8xA100 И НАЧИНАЮТ АДОВО ЖАРИТЬ VICUNA-13b. Усредненный рецепт в их случае включает полный continuous pretraining (???) на выполненных ChatGPT парафаразах джейлбрейков, файнтюнинг на парах джейбрейк -> парафраз и даже reward-ranked finetuning, от которого у всех чатботов элайнмент сам отклеивается. Шутки шутками, а утверждается (на сайте), что делают они это, запуская с дефолтными параметрами скрипты из LMFlow.
В итоге после всех этих издевательств из Vicuna получается MasterKey, которая, насколько я смог понять из текста, получает на вход затравку с джейлбрейков и порождает парафраз, и среднее 10 парафразов у MasterKey выше по эффективности (Attack Success Rate), чем у всяких чатгпт, причем в десятки раз.
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/31