LLMSECURITY Telegram 31
Далее авторы достают древний джейлбрейк имени Никколо Макиавелли (AIM), в соответствии со своим пониманием о наличии фильтрации в чатботах добавляют туда немного обфускации (добавление пробелов между буквами), говорят, что, мол, самим такое писать лень, достают простой советский СЕРВЕР НА 8xA100 И НАЧИНАЮТ АДОВО ЖАРИТЬ VICUNA-13b. Усредненный рецепт в их случае включает полный continuous pretraining (???) на выполненных ChatGPT парафаразах джейлбрейков, файнтюнинг на парах джейбрейк -> парафраз и даже reward-ranked finetuning, от которого у всех чатботов элайнмент сам отклеивается. Шутки шутками, а утверждается (на сайте), что делают они это, запуская с дефолтными параметрами скрипты из LMFlow.

В итоге после всех этих издевательств из Vicuna получается MasterKey, которая, насколько я смог понять из текста, получает на вход затравку с джейлбрейков и порождает парафраз, и среднее 10 парафразов у MasterKey выше по эффективности (Attack Success Rate), чем у всяких чатгпт, причем в десятки раз.



tgoop.com/llmsecurity/31
Create:
Last Update:

Далее авторы достают древний джейлбрейк имени Никколо Макиавелли (AIM), в соответствии со своим пониманием о наличии фильтрации в чатботах добавляют туда немного обфускации (добавление пробелов между буквами), говорят, что, мол, самим такое писать лень, достают простой советский СЕРВЕР НА 8xA100 И НАЧИНАЮТ АДОВО ЖАРИТЬ VICUNA-13b. Усредненный рецепт в их случае включает полный continuous pretraining (???) на выполненных ChatGPT парафаразах джейлбрейков, файнтюнинг на парах джейбрейк -> парафраз и даже reward-ranked finetuning, от которого у всех чатботов элайнмент сам отклеивается. Шутки шутками, а утверждается (на сайте), что делают они это, запуская с дефолтными параметрами скрипты из LMFlow.

В итоге после всех этих издевательств из Vicuna получается MasterKey, которая, насколько я смог понять из текста, получает на вход затравку с джейлбрейков и порождает парафраз, и среднее 10 парафразов у MasterKey выше по эффективности (Attack Success Rate), чем у всяких чатгпт, причем в десятки раз.

BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/31

View MORE
Open in Telegram


Telegram News

Date: |

4How to customize a Telegram channel? Select “New Channel” The administrator of a telegram group, "Suck Channel," was sentenced to six years and six months in prison for seven counts of incitement yesterday. A Hong Kong protester with a petrol bomb. File photo: Dylan Hollingsworth/HKFP. End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance.
from us


Telegram llm security и каланы
FROM American