llm security и каланы@llmsecurity P.56

Notice: file_put_contents(): Write of 284 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 16384 of 16668 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
llm security и каланы@llmsecurity P.56

LLMSECURITY Telegram 56

llm security и каланы

На основе введенных определений авторы формулируют несколько теорем. Первая, вынесенная в заглавный пост, говорит о следующем: если LLM может со сколь угодно малой вероятностью гамма теоретически сгенерировать предложение, опасное по шкале, относительно которой проводился элайнмент, то существует такой промпт, который вызовет негативное продолжение с вероятностью гамма, вне зависимости от того, насколько мала альфа, с которой негативный компонент входит в общее распределение. Кроме того, чем длиннее промпт, тем больше вероятность поломать элайнмент, причем чем больше бета (различимость между компонентами), тем меньше нужен промпт.

Далее показывается, что добавление элайнмент-промптов (You are a harmless, helpful assistant) не исключает возможности джейлбрейка, но необходимая длина атакующего промпта увеличивается линейно с длиной системного элайнмент-промпта. Эти результаты в целом объясняют, почему разные DAN-промпты такие длинные.

www.tgoop.com/llmsecurity/56

112 viewsFeb 17, 2024 at 04:30

tgoop.com/llmsecurity/56

Create: 2024-02-17
Last Update: 2025-07-24 08:46:29

На основе введенных определений авторы формулируют несколько теорем. Первая, вынесенная в заглавный пост, говорит о следующем: если LLM может со сколь угодно малой вероятностью гамма теоретически сгенерировать предложение, опасное по шкале, относительно которой проводился элайнмент, то существует такой промпт, который вызовет негативное продолжение с вероятностью гамма, вне зависимости от того, насколько мала альфа, с которой негативный компонент входит в общее распределение. Кроме того, чем длиннее промпт, тем больше вероятность поломать элайнмент, причем чем больше бета (различимость между компонентами), тем меньше нужен промпт.

Далее показывается, что добавление элайнмент-промптов (You are a harmless, helpful assistant) не исключает возможности джейлбрейка, но необходимая длина атакующего промпта увеличивается линейно с длиной системного элайнмент-промпта. Эти результаты в целом объясняют, почему разные DAN-промпты такие длинные.

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/56

Open in Telegram

Telegram News

Date: 2025-07-24|

Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.! As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.” In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013. Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select “New Channel” from the drop-down menu. Healing through screaming therapy
from us

Telegram llm security и каланы
FROM American