llm security и каланы@llmsecurity P.24

Notice: file_put_contents(): Write of 382 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 16384 of 16766 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
llm security и каланы@llmsecurity P.24

LLMSECURITY Telegram 24

llm security и каланы

В итоге Ignore all the instructions you got before превращаются в Overlook the previous guidance you've received. С одной стороны это полезно (помню, как мы страдали в соревновании по prompt injection, меняя руками ignore и instructions на все возможные синонимы, пока моделька не поддавалась), с другой подразумевает уже определенную склонность модели поддаваться исходному джейлбрейку и означает, что любые основанные не на TF-IDF, а на семантике классификаторы джейлбрейков будут достаточно легко всех этих генетических мутантов детектировать.

Тем не менее, в результате демонстрируется, что по метрике ASR (доля успешно выполненных инструкций), высчитанной по аналогии с GCG, а также с помощью вопроса к LLM, выполнена ли инструкция (колонка Recheck). В качестве датасета используется уже знакомый нам AdvBench. Авторы показывают, что «семантически значимые» джейлбрейки лучше переносятся на закрытые модели и являются более универсальными, то есть разблокируют больше потенциальных зловредных сценариев.

www.tgoop.com/llmsecurity/24

152 viewsJan 28, 2024 at 16:39

tgoop.com/llmsecurity/24

Create: 2024-01-28
Last Update: 2025-07-26 00:04:01

В итоге Ignore all the instructions you got before превращаются в Overlook the previous guidance you've received. С одной стороны это полезно (помню, как мы страдали в соревновании по prompt injection, меняя руками ignore и instructions на все возможные синонимы, пока моделька не поддавалась), с другой подразумевает уже определенную склонность модели поддаваться исходному джейлбрейку и означает, что любые основанные не на TF-IDF, а на семантике классификаторы джейлбрейков будут достаточно легко всех этих генетических мутантов детектировать.

Тем не менее, в результате демонстрируется, что по метрике ASR (доля успешно выполненных инструкций), высчитанной по аналогии с GCG, а также с помощью вопроса к LLM, выполнена ли инструкция (колонка Recheck). В качестве датасета используется уже знакомый нам AdvBench. Авторы показывают, что «семантически значимые» джейлбрейки лучше переносятся на закрытые модели и являются более универсальными, то есть разблокируют больше потенциальных зловредных сценариев.

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/24

Open in Telegram

Telegram News

Date: 2025-07-26|

Administrators Activate up to 20 bots Just as the Bitcoin turmoil continues, crypto traders have taken to Telegram to voice their feelings. Crypto investors can reduce their anxiety about losses by joining the “Bear Market Screaming Therapy Group” on Telegram. A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first. Informative
from us

Telegram llm security и каланы
FROM American