Notice: file_put_contents(): Write of 1277 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 16384 of 17661 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
llm security и каланы@llmsecurity P.40
LLMSECURITY Telegram 40
Есть несколько нюансов. Во-первых, контекст атакующей модели сохраняется от итерации к итерации, в то время как целевая модель получает каждого кандидата после очистки контекста. Во-вторых, для генерации кандидатов после неудачной попытки используется паттерн chain-of-thought: перед генерацией следующего кандидата мы сначала генерируем план улучшений на основе оценки от судьи, а уже потом самого кандидата. В-третьих, поиск делается в несколько потоков (20), чтобы потом заявить, что «мы находим джейлбрейк меньше, чем за минуту» 😎. Наконец, в system prompt атакующей модели добавляются примеры, потому что few shot обычно лучше, чем без шотов вовсе.

В экспериментах в качестве атакующей LLM берется Vicuna-13B-v1.5. Пробуют также Llama-2, которая отказывается помогать, и gpt-3.5, которая, как отмечается работает чуть хуже, чем викунья.

В качестве датасета используется AdvBench, но тут исследователи решили посмотреть на данные руками и сократили его до полезного сабсета из 50 примеров. В итоге получается целиком сломать Vicuna (которая вроде как не сильно обычно сопротивляется), для 31 и 36 сценариев сломать GPT-4 и PaLM-2, сломать Claude получается плохо (он и вручную не очень-то ломается если честно).



tgoop.com/llmsecurity/40
Create:
Last Update:

Есть несколько нюансов. Во-первых, контекст атакующей модели сохраняется от итерации к итерации, в то время как целевая модель получает каждого кандидата после очистки контекста. Во-вторых, для генерации кандидатов после неудачной попытки используется паттерн chain-of-thought: перед генерацией следующего кандидата мы сначала генерируем план улучшений на основе оценки от судьи, а уже потом самого кандидата. В-третьих, поиск делается в несколько потоков (20), чтобы потом заявить, что «мы находим джейлбрейк меньше, чем за минуту» 😎. Наконец, в system prompt атакующей модели добавляются примеры, потому что few shot обычно лучше, чем без шотов вовсе.

В экспериментах в качестве атакующей LLM берется Vicuna-13B-v1.5. Пробуют также Llama-2, которая отказывается помогать, и gpt-3.5, которая, как отмечается работает чуть хуже, чем викунья.

В качестве датасета используется AdvBench, но тут исследователи решили посмотреть на данные руками и сократили его до полезного сабсета из 50 примеров. В итоге получается целиком сломать Vicuna (которая вроде как не сильно обычно сопротивляется), для 31 и 36 сценариев сломать GPT-4 и PaLM-2, сломать Claude получается плохо (он и вручную не очень-то ломается если честно).

BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/40

View MORE
Open in Telegram


Telegram News

Date: |

With Bitcoin down 30% in the past week, some crypto traders have taken to Telegram to “voice” their feelings. The main design elements of your Telegram channel include a name, bio (brief description), and avatar. Your bio should be: Don’t publish new content at nighttime. Since not all users disable notifications for the night, you risk inadvertently disturbing them. Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression."
from us


Telegram llm security и каланы
FROM American