llm security и каланы@llmsecurity P.17

Notice: file_put_contents(): Write of 422 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 16384 of 16806 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
llm security и каланы@llmsecurity P.17

LLMSECURITY Telegram 17

llm security и каланы

Так мы получаем известный метод под названием AutoPrompt. Отличие GCG в том, что эти топ-кандидаты подбираются для каждой из позиций, а затем выбирается размер батча B, после чего мы B раз выбираем случайную позицию в суффиксе и заменяем токен в ней на один из кандидатов. Все элементы батча оцениваются, и суффикс обновляется на тот, который минимизирует лосс по искомому префиксу. (Тут, конечно, напрашивается трекинг нескольких кандидатов а-ля beam search, но конструкция уже и так получается громоздкая).

Теперь нужно сделать так, чтобы это работало для разных моделей и для разных недопустимых запросов. Ничего сложного: просто суммируем лоссы для разных нежелательных запросов и так же выбираем кандидатов с максимальным отрицательным градиентом. Единственный нюанс – эмпирически было обнаружено, что затравки лучше добавлять по очереди, а не все сразу. Если есть несколько моделей – не вопрос, давайте посуммируем и лоссы на разных моделях, лишь бы они имели одинаковый вокабуляр, а у нас хватало на все это GPU.

www.tgoop.com/llmsecurity/17

243 viewsedited Jan 22, 2024 at 19:56

tgoop.com/llmsecurity/17

Create: 2024-01-22
Last Update: 2025-07-23 07:29:52

Так мы получаем известный метод под названием AutoPrompt. Отличие GCG в том, что эти топ-кандидаты подбираются для каждой из позиций, а затем выбирается размер батча B, после чего мы B раз выбираем случайную позицию в суффиксе и заменяем токен в ней на один из кандидатов. Все элементы батча оцениваются, и суффикс обновляется на тот, который минимизирует лосс по искомому префиксу. (Тут, конечно, напрашивается трекинг нескольких кандидатов а-ля beam search, но конструкция уже и так получается громоздкая).

Теперь нужно сделать так, чтобы это работало для разных моделей и для разных недопустимых запросов. Ничего сложного: просто суммируем лоссы для разных нежелательных запросов и так же выбираем кандидатов с максимальным отрицательным градиентом. Единственный нюанс – эмпирически было обнаружено, что затравки лучше добавлять по очереди, а не все сразу. Если есть несколько моделей – не вопрос, давайте посуммируем и лоссы на разных моделях, лишь бы они имели одинаковый вокабуляр, а у нас хватало на все это GPU.

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/17

Open in Telegram

Telegram News

Date: 2025-07-23|

As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces. Judge Hui described Ng as inciting others to “commit a massacre” with three posts teaching people to make “toxic chlorine gas bombs,” target police stations, police quarters and the city’s metro stations. This offence was “rather serious,” the court said. In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013. To view your bio, click the Menu icon and select “View channel info.” Telegram iOS app: In the “Chats” tab, click the new message icon in the right upper corner. Select “New Channel.”
from us

Telegram llm security и каланы
FROM American