llm security и каланы@llmsecurity P.46

Notice: file_put_contents(): Write of 562 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 16384 of 16946 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
llm security и каланы@llmsecurity P.46

LLMSECURITY Telegram 46

llm security и каланы

Метод не отличается сложностью. Как мы видели в статье про джейлбрейк за двадцать запросов, для джейлбрейка black box-языковой модели, т.е. модели, доступа к весам которой у нас нет, достаточно использовать другую LLM, которая будет генерировать джейлбрейк-кандидаты, получать ответ от атакуемой сети и оценку попытки от LLM-оценщика и итеративно улучшать свой подход.

Мы можем использовать Chain-of-Thought-подход (CoT), при котором мы просим атакующую LLM сначала предоставить свои «мысли» по улучшению джейлбрейка, а уже потом его сгенерировать. У CoT есть известные улучшения: Chain-of-Thought with Self-Consistency и Tree-of-Thoughts (ToT). В случае ToT мы вместо одной «мысли» генерируем несколько «идей», каждая из которых становится независимым продолжением беседы. LLM также оценивает идеи и подрезает те ветви, которые кажутся наименее перспективными. Именно ToT используется в статье.

www.tgoop.com/llmsecurity/46

124 viewsedited Feb 16, 2024 at 16:52

tgoop.com/llmsecurity/46

Create: 2024-02-16
Last Update: 2025-07-26 06:57:43

Метод не отличается сложностью. Как мы видели в статье про джейлбрейк за двадцать запросов, для джейлбрейка black box-языковой модели, т.е. модели, доступа к весам которой у нас нет, достаточно использовать другую LLM, которая будет генерировать джейлбрейк-кандидаты, получать ответ от атакуемой сети и оценку попытки от LLM-оценщика и итеративно улучшать свой подход.

Мы можем использовать Chain-of-Thought-подход (CoT), при котором мы просим атакующую LLM сначала предоставить свои «мысли» по улучшению джейлбрейка, а уже потом его сгенерировать. У CoT есть известные улучшения: Chain-of-Thought with Self-Consistency и Tree-of-Thoughts (ToT). В случае ToT мы вместо одной «мысли» генерируем несколько «идей», каждая из которых становится независимым продолжением беседы. LLM также оценивает идеи и подрезает те ветви, которые кажутся наименее перспективными. Именно ToT используется в статье.

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/46

Open in Telegram

Telegram News

Date: 2025-07-26|

Click “Save” ; fire bomb molotov November 18 Dylan Hollingsworth yau ma tei How to create a business channel on Telegram? (Tutorial) The channel also called on people to turn out for illegal assemblies and listed the things that participants should bring along with them, showing prior planning was in the works for riots. The messages also incited people to hurl toxic gas bombs at police and MTR stations, he added. Joined by Telegram's representative in Brazil, Alan Campos, Perekopsky noted the platform was unable to cater to some of the TSE requests due to the company's operational setup. But Perekopsky added that these requests could be studied for future implementation.
from us

Telegram llm security и каланы
FROM American