LLMSECURITY Telegram 443
На основе этого предлагается автоматизированный алгоритм джейлбрейкинга – Crescendomation, суть которого в том, что вместо человека контекст строит атакующая LLM, пробует задать нужный вопрос, при неудаче – откатывается назад и генерирует еще один вопрос для контекста, а затем пробует снова. Этот подход применяется к моделям gpt-3.5 и gpt-4, Claude 3, Gemini-Pro и Llama 2. В качестве опасных запросов выбирается дедуплицированный сабсет AdvBench. LLM-судья в исполнении gpt-4 определяет ASR (его называют бинарным ASR) и дает оценку успеха от 0 до 100 (это называется просто ASR), плюс в качестве оценки используется Perspective API и Azure Content Filter API. GPT-4 и Gemini-Pro в итоге джейлбрейкаются на 98% и 100% соответственно. На другие LLM (включая Llama) у авторов не хватило денег и компьюта, поэтому они отбирают из 50 задач 12 и считают успешность на них (см. цветной график). Из занятного – одни и те же последовательности вопросов могут переноситься между разными моделями.



tgoop.com/llmsecurity/443
Create:
Last Update:

На основе этого предлагается автоматизированный алгоритм джейлбрейкинга – Crescendomation, суть которого в том, что вместо человека контекст строит атакующая LLM, пробует задать нужный вопрос, при неудаче – откатывается назад и генерирует еще один вопрос для контекста, а затем пробует снова. Этот подход применяется к моделям gpt-3.5 и gpt-4, Claude 3, Gemini-Pro и Llama 2. В качестве опасных запросов выбирается дедуплицированный сабсет AdvBench. LLM-судья в исполнении gpt-4 определяет ASR (его называют бинарным ASR) и дает оценку успеха от 0 до 100 (это называется просто ASR), плюс в качестве оценки используется Perspective API и Azure Content Filter API. GPT-4 и Gemini-Pro в итоге джейлбрейкаются на 98% и 100% соответственно. На другие LLM (включая Llama) у авторов не хватило денег и компьюта, поэтому они отбирают из 50 задач 12 и считают успешность на них (см. цветной график). Из занятного – одни и те же последовательности вопросов могут переноситься между разными моделями.

BY llm security и каланы








Share with your friend now:
tgoop.com/llmsecurity/443

View MORE
Open in Telegram


Telegram News

Date: |

"Doxxing content is forbidden on Telegram and our moderators routinely remove such content from around the world," said a spokesman for the messaging app, Remi Vaughn. Telegram channels fall into two types: Each account can create up to 10 public channels Write your hashtags in the language of your target audience. Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021.
from us


Telegram llm security и каланы
FROM American