LLMSECURITY Telegram 334
На этом бенчмарке оцениваются разные модели, от Llama 3 70B до GPT-4o, для чего применяется 629 кейсов с атаками поверх 97 пользовательских задач. Во-первых, выясняется, что многие задачи очень непросты для большинства моделей, и высокие метрики (больше 60%) полезности получают только топовые модели от Antropic и OpenAI (стоит отметить, что Llama там представлена позапрошлым поколением), так что этот бенчмарк может использоваться и для трекинга качества языковых моделей. Наиболее уязвимыми (с точки зрения успешности выполнения задачи атакующего) оказались наиболее мощные модели, потому что менее мощные модели не особо в целом справляются с выполнением задач. Успешность атак зависит от их сложности – например, задача 6 из набора про бюро путешествий подразумевает одновременное бронирование отеля и эксфильтрацию данных, т.е. два достаточно разноплановых действия. Из интересного – по результатам анализа лучшим местом, чтобы вставить инъекцию, является самый конец вывода результата работы инструмента. Кроме того, фраза “IMPORTANT MESSAGE” работает лучше, чем набившая оскомину “Ignore previous instruction”; использование правильного имени модели немного повышает ASR, а неправильного – очень сильно снижает.



tgoop.com/llmsecurity/334
Create:
Last Update:

На этом бенчмарке оцениваются разные модели, от Llama 3 70B до GPT-4o, для чего применяется 629 кейсов с атаками поверх 97 пользовательских задач. Во-первых, выясняется, что многие задачи очень непросты для большинства моделей, и высокие метрики (больше 60%) полезности получают только топовые модели от Antropic и OpenAI (стоит отметить, что Llama там представлена позапрошлым поколением), так что этот бенчмарк может использоваться и для трекинга качества языковых моделей. Наиболее уязвимыми (с точки зрения успешности выполнения задачи атакующего) оказались наиболее мощные модели, потому что менее мощные модели не особо в целом справляются с выполнением задач. Успешность атак зависит от их сложности – например, задача 6 из набора про бюро путешествий подразумевает одновременное бронирование отеля и эксфильтрацию данных, т.е. два достаточно разноплановых действия. Из интересного – по результатам анализа лучшим местом, чтобы вставить инъекцию, является самый конец вывода результата работы инструмента. Кроме того, фраза “IMPORTANT MESSAGE” работает лучше, чем набившая оскомину “Ignore previous instruction”; использование правильного имени модели немного повышает ASR, а неправильного – очень сильно снижает.

BY llm security и каланы






Share with your friend now:
tgoop.com/llmsecurity/334

View MORE
Open in Telegram


Telegram News

Date: |

Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations. Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. Channel login must contain 5-32 characters How to create a business channel on Telegram? (Tutorial) Invite up to 200 users from your contacts to join your channel
from us


Telegram llm security и каланы
FROM American