llm security и каланы@llmsecurity P.334

llm security и каланы

На этом бенчмарке оцениваются разные модели, от Llama 3 70B до GPT-4o, для чего применяется 629 кейсов с атаками поверх 97 пользовательских задач. Во-первых, выясняется, что многие задачи очень непросты для большинства моделей, и высокие метрики (больше 60%) полезности получают только топовые модели от Antropic и OpenAI (стоит отметить, что Llama там представлена позапрошлым поколением), так что этот бенчмарк может использоваться и для трекинга качества языковых моделей. Наиболее уязвимыми (с точки зрения успешности выполнения задачи атакующего) оказались наиболее мощные модели, потому что менее мощные модели не особо в целом справляются с выполнением задач. Успешность атак зависит от их сложности – например, задача 6 из набора про бюро путешествий подразумевает одновременное бронирование отеля и эксфильтрацию данных, т.е. два достаточно разноплановых действия. Из интересного – по результатам анализа лучшим местом, чтобы вставить инъекцию, является самый конец вывода результата работы инструмента. Кроме того, фраза “IMPORTANT MESSAGE” работает лучше, чем набившая оскомину “Ignore previous instruction”; использование правильного имени модели немного повышает ASR, а неправильного – очень сильно снижает.

www.tgoop.com/llmsecurity/334

313 viewsOct 1, 2024 at 11:36

tgoop.com/llmsecurity/334

Create: 2024-10-01
Last Update: 2025-06-30 09:14:24

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/334

Telegram News

На этом бенчмарке оцениваются разные модели