На этом бенчмарке оцениваются разные модели, от Llama 3 70B до GPT-4o, для чего применяется 629 кейсов с атаками поверх 97 пользовательских задач. Во-первых, выясняется, что многие задачи очень непросты для большинства моделей, и высокие метрики (больше 60%) полезности получают только топовые модели от Antropic и OpenAI (стоит отметить, что Llama там представлена позапрошлым поколением), так что этот бенчмарк может использоваться и для трекинга качества языковых моделей. Наиболее уязвимыми (с точки зрения успешности выполнения задачи атакующего) оказались наиболее мощные модели, потому что менее мощные модели не особо в целом справляются с выполнением задач. Успешность атак зависит от их сложности – например, задача 6 из набора про бюро путешествий подразумевает одновременное бронирование отеля и эксфильтрацию данных, т.е. два достаточно разноплановых действия. Из интересного – по результатам анализа лучшим местом, чтобы вставить инъекцию, является самый конец вывода результата работы инструмента. Кроме того, фраза “IMPORTANT MESSAGE” работает лучше, чем набившая оскомину “Ignore previous instruction”; использование правильного имени модели немного повышает ASR, а неправильного – очень сильно снижает.
tgoop.com/llmsecurity/334
Create:
Last Update:
Last Update:
На этом бенчмарке оцениваются разные модели, от Llama 3 70B до GPT-4o, для чего применяется 629 кейсов с атаками поверх 97 пользовательских задач. Во-первых, выясняется, что многие задачи очень непросты для большинства моделей, и высокие метрики (больше 60%) полезности получают только топовые модели от Antropic и OpenAI (стоит отметить, что Llama там представлена позапрошлым поколением), так что этот бенчмарк может использоваться и для трекинга качества языковых моделей. Наиболее уязвимыми (с точки зрения успешности выполнения задачи атакующего) оказались наиболее мощные модели, потому что менее мощные модели не особо в целом справляются с выполнением задач. Успешность атак зависит от их сложности – например, задача 6 из набора про бюро путешествий подразумевает одновременное бронирование отеля и эксфильтрацию данных, т.е. два достаточно разноплановых действия. Из интересного – по результатам анализа лучшим местом, чтобы вставить инъекцию, является самый конец вывода результата работы инструмента. Кроме того, фраза “IMPORTANT MESSAGE” работает лучше, чем набившая оскомину “Ignore previous instruction”; использование правильного имени модели немного повышает ASR, а неправильного – очень сильно снижает.
BY llm security и каланы



Share with your friend now:
tgoop.com/llmsecurity/334