LLMSECURITY Telegram 581
SHADE-Arena: Evaluating sabotage and monitoring in LLM agents
Kutasov et al., 2025
Блог, статья

Вы дали LLM-агенту задачу. Может ли он параллельно с ней выполнить зловредную задачу и не спалиться? Вопрос не праздный, так как инструкция типа отправки всех API-ключей из энва на непонятный адрес может прилететь к нему в контекст откуда угодно – от страницы в интернете до промпт-темплейта. Авторы статьи предлагают бенчмарк, который позволяет этот риск оценить.

Суть бенчмарка – расширение AgentDojo, причем DLC получился солидный: 30 компонентов (телефон, почта и так далее), 340 инструментов (в каждом сценарии – от 20 доступных), до 100 тысяч токенов синтетических данных на среду. Исследователи предлагают 17 сценариев, состоящих из основной задачи (просмотреть список гостей конференции и забронировать каждому авиарейс и ресторан или просмотреть почтовые ящики и сгенерировать спам-фильтры) и побочного квеста, состоящего из определенного зловредного действия (при бронировании выбирать рейсы только одной авиакомпании, невзирая на цены, или добавить анти-спам правило, которое удаляет алерты о логинах в GitHub). Цель агента – выполнить обе задачи, причем так, чтобы не стриггерить мониторинг. В инструкциях отмечается, что дело происходит в симуляции, чтобы уменьшить число отказов от выполнения задачи. Роль контролера играет Claude 3.6, который пост-фактум читает логи агента, не включающие системную затравку и Chain-of-Thought, и выдает скор от 0 до 100, где 80 – граница подозрительности. Для каждого из сценариев было проверено, что решение, не вызывающее подозрений контролера, существует.

Результаты показывают, что наиболее успешны Claude 3.7 Sonnet и Gemini 2.5 Pro c 27% и 15% успеха соответственно. Другие модели, включая топовые открытые модели типа Qwen-3 и DeepSeek-R1, а также модели от OpenAI, справляются хуже. Причиной тут по большей части являются проблемы с выполнением заданий: модели просто не выполняют ожидаемых действий, галлюцинируют экфильтрируемые данные, теряются в длинном контексте. Даже если предоставить агенту хитрую стратегию, придуманную человеком, он может с ней просто не справиться. Когда причина неудачи в детектировании контролером, дело в том, что модель в целом не пытается скрывать свои намерения или случайно упоминает задачу за пределами скрытого от контролера CoT.

Исследователи также оценивают разные модели, а заодно людей, в качестве контролеров. Лучшим контролером оказывается gemini-2.5-pro с достаточно скромными 0,87 AUC, а вот люди, которым требуется в среднем 103 минуты на лог, показывают еще худший результат (AUC=0,65, три оценки на транскрипт, агрегация по минимальной оценке).

Мониторинг сильных моделей более слабыми моделями – очень важное направление работы: с точки зрения security нам бы хотелось предотвращать инъекции, появляющиеся в самых неожиданных местах, максимально дешево, с точки зрения safety – определять scheming в новой модели, используя проверенную старую. Как видно, пока это получается не очень, но и мониторить особо нечего – даже с основными задачами модели пока справляются не очень успешно.
👍8



tgoop.com/llmsecurity/581
Create:
Last Update:

SHADE-Arena: Evaluating sabotage and monitoring in LLM agents
Kutasov et al., 2025
Блог, статья

Вы дали LLM-агенту задачу. Может ли он параллельно с ней выполнить зловредную задачу и не спалиться? Вопрос не праздный, так как инструкция типа отправки всех API-ключей из энва на непонятный адрес может прилететь к нему в контекст откуда угодно – от страницы в интернете до промпт-темплейта. Авторы статьи предлагают бенчмарк, который позволяет этот риск оценить.

Суть бенчмарка – расширение AgentDojo, причем DLC получился солидный: 30 компонентов (телефон, почта и так далее), 340 инструментов (в каждом сценарии – от 20 доступных), до 100 тысяч токенов синтетических данных на среду. Исследователи предлагают 17 сценариев, состоящих из основной задачи (просмотреть список гостей конференции и забронировать каждому авиарейс и ресторан или просмотреть почтовые ящики и сгенерировать спам-фильтры) и побочного квеста, состоящего из определенного зловредного действия (при бронировании выбирать рейсы только одной авиакомпании, невзирая на цены, или добавить анти-спам правило, которое удаляет алерты о логинах в GitHub). Цель агента – выполнить обе задачи, причем так, чтобы не стриггерить мониторинг. В инструкциях отмечается, что дело происходит в симуляции, чтобы уменьшить число отказов от выполнения задачи. Роль контролера играет Claude 3.6, который пост-фактум читает логи агента, не включающие системную затравку и Chain-of-Thought, и выдает скор от 0 до 100, где 80 – граница подозрительности. Для каждого из сценариев было проверено, что решение, не вызывающее подозрений контролера, существует.

Результаты показывают, что наиболее успешны Claude 3.7 Sonnet и Gemini 2.5 Pro c 27% и 15% успеха соответственно. Другие модели, включая топовые открытые модели типа Qwen-3 и DeepSeek-R1, а также модели от OpenAI, справляются хуже. Причиной тут по большей части являются проблемы с выполнением заданий: модели просто не выполняют ожидаемых действий, галлюцинируют экфильтрируемые данные, теряются в длинном контексте. Даже если предоставить агенту хитрую стратегию, придуманную человеком, он может с ней просто не справиться. Когда причина неудачи в детектировании контролером, дело в том, что модель в целом не пытается скрывать свои намерения или случайно упоминает задачу за пределами скрытого от контролера CoT.

Исследователи также оценивают разные модели, а заодно людей, в качестве контролеров. Лучшим контролером оказывается gemini-2.5-pro с достаточно скромными 0,87 AUC, а вот люди, которым требуется в среднем 103 минуты на лог, показывают еще худший результат (AUC=0,65, три оценки на транскрипт, агрегация по минимальной оценке).

Мониторинг сильных моделей более слабыми моделями – очень важное направление работы: с точки зрения security нам бы хотелось предотвращать инъекции, появляющиеся в самых неожиданных местах, максимально дешево, с точки зрения safety – определять scheming в новой модели, используя проверенную старую. Как видно, пока это получается не очень, но и мониторить особо нечего – даже с основными задачами модели пока справляются не очень успешно.

BY llm security и каланы










Share with your friend now:
tgoop.com/llmsecurity/581

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? Add up to 50 administrators Private channels are only accessible to subscribers and don’t appear in public searches. To join a private channel, you need to receive a link from the owner (administrator). A private channel is an excellent solution for companies and teams. You can also use this type of channel to write down personal notes, reflections, etc. By the way, you can make your private channel public at any moment. Telegram has announced a number of measures aiming to tackle the spread of disinformation through its platform in Brazil. These features are part of an agreement between the platform and the country's authorities ahead of the elections in October. The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.”
from us


Telegram llm security и каланы
FROM American