LLMSECURITY Telegram 582
SHADE-Arena: Evaluating sabotage and monitoring in LLM agents
Kutasov et al., 2025
Блог, статья

Вы дали LLM-агенту задачу. Может ли он параллельно с ней выполнить зловредную задачу и не спалиться? Вопрос не праздный, так как инструкция типа отправки всех API-ключей из энва на непонятный адрес может прилететь к нему в контекст откуда угодно – от страницы в интернете до промпт-темплейта. Авторы статьи предлагают бенчмарк, который позволяет этот риск оценить.

Суть бенчмарка – расширение AgentDojo, причем DLC получился солидный: 30 компонентов (телефон, почта и так далее), 340 инструментов (в каждом сценарии – от 20 доступных), до 100 тысяч токенов синтетических данных на среду. Исследователи предлагают 17 сценариев, состоящих из основной задачи (просмотреть список гостей конференции и забронировать каждому авиарейс и ресторан или просмотреть почтовые ящики и сгенерировать спам-фильтры) и побочного квеста, состоящего из определенного зловредного действия (при бронировании выбирать рейсы только одной авиакомпании, невзирая на цены, или добавить анти-спам правило, которое удаляет алерты о логинах в GitHub). Цель агента – выполнить обе задачи, причем так, чтобы не стриггерить мониторинг. В инструкциях отмечается, что дело происходит в симуляции, чтобы уменьшить число отказов от выполнения задачи. Роль контролера играет Claude 3.6, который пост-фактум читает логи агента, не включающие системную затравку и Chain-of-Thought, и выдает скор от 0 до 100, где 80 – граница подозрительности. Для каждого из сценариев было проверено, что решение, не вызывающее подозрений контролера, существует.

Результаты показывают, что наиболее успешны Claude 3.7 Sonnet и Gemini 2.5 Pro c 27% и 15% успеха соответственно. Другие модели, включая топовые открытые модели типа Qwen-3 и DeepSeek-R1, а также модели от OpenAI, справляются хуже. Причиной тут по большей части являются проблемы с выполнением заданий: модели просто не выполняют ожидаемых действий, галлюцинируют экфильтрируемые данные, теряются в длинном контексте. Даже если предоставить агенту хитрую стратегию, придуманную человеком, он может с ней просто не справиться. Когда причина неудачи в детектировании контролером, дело в том, что модель в целом не пытается скрывать свои намерения или случайно упоминает задачу за пределами скрытого от контролера CoT.

Исследователи также оценивают разные модели, а заодно людей, в качестве контролеров. Лучшим контролером оказывается gemini-2.5-pro с достаточно скромными 0,87 AUC, а вот люди, которым требуется в среднем 103 минуты на лог, показывают еще худший результат (AUC=0,65, три оценки на транскрипт, агрегация по минимальной оценке).

Мониторинг сильных моделей более слабыми моделями – очень важное направление работы: с точки зрения security нам бы хотелось предотвращать инъекции, появляющиеся в самых неожиданных местах, максимально дешево, с точки зрения safety – определять scheming в новой модели, используя проверенную старую. Как видно, пока это получается не очень, но и мониторить особо нечего – даже с основными задачами модели пока справляются не очень успешно.
👍8



tgoop.com/llmsecurity/582
Create:
Last Update:

SHADE-Arena: Evaluating sabotage and monitoring in LLM agents
Kutasov et al., 2025
Блог, статья

Вы дали LLM-агенту задачу. Может ли он параллельно с ней выполнить зловредную задачу и не спалиться? Вопрос не праздный, так как инструкция типа отправки всех API-ключей из энва на непонятный адрес может прилететь к нему в контекст откуда угодно – от страницы в интернете до промпт-темплейта. Авторы статьи предлагают бенчмарк, который позволяет этот риск оценить.

Суть бенчмарка – расширение AgentDojo, причем DLC получился солидный: 30 компонентов (телефон, почта и так далее), 340 инструментов (в каждом сценарии – от 20 доступных), до 100 тысяч токенов синтетических данных на среду. Исследователи предлагают 17 сценариев, состоящих из основной задачи (просмотреть список гостей конференции и забронировать каждому авиарейс и ресторан или просмотреть почтовые ящики и сгенерировать спам-фильтры) и побочного квеста, состоящего из определенного зловредного действия (при бронировании выбирать рейсы только одной авиакомпании, невзирая на цены, или добавить анти-спам правило, которое удаляет алерты о логинах в GitHub). Цель агента – выполнить обе задачи, причем так, чтобы не стриггерить мониторинг. В инструкциях отмечается, что дело происходит в симуляции, чтобы уменьшить число отказов от выполнения задачи. Роль контролера играет Claude 3.6, который пост-фактум читает логи агента, не включающие системную затравку и Chain-of-Thought, и выдает скор от 0 до 100, где 80 – граница подозрительности. Для каждого из сценариев было проверено, что решение, не вызывающее подозрений контролера, существует.

Результаты показывают, что наиболее успешны Claude 3.7 Sonnet и Gemini 2.5 Pro c 27% и 15% успеха соответственно. Другие модели, включая топовые открытые модели типа Qwen-3 и DeepSeek-R1, а также модели от OpenAI, справляются хуже. Причиной тут по большей части являются проблемы с выполнением заданий: модели просто не выполняют ожидаемых действий, галлюцинируют экфильтрируемые данные, теряются в длинном контексте. Даже если предоставить агенту хитрую стратегию, придуманную человеком, он может с ней просто не справиться. Когда причина неудачи в детектировании контролером, дело в том, что модель в целом не пытается скрывать свои намерения или случайно упоминает задачу за пределами скрытого от контролера CoT.

Исследователи также оценивают разные модели, а заодно людей, в качестве контролеров. Лучшим контролером оказывается gemini-2.5-pro с достаточно скромными 0,87 AUC, а вот люди, которым требуется в среднем 103 минуты на лог, показывают еще худший результат (AUC=0,65, три оценки на транскрипт, агрегация по минимальной оценке).

Мониторинг сильных моделей более слабыми моделями – очень важное направление работы: с точки зрения security нам бы хотелось предотвращать инъекции, появляющиеся в самых неожиданных местах, максимально дешево, с точки зрения safety – определять scheming в новой модели, используя проверенную старую. Как видно, пока это получается не очень, но и мониторить особо нечего – даже с основными задачами модели пока справляются не очень успешно.

BY llm security и каланы










Share with your friend now:
tgoop.com/llmsecurity/582

View MORE
Open in Telegram


Telegram News

Date: |

fire bomb molotov November 18 Dylan Hollingsworth yau ma tei The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said. “Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group. As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces. Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link).
from us


Telegram llm security и каланы
FROM American