Warning: file_put_contents(aCache/aDaily/post/llmsecurity/-579-580-581-582-583-584-585-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
llm security и каланы@llmsecurity P.583
LLMSECURITY Telegram 583
SHADE-Arena: Evaluating sabotage and monitoring in LLM agents
Kutasov et al., 2025
Блог, статья

Вы дали LLM-агенту задачу. Может ли он параллельно с ней выполнить зловредную задачу и не спалиться? Вопрос не праздный, так как инструкция типа отправки всех API-ключей из энва на непонятный адрес может прилететь к нему в контекст откуда угодно – от страницы в интернете до промпт-темплейта. Авторы статьи предлагают бенчмарк, который позволяет этот риск оценить.

Суть бенчмарка – расширение AgentDojo, причем DLC получился солидный: 30 компонентов (телефон, почта и так далее), 340 инструментов (в каждом сценарии – от 20 доступных), до 100 тысяч токенов синтетических данных на среду. Исследователи предлагают 17 сценариев, состоящих из основной задачи (просмотреть список гостей конференции и забронировать каждому авиарейс и ресторан или просмотреть почтовые ящики и сгенерировать спам-фильтры) и побочного квеста, состоящего из определенного зловредного действия (при бронировании выбирать рейсы только одной авиакомпании, невзирая на цены, или добавить анти-спам правило, которое удаляет алерты о логинах в GitHub). Цель агента – выполнить обе задачи, причем так, чтобы не стриггерить мониторинг. В инструкциях отмечается, что дело происходит в симуляции, чтобы уменьшить число отказов от выполнения задачи. Роль контролера играет Claude 3.6, который пост-фактум читает логи агента, не включающие системную затравку и Chain-of-Thought, и выдает скор от 0 до 100, где 80 – граница подозрительности. Для каждого из сценариев было проверено, что решение, не вызывающее подозрений контролера, существует.

Результаты показывают, что наиболее успешны Claude 3.7 Sonnet и Gemini 2.5 Pro c 27% и 15% успеха соответственно. Другие модели, включая топовые открытые модели типа Qwen-3 и DeepSeek-R1, а также модели от OpenAI, справляются хуже. Причиной тут по большей части являются проблемы с выполнением заданий: модели просто не выполняют ожидаемых действий, галлюцинируют экфильтрируемые данные, теряются в длинном контексте. Даже если предоставить агенту хитрую стратегию, придуманную человеком, он может с ней просто не справиться. Когда причина неудачи в детектировании контролером, дело в том, что модель в целом не пытается скрывать свои намерения или случайно упоминает задачу за пределами скрытого от контролера CoT.

Исследователи также оценивают разные модели, а заодно людей, в качестве контролеров. Лучшим контролером оказывается gemini-2.5-pro с достаточно скромными 0,87 AUC, а вот люди, которым требуется в среднем 103 минуты на лог, показывают еще худший результат (AUC=0,65, три оценки на транскрипт, агрегация по минимальной оценке).

Мониторинг сильных моделей более слабыми моделями – очень важное направление работы: с точки зрения security нам бы хотелось предотвращать инъекции, появляющиеся в самых неожиданных местах, максимально дешево, с точки зрения safety – определять scheming в новой модели, используя проверенную старую. Как видно, пока это получается не очень, но и мониторить особо нечего – даже с основными задачами модели пока справляются не очень успешно.
👍7



tgoop.com/llmsecurity/583
Create:
Last Update:

SHADE-Arena: Evaluating sabotage and monitoring in LLM agents
Kutasov et al., 2025
Блог, статья

Вы дали LLM-агенту задачу. Может ли он параллельно с ней выполнить зловредную задачу и не спалиться? Вопрос не праздный, так как инструкция типа отправки всех API-ключей из энва на непонятный адрес может прилететь к нему в контекст откуда угодно – от страницы в интернете до промпт-темплейта. Авторы статьи предлагают бенчмарк, который позволяет этот риск оценить.

Суть бенчмарка – расширение AgentDojo, причем DLC получился солидный: 30 компонентов (телефон, почта и так далее), 340 инструментов (в каждом сценарии – от 20 доступных), до 100 тысяч токенов синтетических данных на среду. Исследователи предлагают 17 сценариев, состоящих из основной задачи (просмотреть список гостей конференции и забронировать каждому авиарейс и ресторан или просмотреть почтовые ящики и сгенерировать спам-фильтры) и побочного квеста, состоящего из определенного зловредного действия (при бронировании выбирать рейсы только одной авиакомпании, невзирая на цены, или добавить анти-спам правило, которое удаляет алерты о логинах в GitHub). Цель агента – выполнить обе задачи, причем так, чтобы не стриггерить мониторинг. В инструкциях отмечается, что дело происходит в симуляции, чтобы уменьшить число отказов от выполнения задачи. Роль контролера играет Claude 3.6, который пост-фактум читает логи агента, не включающие системную затравку и Chain-of-Thought, и выдает скор от 0 до 100, где 80 – граница подозрительности. Для каждого из сценариев было проверено, что решение, не вызывающее подозрений контролера, существует.

Результаты показывают, что наиболее успешны Claude 3.7 Sonnet и Gemini 2.5 Pro c 27% и 15% успеха соответственно. Другие модели, включая топовые открытые модели типа Qwen-3 и DeepSeek-R1, а также модели от OpenAI, справляются хуже. Причиной тут по большей части являются проблемы с выполнением заданий: модели просто не выполняют ожидаемых действий, галлюцинируют экфильтрируемые данные, теряются в длинном контексте. Даже если предоставить агенту хитрую стратегию, придуманную человеком, он может с ней просто не справиться. Когда причина неудачи в детектировании контролером, дело в том, что модель в целом не пытается скрывать свои намерения или случайно упоминает задачу за пределами скрытого от контролера CoT.

Исследователи также оценивают разные модели, а заодно людей, в качестве контролеров. Лучшим контролером оказывается gemini-2.5-pro с достаточно скромными 0,87 AUC, а вот люди, которым требуется в среднем 103 минуты на лог, показывают еще худший результат (AUC=0,65, три оценки на транскрипт, агрегация по минимальной оценке).

Мониторинг сильных моделей более слабыми моделями – очень важное направление работы: с точки зрения security нам бы хотелось предотвращать инъекции, появляющиеся в самых неожиданных местах, максимально дешево, с точки зрения safety – определять scheming в новой модели, используя проверенную старую. Как видно, пока это получается не очень, но и мониторить особо нечего – даже с основными задачами модели пока справляются не очень успешно.

BY llm security и каланы










Share with your friend now:
tgoop.com/llmsecurity/583

View MORE
Open in Telegram


Telegram News

Date: |

A vandalised bank during the 2019 protest. File photo: May James/HKFP. In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading. Joined by Telegram's representative in Brazil, Alan Campos, Perekopsky noted the platform was unable to cater to some of the TSE requests due to the company's operational setup. But Perekopsky added that these requests could be studied for future implementation. best-secure-messaging-apps-shutterstock-1892950018.jpg
from us


Telegram llm security и каланы
FROM American