Telegram Web
Forwarded from AISec [x\x feed]🍓🍓🍓 (Artyom Semenov)
Красивые
2🔥1
Привет всем. Считаю здорово прошёл мастер класс. Честно говоря, не ожидал что займём лекторий музея.

Понимая, что не вся аудитория может быть погружена – первую часть мы посвятили базе. Рассмотрели MCP, анатомию агентов – а затем уже погрузились в практику.
Хочу сказать мерси за то, что Александр Лебедев согласился за 15 минут до начала мероприятия стать его соведущим. Чтобы не было тоскливо). Кстати, совсем скоро выйдет подкаст, который мы записали в Музее Криптографии до основного мастер-класса. Подкаст будет опубликован в канале Александра.

Ну и, к слову, о материалах:

https://github.com/wearetyomsmnv/slnm_ws2025 - тут код стенда, можно порешать. Как показал опыт мастер класса - чем больше модель, тем проще решить.

Кейс, который мы смотрели - https://brave.com/blog/unseeable-prompt-injections/

Что вдогонку посмотреть - https://github.com/wearetyomsmnv/Awesome-LLM-agent-Security

Где анонсы мероприятий - https://www.tgoop.com/slonomoikaevent

ну а на фото кстати вы.
1🔥751
Ну а в нашей папке каналов появились новые авторы. Если вы не подписались - то стоит это сделать сейчас. 😌😌😌. Авторы стараются для вас над контентом.
Please open Telegram to view this post
VIEW IN TELEGRAM
206🔥3🤩1🤝1
65💯1
Безопасность AI-агентов до сих пор оценивают по метрикам, которые являются, на мой взгляд, недостаточными: фильтрация токсичного контента 😡 или эффективность в решении заранее заданных формальных задач (например, pass@k для кода).

Из тех публичных бенчмарков что я знаю - никто пока не проверяет выдержит ли модель, работающая в ядре AI-агента целевую атаку, когда злоумышленник сможет превратить сам агент, его компоненты или даже весь его функционал в оружие против системы, в которой он работает. 😊

Именно этот вопрос был учтён при реализации Backbone Breaker Benchmark (b3) - совместного проекта Lakera и UK AI Security Institute. 🤨

Он предлагает иной подход к тестированию атак на AI-агенты: вместо абстрактных метрик «умения»😊 или фильтрации контента бенчмарк целенаправленно атакует ядро системы — ту самую «основу» (backbone) 😊 , на которой держится весь AI-агент. Это сама LLM — ядро агента, где формируются решения при каждом взаимодействии.

Несмотря на то, что данных пока - нет. Информации о том, что из себя представляет бенчмарк уже достаточно.. 😳 (Код и данные опубликуют позже на GitHub)

Зачем это нужно?🤔

AI-агенты превратили LLM в основную точку взаимодействия с угрозами извне: они читают письма, генерируют код, взаимодействуют с базами данных. Но то, что LLM не умеют отличать данные от инструкций, делает их уязвимыми.

🐈🐈🐈

Именно в этом случае появляются разнообразные и гибридные атаки - например: через веб-страницу, файл или сообщение в чате атакующий может заставить модель украсть данные, выполнить вредоносный код или изменить логику работы.

Как устроен b3? 🫣

Он использует «снимки угроз» (threat snapshots).

То есть задача — оценить конкретный момент атаки 😳: контекст, вектор воздействия и чёткий критерий провала. Например, удастся ли внедрить фишинговую ссылку в расписание для туриста или украсть информацию из юридически защищённого документа. Каждый тест показывает, где именно и почему модель теряет контроль.

Бенчмарк содержит 194 000 успешных попыток реализации атак, собранных в игре Gandalf: Agent Breaker. Участники, придумывали изощрённые способы атак на AI-агентов, из них почти 40% являются промпт-инъекциями при взаимодействии с внешними API, а 25% - джейлбрейки. 🫤

Исследователи отобрали лишь 0,1 % от общего числа запросов, которые были реализованы в рамках соревнования — только те, что могут обойти защиту даже у топовых моделей (Claude 3.7, GPT-5). 🗿

Что стало открытием при реализации бенчмарка?

Во-первых, агенты с многошаговым планированием (например, на базе ReAct или Tree-of-Thought prompting) оказались на 15% устойчивее к инъекциям по сравнению с классическими single-shot AI-агентами. 😞

Во-вторых, размер модели — не гарант защиты. Выяснилось, что некоторые LLM среднего размера уверенно обыгрывают гигантов. Например, среди опенсурсных моделей Llama-3-70B выдерживала больше атак, чем GPT-4o в ряде категорий. 🕺

А в-третьих, open-source модели в целом сокращают разрыв с коммерческими гигантами по защитной составляющей. 🔥

Важно и то, что модель, выступающая ядром AI-агента, может идеально фильтровать токсичный контент (safety), но при этом безотказно выполнять команды из вредоносного запроса (security). Как дверной замок, который идеально определяет вежливых гостей, но не замечает взломщика с отмычкой.

Ещё из полезного исследователи реализовали таксономию атак, на AI-агентов, которую я приложил в картинке к посту. ⚡️⚡️⚡️
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍4🔥4🤝1
2025/11/04 16:49:16
Back to Top
HTML Embed Code: