Привет всем. Считаю здорово прошёл мастер класс. Честно говоря, не ожидал что займём лекторий музея.
Понимая, что не вся аудитория может быть погружена – первую часть мы посвятили базе. Рассмотрели MCP, анатомию агентов – а затем уже погрузились в практику.
Хочу сказать мерси за то, что Александр Лебедев согласился за 15 минут до начала мероприятия стать его соведущим. Чтобы не было тоскливо). Кстати, совсем скоро выйдет подкаст, который мы записали в Музее Криптографии до основного мастер-класса. Подкаст будет опубликован в канале Александра.
Ну и, к слову, о материалах:
https://github.com/wearetyomsmnv/slnm_ws2025 - тут код стенда, можно порешать. Как показал опыт мастер класса - чем больше модель, тем проще решить.
Кейс, который мы смотрели - https://brave.com/blog/unseeable-prompt-injections/
Что вдогонку посмотреть - https://github.com/wearetyomsmnv/Awesome-LLM-agent-Security
Где анонсы мероприятий - https://www.tgoop.com/slonomoikaevent
ну а на фото кстати вы.
Понимая, что не вся аудитория может быть погружена – первую часть мы посвятили базе. Рассмотрели MCP, анатомию агентов – а затем уже погрузились в практику.
Хочу сказать мерси за то, что Александр Лебедев согласился за 15 минут до начала мероприятия стать его соведущим. Чтобы не было тоскливо). Кстати, совсем скоро выйдет подкаст, который мы записали в Музее Криптографии до основного мастер-класса. Подкаст будет опубликован в канале Александра.
Ну и, к слову, о материалах:
https://github.com/wearetyomsmnv/slnm_ws2025 - тут код стенда, можно порешать. Как показал опыт мастер класса - чем больше модель, тем проще решить.
Кейс, который мы смотрели - https://brave.com/blog/unseeable-prompt-injections/
Что вдогонку посмотреть - https://github.com/wearetyomsmnv/Awesome-LLM-agent-Security
Где анонсы мероприятий - https://www.tgoop.com/slonomoikaevent
ну а на фото кстати вы.
1🔥7 5❤1
Ну а в нашей папке каналов появились новые авторы. Если вы не подписались - то стоит это сделать сейчас. 😌 😌 😌 . Авторы стараются для вас над контентом.
Please open Telegram to view this post
VIEW IN TELEGRAM
20❤6🔥3🤩1🤝1
Artyom Semenov
Рынок AI_Security в России.pdf
Рассказал немного дополнительно об отчёте который мы делали раннее.
https://secpost.ru/ii-pod-priczelom-kak-razvivaetsya-kiberbezopasnost-nejrosetej-v-rossii-i-v-mire/
Факты, интриги, цифры, расследования и немного ещё прогнозов.
https://secpost.ru/ii-pod-priczelom-kak-razvivaetsya-kiberbezopasnost-nejrosetej-v-rossii-i-v-mire/
Факты, интриги, цифры, расследования и немного ещё прогнозов.
secpost.ru
ИИ под прицелом. Как развивается кибербезопасность нейросетей в России и в мире
Российский рынок безопасности искусственного интеллекта (ИИ) представляет собой формирующийся сегмент, где пересекаются импортозамещение, государственное регулирование, научные школы и стартапы. Артем Семёнов, автор канала PWNAI, рассказал SecPost о ключевых…
1🔥10❤6🤝3
Безопасность AI-агентов до сих пор оценивают по метрикам, которые являются, на мой взгляд, недостаточными: фильтрация токсичного контента 😡 или эффективность в решении заранее заданных формальных задач (например, pass@k для кода).
Из тех публичных бенчмарков что я знаю - никто пока не проверяет выдержит ли модель, работающая в ядре AI-агента целевую атаку, когда злоумышленник сможет превратить сам агент, его компоненты или даже весь его функционал в оружие против системы, в которой он работает.😊
Именно этот вопрос был учтён при реализации Backbone Breaker Benchmark (b3) - совместного проекта Lakera и UK AI Security Institute.🤨
Он предлагает иной подход к тестированию атак на AI-агенты: вместо абстрактных метрик «умения»😊 или фильтрации контента бенчмарк целенаправленно атакует ядро системы — ту самую «основу» (backbone) 😊 , на которой держится весь AI-агент. Это сама LLM — ядро агента, где формируются решения при каждом взаимодействии.
Несмотря на то, что данных пока - нет. Информации о том, что из себя представляет бенчмарк уже достаточно..😳 (Код и данные опубликуют позже на GitHub)
Зачем это нужно?🤔
AI-агенты превратили LLM в основную точку взаимодействия с угрозами извне: они читают письма, генерируют код, взаимодействуют с базами данных. Но то, что LLM не умеют отличать данные от инструкций, делает их уязвимыми.
🐈 🐈 🐈
Именно в этом случае появляются разнообразные и гибридные атаки - например: через веб-страницу, файл или сообщение в чате атакующий может заставить модель украсть данные, выполнить вредоносный код или изменить логику работы.
Как устроен b3?🫣
Он использует «снимки угроз» (threat snapshots).
То есть задача — оценить конкретный момент атаки😳 : контекст, вектор воздействия и чёткий критерий провала. Например, удастся ли внедрить фишинговую ссылку в расписание для туриста или украсть информацию из юридически защищённого документа. Каждый тест показывает, где именно и почему модель теряет контроль.
Бенчмарк содержит 194 000 успешных попыток реализации атак, собранных в игре Gandalf: Agent Breaker. Участники, придумывали изощрённые способы атак на AI-агентов, из них почти 40% являются промпт-инъекциями при взаимодействии с внешними API, а 25% - джейлбрейки.🫤
Исследователи отобрали лишь 0,1 % от общего числа запросов, которые были реализованы в рамках соревнования — только те, что могут обойти защиту даже у топовых моделей (Claude 3.7, GPT-5).🗿
Что стало открытием при реализации бенчмарка?
Во-первых, агенты с многошаговым планированием (например, на базе ReAct или Tree-of-Thought prompting) оказались на 15% устойчивее к инъекциям по сравнению с классическими single-shot AI-агентами.😞
Во-вторых, размер модели — не гарант защиты. Выяснилось, что некоторые LLM среднего размера уверенно обыгрывают гигантов. Например, среди опенсурсных моделей Llama-3-70B выдерживала больше атак, чем GPT-4o в ряде категорий.🕺
А в-третьих, open-source модели в целом сокращают разрыв с коммерческими гигантами по защитной составляющей.🔥
Важно и то, что модель, выступающая ядром AI-агента, может идеально фильтровать токсичный контент (safety), но при этом безотказно выполнять команды из вредоносного запроса (security). Как дверной замок, который идеально определяет вежливых гостей, но не замечает взломщика с отмычкой.
Ещё из полезного исследователи реализовали таксономию атак, на AI-агентов, которую я приложил в картинке к посту.⚡️ ⚡️ ⚡️
Из тех публичных бенчмарков что я знаю - никто пока не проверяет выдержит ли модель, работающая в ядре AI-агента целевую атаку, когда злоумышленник сможет превратить сам агент, его компоненты или даже весь его функционал в оружие против системы, в которой он работает.
Именно этот вопрос был учтён при реализации Backbone Breaker Benchmark (b3) - совместного проекта Lakera и UK AI Security Institute.
Он предлагает иной подход к тестированию атак на AI-агенты: вместо абстрактных метрик «умения»
Несмотря на то, что данных пока - нет. Информации о том, что из себя представляет бенчмарк уже достаточно..
Зачем это нужно?
AI-агенты превратили LLM в основную точку взаимодействия с угрозами извне: они читают письма, генерируют код, взаимодействуют с базами данных. Но то, что LLM не умеют отличать данные от инструкций, делает их уязвимыми.
Именно в этом случае появляются разнообразные и гибридные атаки - например: через веб-страницу, файл или сообщение в чате атакующий может заставить модель украсть данные, выполнить вредоносный код или изменить логику работы.
Как устроен b3?
Он использует «снимки угроз» (threat snapshots).
То есть задача — оценить конкретный момент атаки
Бенчмарк содержит 194 000 успешных попыток реализации атак, собранных в игре Gandalf: Agent Breaker. Участники, придумывали изощрённые способы атак на AI-агентов, из них почти 40% являются промпт-инъекциями при взаимодействии с внешними API, а 25% - джейлбрейки.
Исследователи отобрали лишь 0,1 % от общего числа запросов, которые были реализованы в рамках соревнования — только те, что могут обойти защиту даже у топовых моделей (Claude 3.7, GPT-5).
Что стало открытием при реализации бенчмарка?
Во-первых, агенты с многошаговым планированием (например, на базе ReAct или Tree-of-Thought prompting) оказались на 15% устойчивее к инъекциям по сравнению с классическими single-shot AI-агентами.
Во-вторых, размер модели — не гарант защиты. Выяснилось, что некоторые LLM среднего размера уверенно обыгрывают гигантов. Например, среди опенсурсных моделей Llama-3-70B выдерживала больше атак, чем GPT-4o в ряде категорий.
А в-третьих, open-source модели в целом сокращают разрыв с коммерческими гигантами по защитной составляющей.
Важно и то, что модель, выступающая ядром AI-агента, может идеально фильтровать токсичный контент (safety), но при этом безотказно выполнять команды из вредоносного запроса (security). Как дверной замок, который идеально определяет вежливых гостей, но не замечает взломщика с отмычкой.
Ещё из полезного исследователи реализовали таксономию атак, на AI-агентов, которую я приложил в картинке к посту.
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍4🔥4🤝1
