PWN AI

Почему математикой не решить все проблемы.

Недавно на AMLive вышел эфир, посвящённый MlSecOps. Я внимательно его посмотрел, услышал мысли и мнения экспертов - и теперь хочу представить свою, альтернативную точку зрения на ряд поднятых вопросов. К каждому из выступавших я отношусь с уважением, однако, на мой взгляд, тема была раскрыта не до конца. Звучали призывы «сказать», «начать», «выделить бюджет» - но, к сожалению, без конкретики. Вероятно, это связано с внутренними NDA: многое просто нельзя озвучивать публично. Тем не менее я выделил для себя несколько ключевых тезисов, по которым хотел бы высказать свою позицию. Это исключительно субъективное мнение - как и большинство постов, которые я публикую в своём канале.

1️⃣

Первый тезис, прозвучавший на вебинаре: «Человек, который защищает или участвует в этом процессе, должен быть немного математиком, немного лингвистом и понимать, как устроена обвязка вокруг этой нейросети». На мой взгляд, опыт и общение с представителями разных компаний показывают, что куда больший эффект дают кроссфункциональные команды, чем попытка возложить всю ответственность за безопасность ИИ на ИИ-специалистов. Во многих случаях контекст настолько специфичен - не просто для ML в целом, а именно для конкретной команды или продукта, - что ИБ-специалист должен выступать скорее в роли заказчика, чем безапелляционного диктатора. Это обусловлено особенностями домена, ландшафта угроз и даже схожестью угроз между разными проектами.

2️⃣

Второй, но уже мой тезис: создавать полностью новые инструменты - не всегда рациональное решение, как и отказываться от традиционных мер информационной безопасности при защите ИИ-инфраструктуры или моделей. В ряде случаев это приведёт лишь к неоправданным тратам - как финансовым, так и в виде человекочасов, потраченных на ненужный R&D и избыточную сложность. Некоторые участники вебинара критиковали существующие фреймворки безопасности ИИ, при этом предлагая отказаться от базовых подходов. Мне кажется, это неверный путь. Хотя многие сошлись во мнении, что MlSecOps - это надстройка над DevSecOps. Да, он действительно вводит новые требования к защите данных, но это не означает, что каждый специалист по DataOps должен быть глубоко погружённым математиком. Для базовых задач - таких как санитизация данных или настройка RBAC - этого не требуется. Конечно, на других этапах MlSecOps знания в области машинного обучения, а в случае вебинара - именно LLM, - действительно необходимы. Но здесь нужна медиана, а не перекос в сторону исключительно ИИ-экспертов.

3️⃣

Третий вопрос - нужен ли регулятор и насколько сильно всё изменится. Многие участники ответили утвердительно, но мне сложно в это поверить. Регуляторы редко формулируют детальные, технически проработанные требования, ориентированные на экспертов. Скорее всего, вместо реальной защиты мы получим бумажную безопасность - формальные отчёты и чек-листы, от которых будет мало практической пользы. В таком случае, возможно, текущих фреймворков в целом достаточно. Многие из тех, что я видел, уже описывают процессы, выделяют широкий спектр угроз, структурируют и формализуют подходы, а иногда даже предлагают конкретные требования - хотя зачастую эти требования всё равно дорабатываются уже внутри организаций.

4️⃣

Четвёртое - мне показалось, что угрозы обсуждались преимущественно в духе «страшилок», а не в контексте реальных бизнес-рисков. Между тем на канале уже не раз публиковались попытки моделировать угрозы для разных этапов, компонентов и типов ML-систем.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤22

965 viewsArtyom Semenov, edited 19:40

PWN AI

5️⃣Пятое - LLM не исчерпывают собой весь MlSecOps. Разговор на вебинаре почему-то в основном сводился к большим языковым моделям, тогда как другие направления - компьютерное зрение, CNN, предиктивные модели и так далее - остались в тени. Это смутило меня, хотя я сам часто пишу именно про LLM. Забывать об остальных типах моделей было бы ошибкой. Во многих организациях просто нет бюджета на гонку за «хайпом» - а ведь LLM уже перестали быть хайпом, пора — это признать. Напомню, что существует, например, сборник инструментов MlSecOps, в создании которого я принимал участие. Там видно, что для предиктивного ИИ тоже существует множество решений. Да, некоторые из них заброшены или сложны в настройке - но игнорировать этот пласт и сводить всё к LLM создаёт очевидную, но никем не закрываемую «дыру».

И, наконец, будущее MlSecOps - оно точно не в квантовых компьютерах. К сожалению, на вебинаре не прозвучало мнений о том, каким может быть ближайшее будущее этой области в России. А между тем оно может быть очень перспективным: формирование требований к агентам и RAG-системам, появление множества вайтпейперов, разработка комбинированных подходов к защите в облаках, развитие Large Action Models - и уже сейчас на российском рынке появляются первые инструменты. Всё это создаёт основу для объёмного, интересного и позитивного развития как для отдельных экспертов, так и для всей отрасли в стране.

Ну а если интересно что-то почитать по этой теме, то вот пост, который мы когда-то давно собрали. Он и сейчас объёмный и описывает, где можно прочитать про угрозы и всё-всё.

Участникам вебинара - спасибо, я уважаю их.

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - RiccardoBiosas/awesome-MLSecOps: A curated list of MLSecOps tools, articles and other resources on security applied to…

A curated list of MLSecOps tools, articles and other resources on security applied to Machine Learning and MLOps systems. - RiccardoBiosas/awesome-MLSecOps

👍8🤝2

964 viewsArtyom Semenov, 19:41

PWN AI

Как Garak и другие инструменты для тестирования моделей поменялись за 2 года ?

За 2️⃣ года экосистема инструментов для тестирования безопасности LLM превратилась из нескольких экспериментальных скриптов в экосистему из более чем 25 многофункциональных инструментов (по данным репозитория и исходя из сохранёнок во втором канале), охватывающих весь цикл защиты - от поиска уязвимостей до автоматической генерации отчётов и интеграции в CI/CD. Изначально такие инструменты представляли собой простые скрипты для ручных или полуавтоматических проверок. В 2023 году одними из первых появились Garak от NVIDIA и внутренние скрипты команды Microsoft AI Red Team(позже это сформировалось как PyRIT), но они позволяли выполнять лишь ограниченные проверки отдельных уязвимостей и имели монолитную архитектуру - с жёстко заданными наборами атак и детекторов.

В 2024 году появилось множество специализированных инструментов. К ранним решениям присоединились LLMFuzzer для фаззинга API-интерфейсов, Vigil и LLM Guard для перехвата атак в реальном времени, PyRIT от Microsoft с автоматизацией red teaming и Promptfoo, внедривший полноценные adversarial-сценарии.
Каждый новый инструмент расширял возможности предшественников: он позволял генерировать сотни атак за минуты, автоматически классифицировать ответы и формировать отчёты об уязвимостях. Прорывом стала модульная архитектура. Инструменты теперь состоят из независимых компонентов: Generators (динамическая генерация атак), Orchestrators (управление сценариями), Detectors (анализ ответов) и Reporters (формирование отчётов в JSON, HTML или Markdown).

Начиная с 2024 года в инструментах стал появляться механизм автоматического обучения на основе успешных атак - так называемый adaptive probing. В отличие от ранних решений, которые лишь фиксировали факты нарушений - инструменты вроде Garak и DeepTeam стали анализировать результаты как успешных, так и неудачных попыток и в реальном времени корректировать стратегию генерации промптов, повышая эффективность тестирования.

К началу 2025 года появились решения для тестирования AI-агентов, инструменты тестирования путём взаимодействия через диалоги (Petri от Anthropic) и решения для непрерывного мониторинга в продакшене. Они поддерживают сложные сценарии: вместо одиночных атак типа prompt injection такие решения моделируют цепочки взаимодействий с участием нескольких LLM-агентов, запускают «атакующие» и «защитные» модели в одной сессии и отслеживают полный контекст - историю диалога, системные промпты и переменные состояния. Это позволяет выявлять сквозные уязвимости, которые невозможно обнаружить при одношаговых проверках.

Важным стала интеграция в CI/CD. Если в 2023 году тесты запускались вручную, то к 2025 году такие решения, как Promptfoo, PyRIT и Petri, предоставляют CLI и REST API для запуска в GitLab CI, GitHub Actions или Jenkins, а также веб-хуки для автоматической блокировки деплоя при обнаружении критических уязвимостей.

Параллельно сформировались единые стандарты тестовых сценариев. Вместо разрозненных, ad hoc-скриптов появились готовые реализации OWASP LLM Top 10 и NIST AI RMF, а также встроенные механизмы проверки соответствия требованиям GDPR и HIPAA - особенно для корпоративных решений.

Как итог, инструменты в 2025 году могут предоставить интерактивные дашборды и оценку по различным метрикам безопасности: Success Rate атак по категориям, Time to Detection, Trend Analysis по релизам.

Please open Telegram to view this post

VIEW IN TELEGRAM

30🔥5❤2👍1

767 viewsArtyom Semenov, edited 16:35

PWN AI

Недавно в разговоре с автором канала OK ML мы обсуждали собак🕺

🕺

🕺 — и то, как часто при создании чего-то нового мы возвращаемся к старым идеям. Это особенно заметно в случае с ИИ-агентами: раньше они были скорее экспериментом, а теперь повсеместно интегрируются в разные системы — от чат-ботов до автономных решений.

Этот разговор натолкнул меня на мысль: если появление AGI, ASI и других форм продвинутого ИИ кажется неизбежным, насколько тогда очевидна безопасность таких систем? Что ожидать в 2026 году? В прошлом посте я затронул этот вопрос, но тему стоит развить. Поэтому я проанализировал научные публикации, регуляторные инициативы и текущую практику, и выделил несколько ключевых тезисов, которые, определят тренды в области безопасности ИИ.

В 2026 году безопасность ИИ станет обязательной комплаенс-функцией под давлением международного регулирования. С августа 2025 года AI Act требует провайдеров моделей общего назначения обеспечивать прозрачность, соблюдение авторских прав и снижение системных рисков, а с 2026-го — вводит строгие требования к системам с высоким риском в части надёжности и качества данных. ✊

В США к примеру уже NDAA 2026 года ограничивает использование иностранных ИИ-технологий и вводит стандарты подтверждения происхождения цифрового контента, а калифорнийский закон с января 2026 года обязывает раскрывать данные, на которых обучались модели. Данные меры будут больше превращать безопасность ИИ из технической задачи в юридическую ответственность, распространяющуюся на весь жизненный цикл системы. Как мне кажется - неизбежно что похожее будет и у нас.

Традиционные методы выравнивания (alignment), контролирующие лишь начальные токены вывода, уже не справляются с такими угрозами, как adversarial suffix или fine-tuning poisoning. Им на смену могут прийти более глубокие механизмы - например, DeepRefusal, восстанавливающий 👩‍⚕️ защиту после джейлбрейка, и deliberative alignment с backtracking, позволяющий агенту перепроверять свои решения.

Ландшафт угроз радикально меняется: угрозы в 2026 будут ещё больше смещаться от статических LLM к автономным агентам.

Важную роль в ближайшее время будет играть безопасность во время выполнения (runtime safety): мониторинг действий, управление доступом к инструментам и возможность отката операций. По мере интеграции ИИ-агентов в цифровую инфраструктуру их безопасность уже не сводится к алгоритмической устойчивости(да уже давно так, надо это понимать), а требует обеспечения системной целостности, подтверждения подлинности.

Именно функция tool-use (использование внешних инструментов) существенно расширяет поверхность атаки: текстовая инъекция теперь ведёт не к генерации вредоносного контента, а к полному захвату системы - через выполнение небезопасных команд в API, файловых системах или сетевых интерфейсах.

Более опасными являются уязвимости мультиагентных систем. Недавние исследования показывают: если 41,2 процента моделей уязвимы к prompt injection, то 82,4 % могут быть скомпрометированы через эксплуатацию границ доверия между агентами. Это означает, что даже хорошо защищённая модель, устойчивая к внешним атакам, выполнит вредоносную инструкцию, если она поступит от «доверенного» пирингового агента.

Из этого следует очевидное, что доверие внутри сети агентов становится точкой отказа, а архитектура автономных ИИ-систем - непредсказуемым вектором атаки. И, в связи с этим можно ожидать появление решений, которые будут отслеживать поведение между агентами.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1🔥1

775 viewsArtyom Semenov, 22:23

PWN AI

Кстати, давно не появлялся в музее криптографии и появился большой повод.

26го октября в 15:00, я буду проводить там мастеркласс по взлому агентов. С того момента как я делал стрим по этой теме прошло довольно много времени и мне кажется что нам пора обновить знания по этой части. Рассмотреть как раз те вектора атак которые могут быть проэксплуатированы за счёт границ доверия агентов, MCP и всего что с этим связано.

Поэтому не затягивая скидываю вам ссылку на регистрацию:

https://cryptography-museum.ru/events/master-klass-po-vzlomu-ii-agenta

Запись не делаем. Приходите с ноотбуками. Тем более это вообще бесплатно.

1👍9❤5🔥2💯1

2.99K viewsArtyom Semenov, edited 22:29

PWN AI

Forwarded from Евгений Кокуйкин - Raft

Сегодня мы запускаем HiveTrace Red — продукт автоматического тестирования LLM и агентных систем.

Всё началось с курьёзных случаев, когда чатбот продавал автомобиль за доллар или выдавал несуществующие скидки на авиабилеты. С ростом возможностей ИИ-систем мы видим, что адверсарное тестирование становится таким же необходимым этапом безопасной разработки, как code review или аудит зависимостей библиотек.

🔹 HiveTrace Red генерирует и запускает десятки атак: token smuggling, roleplay, context switching и другие.
🔹 Цели тестирования могут варьироваться от раскрытия конфиденциальной информации и генерации вредоносного контента до проверки репутационных рисков и симуляции DoS атак.
🔹 Инструмент автоматически анализирует ответы моделей и формирует отчёты, совместимые с OWASP и MITRE, а в будущем добавим новые российские стандарты.
🔹 Совместное использование с основной платформой HiveTrace позволяет закрыть полный цикл разработки и эксплуатации AI-систем "обнаружить — проверить — предотвратить".

Сегодня мы открываем Open Source ядро продукта, которое можно использовать как on-prem с локальными моделями, так и через API облачных сервисов для генерации и оценки атак. Параллельно идёт разработка enterprise-функций и интеграций с облачными платформами. При создании инструмента мы опирались на опыт собственных red team-проектов последних двух лет, а в основе HiveTrace Red лежит форк проекта RuRedTeam Юрия Лебединского.

Используйте продукт, чтобы увидеть, насколько устойчив ваш ИИ-ассистент к промпт-атакам. На днях анонсируем вебинар, где подробно покажем, как работает HiveTrace Red.

👍3

639 viewsArtyom Semenov, 11:57

PWN AI

Forwarded from Евгений Кокуйкин - Raft

Многие, кто давно следит за каналом, могли заметить, что HiveTrace Red пересекается по функциям с LLAMATOR, о котором я часто писал раньше.

Лламатор появился после хакатона AI Talent Hub в конце 2024 года и развивался в нашей лаборатории AI Security Lab ИТМО. Для закрытия бизнес задач и более глубокой интеграции с платформой HiveTrace мы обсуждали внедрение инструмента, но в итоге было приято решение создать новый продукт HiveTrace Red. Команда магистров продолжает самостоятельно развивать LLAMATOR под некоммерческой лицензией Creative Commons.

Рынок AI Security стремительно растет, и стартапы и крупные компании в России уже активно включаются в эту гонку. Это хороший сигнал раз сообщество принимает новую область, а значит, появляются возможности и для коммерческих команд, и для исследовательских групп. Буквально год назад все было иначе, мы были первыми, кто вышел с публичными релизами в этом направлении.

Желаю авторам LLAMATOR успешного развития проекта. Работа небольшой, но активной команды уже внесла заметный вклад в развитие AI Red Teaming в России.

Сейчас оба продукта участвуют в конкурсе Highload++ Open Source, будем вам благодарны, если поддержите нас или ребят в голосовании.

777 viewsArtyom Semenov, 11:57

PWN AI

Недавно Veracode опубликовал отчёт, в котором исследовал безопасность кода, сгенерированного различными LLM.

Результаты оказались тревожными и ожидаемыми: в 45% случаев ИИ-сгенерированный код содержал уязвимости, включённые в список OWASP Top 10 для веба.💯

Исследование охватило более 100 моделей и 80 программных задач на четырёх языках: Java, JavaScript, C# и Python. Выяснилось, что ни масштаб модели, ни её актуальность не влияют на безопасность генерируемого кода. Хотя синтаксическая корректность за два года существенно возросла, уровень безопасности остался практически неизменным.🤔

Наименее защищённый код генерируется для Java: лишь 28,5% решений оказались безопасными. Этот показатель в 2,1 раза ниже, чем у Python (61,7%), и на 28,5% хуже результата по JavaScript (57%). Причина — в обучающих данных: в Java-проектах исторически преобладают уязвимые примеры, например реализации с SQL-инъекциями.

По разным типам уязвимостей результаты сильно варьируются.😩 Модели эффективно предотвращают SQL-инъекции и некорректное использование криптографических алгоритмов (80–85% безопасного кода). Однако защита от XSS и Log Injection остаётся низкой: безопасные решения встречаются лишь в 13–14% случаев. Причина в том, что для предотвращения таких уязвимостей требуется анализ контекста использования данных и понимание, какие данные нуждаются в очистке. LLM не способны на такой глубокий анализ.

Проблема связана с качеством обучающих данных. В открытых источниках, очевидно, преобладает код с уязвимостями, включая заведомо уязвимые приложения. Модели не умеют различать безопасные и уязвимые паттерны, интерпретируя оба варианта как допустимые решения
Veracode предупреждает, что компании, активно внедряющие ИИ в разработку, могут незаметно увеличивать тех.долг и риски кибербезопасности. Вайб-кодинг создаёт проблемы стабильности решения, а код требует серьёзных усилий по проверке и доработке.🧐

Вывод отчёта однозначен: LLM не могут самостоятельно обеспечить безопасность кода, несмотря на технический прогресс. Обязательными мерами должны быть (кто же, ну конечно) SAST-решения, автофиксы и обучение разработчиков правильному использованию ИИ при генерации кода.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7💯2❤11

1.13K viewsArtyom Semenov, 15:55

PWN AI

Рынок AI_Security в России.pdf

7 MB

Всем привет.

Хочу выразить огромную благодарность всем, кто приобрёл наш (совместный с OK ML) отчёт по рынку AI Security на Boosty. Ваша поддержка была критически важной.

Я получил много полезной обратной связи и убедился, что тема действительно востребована. Для тех, кто уже приобрёл отчёт, подготовил бонусы, информацию о которых я отправлю лично тем, кто купил.

После тщательного анализа пришёл к выводу, что AI Security — это критически важная и быстро развивающаяся область для России. Убедившись, что широкое распространение этих знаний принесёт гораздо больше пользы сообществу, чем ограничение доступа (как это было с моими репозиториями на GitHub, к примеру), я принял решение сделать отчёт бесплатным.

Теперь PDF версию отчёта можно найти в этом посте. Если вы считаете материал ценным, поделитесь им с кем-либо) — думаю, что это поможет создать более сильное и осведомлённое сообщество вокруг AI Security.

Отчёт это больше как попытка структуризации - а не как попытка дать оценку чему либо или кому либо.

23👍33❤14🔥1232👎1🦄1

1.87K viewsArtyom Semenov, edited 20:44

PWN AI

ну а где реакции )))??

115

427 viewsArtyom Semenov, 20:51

2025/10/19 00:28:02
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>