Telegram Web
5️⃣Пятое - LLM не исчерпывают собой весь MlSecOps. Разговор на вебинаре почему-то в основном сводился к большим языковым моделям, тогда как другие направления - компьютерное зрение, CNN, предиктивные модели и так далее - остались в тени. Это смутило меня, хотя я сам часто пишу именно про LLM. Забывать об остальных типах моделей было бы ошибкой. Во многих организациях просто нет бюджета на гонку за «хайпом» - а ведь LLM уже перестали быть хайпом, пора — это признать. Напомню, что существует, например, сборник инструментов MlSecOps, в создании которого я принимал участие. Там видно, что для предиктивного ИИ тоже существует множество решений. Да, некоторые из них заброшены или сложны в настройке - но игнорировать этот пласт и сводить всё к LLM создаёт очевидную, но никем не закрываемую «дыру».

И, наконец, будущее MlSecOps - оно точно не в квантовых компьютерах. К сожалению, на вебинаре не прозвучало мнений о том, каким может быть ближайшее будущее этой области в России. А между тем оно может быть очень перспективным: формирование требований к агентам и RAG-системам, появление множества вайтпейперов, разработка комбинированных подходов к защите в облаках, развитие Large Action Models - и уже сейчас на российском рынке появляются первые инструменты. Всё это создаёт основу для объёмного, интересного и позитивного развития как для отдельных экспертов, так и для всей отрасли в стране.

Ну а если интересно что-то почитать по этой теме, то вот пост, который мы когда-то давно собрали. Он и сейчас объёмный и описывает, где можно прочитать про угрозы и всё-всё.

Участникам вебинара - спасибо, я уважаю их.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🤝2
Как Garak и другие инструменты для тестирования моделей поменялись за 2 года ?

За 2️⃣ года экосистема инструментов для тестирования безопасности LLM превратилась из нескольких экспериментальных скриптов в экосистему из более чем 25 многофункциональных инструментов (по данным репозитория и исходя из сохранёнок во втором канале), охватывающих весь цикл защиты - от поиска уязвимостей до автоматической генерации отчётов и интеграции в CI/CD. Изначально такие инструменты представляли собой простые скрипты для ручных или полуавтоматических проверок. В 2023 году одними из первых появились Garak от NVIDIA и внутренние скрипты команды Microsoft AI Red Team(позже это сформировалось как PyRIT), но они позволяли выполнять лишь ограниченные проверки отдельных уязвимостей и имели монолитную архитектуру - с жёстко заданными наборами атак и детекторов.

В 2024 году появилось множество специализированных инструментов. К ранним решениям присоединились LLMFuzzer для фаззинга API-интерфейсов, Vigil и LLM Guard для перехвата атак в реальном времени, PyRIT от Microsoft с автоматизацией red teaming и Promptfoo, внедривший полноценные adversarial-сценарии.
Каждый новый инструмент расширял возможности предшественников: он позволял генерировать сотни атак за минуты, автоматически классифицировать ответы и формировать отчёты об уязвимостях. Прорывом стала модульная архитектура. Инструменты теперь состоят из независимых компонентов: Generators (динамическая генерация атак), Orchestrators (управление сценариями), Detectors (анализ ответов) и Reporters (формирование отчётов в JSON, HTML или Markdown).

Начиная с 2024 года в инструментах стал появляться механизм автоматического обучения на основе успешных атак - так называемый adaptive probing. В отличие от ранних решений, которые лишь фиксировали факты нарушений - инструменты вроде Garak и DeepTeam стали анализировать результаты как успешных, так и неудачных попыток и в реальном времени корректировать стратегию генерации промптов, повышая эффективность тестирования.

К началу 2025 года появились решения для тестирования AI-агентов, инструменты тестирования путём взаимодействия через диалоги (Petri от Anthropic) и решения для непрерывного мониторинга в продакшене. Они поддерживают сложные сценарии: вместо одиночных атак типа prompt injection такие решения моделируют цепочки взаимодействий с участием нескольких LLM-агентов, запускают «атакующие» и «защитные» модели в одной сессии и отслеживают полный контекст - историю диалога, системные промпты и переменные состояния. Это позволяет выявлять сквозные уязвимости, которые невозможно обнаружить при одношаговых проверках.

Важным стала интеграция в CI/CD. Если в 2023 году тесты запускались вручную, то к 2025 году такие решения, как Promptfoo, PyRIT и Petri, предоставляют CLI и REST API для запуска в GitLab CI, GitHub Actions или Jenkins, а также веб-хуки для автоматической блокировки деплоя при обнаружении критических уязвимостей.

Параллельно сформировались единые стандарты тестовых сценариев. Вместо разрозненных, ad hoc-скриптов появились готовые реализации OWASP LLM Top 10 и NIST AI RMF, а также встроенные механизмы проверки соответствия требованиям GDPR и HIPAA - особенно для корпоративных решений.

Как итог, инструменты в 2025 году могут предоставить интерактивные дашборды и оценку по различным метрикам безопасности: Success Rate атак по категориям, Time to Detection, Trend Analysis по релизам.
Please open Telegram to view this post
VIEW IN TELEGRAM
30🔥52👍1
Недавно в разговоре с автором канала OK ML мы обсуждали собак🕺🕺🕺 — и то, как часто при создании чего-то нового мы возвращаемся к старым идеям. Это особенно заметно в случае с ИИ-агентами: раньше они были скорее экспериментом, а теперь повсеместно интегрируются в разные системы — от чат-ботов до автономных решений.

Этот разговор натолкнул меня на мысль: если появление AGI, ASI и других форм продвинутого ИИ кажется неизбежным, насколько тогда очевидна безопасность таких систем? Что ожидать в 2026 году? В прошлом посте я затронул этот вопрос, но тему стоит развить. Поэтому я проанализировал научные публикации, регуляторные инициативы и текущую практику, и выделил несколько ключевых тезисов, которые, определят тренды в области безопасности ИИ.

В 2026 году безопасность ИИ станет обязательной комплаенс-функцией под давлением международного регулирования. С августа 2025 года AI Act требует провайдеров моделей общего назначения обеспечивать прозрачность, соблюдение авторских прав и снижение системных рисков, а с 2026-го — вводит строгие требования к системам с высоким риском в части надёжности и качества данных.

В США к примеру уже NDAA 2026 года ограничивает использование иностранных ИИ-технологий и вводит стандарты подтверждения происхождения цифрового контента, а калифорнийский закон с января 2026 года обязывает раскрывать данные, на которых обучались модели. Данные меры будут больше превращать безопасность ИИ из технической задачи в юридическую ответственность, распространяющуюся на весь жизненный цикл системы. Как мне кажется - неизбежно что похожее будет и у нас.

Традиционные методы выравнивания (alignment), контролирующие лишь начальные токены вывода, уже не справляются с такими угрозами, как adversarial suffix или fine-tuning poisoning. Им на смену могут прийти более глубокие механизмы - например, DeepRefusal, восстанавливающий 👩‍⚕️ защиту после джейлбрейка, и deliberative alignment с backtracking, позволяющий агенту перепроверять свои решения.

Ландшафт угроз радикально меняется: угрозы в 2026 будут ещё больше смещаться от статических LLM к автономным агентам.

Важную роль в ближайшее время будет играть безопасность во время выполнения (runtime safety): мониторинг действий, управление доступом к инструментам и возможность отката операций. По мере интеграции ИИ-агентов в цифровую инфраструктуру их безопасность уже не сводится к алгоритмической устойчивости(да уже давно так, надо это понимать), а требует обеспечения системной целостности, подтверждения подлинности.

Именно функция tool-use (использование внешних инструментов) существенно расширяет поверхность атаки: текстовая инъекция теперь ведёт не к генерации вредоносного контента, а к полному захвату системы - через выполнение небезопасных команд в API, файловых системах или сетевых интерфейсах.

Более опасными являются уязвимости мультиагентных систем. Недавние исследования показывают: если 41,2 процента моделей уязвимы к prompt injection, то 82,4 % могут быть скомпрометированы через эксплуатацию границ доверия между агентами. Это означает, что даже хорошо защищённая модель, устойчивая к внешним атакам, выполнит вредоносную инструкцию, если она поступит от «доверенного» пирингового агента.

Из этого следует очевидное, что доверие внутри сети агентов становится точкой отказа, а архитектура автономных ИИ-систем - непредсказуемым вектором атаки. И, в связи с этим можно ожидать появление решений, которые будут отслеживать поведение между агентами.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥1
Кстати, давно не появлялся в музее криптографии и появился большой повод.

26го октября в 15:00, я буду проводить там мастеркласс по взлому агентов. С того момента как я делал стрим по этой теме прошло довольно много времени и мне кажется что нам пора обновить знания по этой части. Рассмотреть как раз те вектора атак которые могут быть проэксплуатированы за счёт границ доверия агентов, MCP и всего что с этим связано.

Поэтому не затягивая скидываю вам ссылку на регистрацию:

https://cryptography-museum.ru/events/master-klass-po-vzlomu-ii-agenta

Запись не делаем. Приходите с ноотбуками. Тем более это вообще бесплатно.
1👍95🔥2💯1
Сегодня мы запускаем HiveTrace Red — продукт автоматического тестирования LLM и агентных систем.

Всё началось с курьёзных случаев, когда чатбот продавал автомобиль за доллар или выдавал несуществующие скидки на авиабилеты. С ростом возможностей ИИ-систем мы видим, что адверсарное тестирование становится таким же необходимым этапом безопасной разработки, как code review или аудит зависимостей библиотек.

🔹 HiveTrace Red генерирует и запускает десятки атак: token smuggling, roleplay, context switching и другие.
🔹 Цели тестирования могут варьироваться от раскрытия конфиденциальной информации и генерации вредоносного контента до проверки репутационных рисков и симуляции DoS атак.
🔹 Инструмент автоматически анализирует ответы моделей и формирует отчёты, совместимые с OWASP и MITRE, а в будущем добавим новые российские стандарты.
🔹 Совместное использование с основной платформой HiveTrace позволяет закрыть полный цикл разработки и эксплуатации AI-систем "обнаружить — проверить — предотвратить".

Сегодня мы открываем Open Source ядро продукта, которое можно использовать как on-prem с локальными моделями, так и через API облачных сервисов для генерации и оценки атак. Параллельно идёт разработка enterprise-функций и интеграций с облачными платформами. При создании инструмента мы опирались на опыт собственных red team-проектов последних двух лет, а в основе HiveTrace Red лежит форк проекта RuRedTeam Юрия Лебединского.

Используйте продукт, чтобы увидеть, насколько устойчив ваш ИИ-ассистент к промпт-атакам. На днях анонсируем вебинар, где подробно покажем, как работает HiveTrace Red.
👍3
Многие, кто давно следит за каналом, могли заметить, что HiveTrace Red пересекается по функциям с LLAMATOR, о котором я часто писал раньше.

Лламатор появился после хакатона AI Talent Hub в конце 2024 года и развивался в нашей лаборатории AI Security Lab ИТМО. Для закрытия бизнес задач и более глубокой интеграции с платформой HiveTrace мы обсуждали внедрение инструмента, но в итоге было приято решение создать новый продукт HiveTrace Red. Команда магистров продолжает самостоятельно развивать LLAMATOR под некоммерческой лицензией Creative Commons.

Рынок AI Security стремительно растет, и стартапы и крупные компании в России уже активно включаются в эту гонку. Это хороший сигнал раз сообщество принимает новую область, а значит, появляются возможности и для коммерческих команд, и для исследовательских групп. Буквально год назад все было иначе, мы были первыми, кто вышел с публичными релизами в этом направлении.

Желаю авторам LLAMATOR успешного развития проекта. Работа небольшой, но активной команды уже внесла заметный вклад в развитие AI Red Teaming в России.

Сейчас оба продукта участвуют в конкурсе Highload++ Open Source, будем вам благодарны, если поддержите нас или ребят в голосовании.
Недавно Veracode опубликовал отчёт, в котором исследовал безопасность кода, сгенерированного различными LLM.

Результаты оказались тревожными и ожидаемыми: в 45% случаев ИИ-сгенерированный код содержал уязвимости, включённые в список OWASP Top 10 для веба.💯

Исследование охватило более 100 моделей и 80 программных задач на четырёх языках: Java, JavaScript, C# и Python. Выяснилось, что ни масштаб модели, ни её актуальность не влияют на безопасность генерируемого кода. Хотя синтаксическая корректность за два года существенно возросла, уровень безопасности остался практически неизменным.🤔

Наименее защищённый код генерируется для Java: лишь 28,5% решений оказались безопасными. Этот показатель в 2,1 раза ниже, чем у Python (61,7%), и на 28,5% хуже результата по JavaScript (57%). Причина — в обучающих данных: в Java-проектах исторически преобладают уязвимые примеры, например реализации с SQL-инъекциями.

По разным типам уязвимостей результаты сильно варьируются.😩 Модели эффективно предотвращают SQL-инъекции и некорректное использование криптографических алгоритмов (80–85% безопасного кода). Однако защита от XSS и Log Injection остаётся низкой: безопасные решения встречаются лишь в 13–14% случаев. Причина в том, что для предотвращения таких уязвимостей требуется анализ контекста использования данных и понимание, какие данные нуждаются в очистке. LLM не способны на такой глубокий анализ.

Проблема связана с качеством обучающих данных. В открытых источниках, очевидно, преобладает код с уязвимостями, включая заведомо уязвимые приложения. Модели не умеют различать безопасные и уязвимые паттерны, интерпретируя оба варианта как допустимые решения
Veracode предупреждает, что компании, активно внедряющие ИИ в разработку, могут незаметно увеличивать тех.долг и риски кибербезопасности. Вайб-кодинг создаёт проблемы стабильности решения, а код требует серьёзных усилий по проверке и доработке.🧐

Вывод отчёта однозначен: LLM не могут самостоятельно обеспечить безопасность кода, несмотря на технический прогресс. Обязательными мерами должны быть (кто же, ну конечно) SAST-решения, автофиксы и обучение разработчиков правильному использованию ИИ при генерации кода.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7💯211
Рынок AI_Security в России.pdf
7 MB
Всем привет.

Хочу выразить огромную благодарность всем, кто приобрёл наш (совместный с OK ML) отчёт по рынку AI Security на Boosty. Ваша поддержка была критически важной.

Я получил много полезной обратной связи и убедился, что тема действительно востребована. Для тех, кто уже приобрёл отчёт, подготовил бонусы, информацию о которых я отправлю лично тем, кто купил.

После тщательного анализа пришёл к выводу, что AI Security — это критически важная и быстро развивающаяся область для России. Убедившись, что широкое распространение этих знаний принесёт гораздо больше пользы сообществу, чем ограничение доступа (как это было с моими репозиториями на GitHub, к примеру), я принял решение сделать отчёт бесплатным.

Теперь PDF версию отчёта можно найти в этом посте. Если вы считаете материал ценным, поделитесь им с кем-либо) — думаю, что это поможет создать более сильное и осведомлённое сообщество вокруг AI Security.

Отчёт это больше как попытка структуризации - а не как попытка дать оценку чему либо или кому либо.
26👍5924🔥20👎555🦄1
ну а где реакции )))??
117🤡96👎1👻1
OpenAI в данный момент релизит "свой" браузер со свтроенным ChatGPT (никаких сюрпризов).
Но глядя на этот скрин, кажется можно увидеть как начинают нервничать инвесторы Xbow. 😁

Пойду собирать списки страниц где попрошу Atlas браузер поискать мне XSS 😏

PS: Открывается шикарный пласт скрытых промт инъекций, которые поймают доверчивых юзеров и их ai-агентов вместе с их кредитными картами 😂
🔥4
И как вы думаете, что я сделал

🐈🐈🐈
Please open Telegram to view this post
VIEW IN TELEGRAM
Я потестил это в comet от perplexity. И оно сработало, конечно же.
12🔥83
Некоторые выводы об использовании Browser Use агента из Comet в роли пентест-помощника. Почему его лучше не использовать и в чём всё-таки есть польза.

После предыдущего поста меня заинтересовал вопрос: можно ли заменить пентестера агентом, который сам пройдёт полный цикл — от разведки до отчёта? Спешу огорчить: мои тесты на простом полигоне (не баг-баунти, позже поймёте почему) вовсе не впечатлили. Взял классический OWASP DVWA, потому что проверять сайт без подсказок — это очень долго, да и без контекста потратить можно кучу часов.

Copilot из Comet начал анализировать ресурс, по заголовкам определил уязвимости и принялся генерировать пейлоады, брутить страницы и эксплуатировать дыры - меняя уровни сложности. Из десяти задач решил пять — остальное, видимо, посчитал как "beneath his dignity" – ниже его достоинства. Cloudflare не заметил этого агента, а вот уже Pastebin, куда агент загружал отчёт не пускал его в паблик: слова «атака» и «эксплойт» находились там в красной книге запрещённых слов. Пришлось руками написать, чтобы он обфусцировал отчёт и попробовал снова. Зато сам факт, что он собрал отчёт и скинул его наружу, даёт надежду - полезность есть, но минимальная.

Основная проблема: агент не умеет запускать реальные инструменты. Так что ни против xbow, ни против живого пентестера он не выстоит. К тому же данные, на которых он обучен – не экспертным сообществом собраны, да и закрыты от нас - неизвестно вообще какая там модель под капотом ассистента (мб это модель, сделанная самим перплексити), но это, конечно, недолго останется тайной. Да и работает всё это с такой скоростью, будто агент сначала почитал мануал по кибербезопасности за стаканчиком капучино, где вместо кофе – горячее молоко.

Зато рекон он делает на удивление прилично: смотрит DNS, эндпоинты, даже фаззит структуру сайта - как я два года назад делал в своём скрипте. Думаю, в будущем появятся расширения, которые помогут ему взаимодействовать с браузером для пентеста. Да и исследований будет много по этой теме. Но пока это что-то между «ну ладно» и «не вздумай использовать в бою» - примерно 3 балла из 10 по шкале xbow. Удобно что он ещё и скрипты может генерить - запульнули одни js, он увидел что в нём ошибка и переписал его и запустил вновь.

Ну вы и сами видели наверное статьи где бенчмарчат ллмки на offensive capabilities, честно говоря тут тоже ничего не следовало ожидать.

P.S. Кстати, можно попросить его нарисовать графики для отчёта и сказать менеджерам: «Вас взломал Perplexity». Если конечно вы не устанете ждать.

P.P.S - зато эти браузеры хорошо уязвимы к промпт-инъекциям
😁41👍1🤣1
2025/10/24 05:38:49
Back to Top
HTML Embed Code: