И, наконец, будущее MlSecOps - оно точно не в квантовых компьютерах. К сожалению, на вебинаре не прозвучало мнений о том, каким может быть ближайшее будущее этой области в России. А между тем оно может быть очень перспективным: формирование требований к агентам и RAG-системам, появление множества вайтпейперов, разработка комбинированных подходов к защите в облаках, развитие Large Action Models - и уже сейчас на российском рынке появляются первые инструменты. Всё это создаёт основу для объёмного, интересного и позитивного развития как для отдельных экспертов, так и для всей отрасли в стране.
Ну а если интересно что-то почитать по этой теме, то вот пост, который мы когда-то давно собрали. Он и сейчас объёмный и описывает, где можно прочитать про угрозы и всё-всё.
Участникам вебинара - спасибо, я уважаю их.
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - RiccardoBiosas/awesome-MLSecOps: A curated list of MLSecOps tools, articles and other resources on security applied to…
A curated list of MLSecOps tools, articles and other resources on security applied to Machine Learning and MLOps systems. - RiccardoBiosas/awesome-MLSecOps
👍8🤝2
Как Garak и другие инструменты для тестирования моделей поменялись за 2 года ?
За2️⃣ года экосистема инструментов для тестирования безопасности LLM превратилась из нескольких экспериментальных скриптов в экосистему из более чем 25 многофункциональных инструментов (по данным репозитория и исходя из сохранёнок во втором канале), охватывающих весь цикл защиты - от поиска уязвимостей до автоматической генерации отчётов и интеграции в CI/CD. Изначально такие инструменты представляли собой простые скрипты для ручных или полуавтоматических проверок. В 2023 году одними из первых появились Garak от NVIDIA и внутренние скрипты команды Microsoft AI Red Team(позже это сформировалось как PyRIT), но они позволяли выполнять лишь ограниченные проверки отдельных уязвимостей и имели монолитную архитектуру - с жёстко заданными наборами атак и детекторов.
В 2024 году появилось множество специализированных инструментов. К ранним решениям присоединились LLMFuzzer для фаззинга API-интерфейсов, Vigil и LLM Guard для перехвата атак в реальном времени, PyRIT от Microsoft с автоматизацией red teaming и Promptfoo, внедривший полноценные adversarial-сценарии.
Каждый новый инструмент расширял возможности предшественников: он позволял генерировать сотни атак за минуты, автоматически классифицировать ответы и формировать отчёты об уязвимостях. Прорывом стала модульная архитектура. Инструменты теперь состоят из независимых компонентов: Generators (динамическая генерация атак), Orchestrators (управление сценариями), Detectors (анализ ответов) и Reporters (формирование отчётов в JSON, HTML или Markdown).
Начиная с 2024 года в инструментах стал появляться механизм автоматического обучения на основе успешных атак - так называемый adaptive probing. В отличие от ранних решений, которые лишь фиксировали факты нарушений - инструменты вроде Garak и DeepTeam стали анализировать результаты как успешных, так и неудачных попыток и в реальном времени корректировать стратегию генерации промптов, повышая эффективность тестирования.
К началу 2025 года появились решения для тестирования AI-агентов, инструменты тестирования путём взаимодействия через диалоги (Petri от Anthropic) и решения для непрерывного мониторинга в продакшене. Они поддерживают сложные сценарии: вместо одиночных атак типа prompt injection такие решения моделируют цепочки взаимодействий с участием нескольких LLM-агентов, запускают «атакующие» и «защитные» модели в одной сессии и отслеживают полный контекст - историю диалога, системные промпты и переменные состояния. Это позволяет выявлять сквозные уязвимости, которые невозможно обнаружить при одношаговых проверках.
Важным стала интеграция в CI/CD. Если в 2023 году тесты запускались вручную, то к 2025 году такие решения, как Promptfoo, PyRIT и Petri, предоставляют CLI и REST API для запуска в GitLab CI, GitHub Actions или Jenkins, а также веб-хуки для автоматической блокировки деплоя при обнаружении критических уязвимостей.
Параллельно сформировались единые стандарты тестовых сценариев. Вместо разрозненных, ad hoc-скриптов появились готовые реализации OWASP LLM Top 10 и NIST AI RMF, а также встроенные механизмы проверки соответствия требованиям GDPR и HIPAA - особенно для корпоративных решений.
Как итог, инструменты в 2025 году могут предоставить интерактивные дашборды и оценку по различным метрикам безопасности: Success Rate атак по категориям, Time to Detection, Trend Analysis по релизам.
За
В 2024 году появилось множество специализированных инструментов. К ранним решениям присоединились LLMFuzzer для фаззинга API-интерфейсов, Vigil и LLM Guard для перехвата атак в реальном времени, PyRIT от Microsoft с автоматизацией red teaming и Promptfoo, внедривший полноценные adversarial-сценарии.
Каждый новый инструмент расширял возможности предшественников: он позволял генерировать сотни атак за минуты, автоматически классифицировать ответы и формировать отчёты об уязвимостях. Прорывом стала модульная архитектура. Инструменты теперь состоят из независимых компонентов: Generators (динамическая генерация атак), Orchestrators (управление сценариями), Detectors (анализ ответов) и Reporters (формирование отчётов в JSON, HTML или Markdown).
Начиная с 2024 года в инструментах стал появляться механизм автоматического обучения на основе успешных атак - так называемый adaptive probing. В отличие от ранних решений, которые лишь фиксировали факты нарушений - инструменты вроде Garak и DeepTeam стали анализировать результаты как успешных, так и неудачных попыток и в реальном времени корректировать стратегию генерации промптов, повышая эффективность тестирования.
К началу 2025 года появились решения для тестирования AI-агентов, инструменты тестирования путём взаимодействия через диалоги (Petri от Anthropic) и решения для непрерывного мониторинга в продакшене. Они поддерживают сложные сценарии: вместо одиночных атак типа prompt injection такие решения моделируют цепочки взаимодействий с участием нескольких LLM-агентов, запускают «атакующие» и «защитные» модели в одной сессии и отслеживают полный контекст - историю диалога, системные промпты и переменные состояния. Это позволяет выявлять сквозные уязвимости, которые невозможно обнаружить при одношаговых проверках.
Важным стала интеграция в CI/CD. Если в 2023 году тесты запускались вручную, то к 2025 году такие решения, как Promptfoo, PyRIT и Petri, предоставляют CLI и REST API для запуска в GitLab CI, GitHub Actions или Jenkins, а также веб-хуки для автоматической блокировки деплоя при обнаружении критических уязвимостей.
Параллельно сформировались единые стандарты тестовых сценариев. Вместо разрозненных, ad hoc-скриптов появились готовые реализации OWASP LLM Top 10 и NIST AI RMF, а также встроенные механизмы проверки соответствия требованиям GDPR и HIPAA - особенно для корпоративных решений.
Как итог, инструменты в 2025 году могут предоставить интерактивные дашборды и оценку по различным метрикам безопасности: Success Rate атак по категориям, Time to Detection, Trend Analysis по релизам.
Please open Telegram to view this post
VIEW IN TELEGRAM
30🔥5❤2👍1
Недавно в разговоре с автором канала OK ML мы обсуждали собак🕺 🕺 🕺 — и то, как часто при создании чего-то нового мы возвращаемся к старым идеям. Это особенно заметно в случае с ИИ-агентами: раньше они были скорее экспериментом, а теперь повсеместно интегрируются в разные системы — от чат-ботов до автономных решений.
Этот разговор натолкнул меня на мысль: если появление AGI, ASI и других форм продвинутого ИИ кажется неизбежным, насколько тогда очевидна безопасность таких систем? Что ожидать в 2026 году? В прошлом посте я затронул этот вопрос, но тему стоит развить. Поэтому я проанализировал научные публикации, регуляторные инициативы и текущую практику, и выделил несколько ключевых тезисов, которые, определят тренды в области безопасности ИИ.
В 2026 году безопасность ИИ станет обязательной комплаенс-функцией под давлением международного регулирования. С августа 2025 года AI Act требует провайдеров моделей общего назначения обеспечивать прозрачность, соблюдение авторских прав и снижение системных рисков, а с 2026-го — вводит строгие требования к системам с высоким риском в части надёжности и качества данных.✊
В США к примеру уже NDAA 2026 года ограничивает использование иностранных ИИ-технологий и вводит стандарты подтверждения происхождения цифрового контента, а калифорнийский закон с января 2026 года обязывает раскрывать данные, на которых обучались модели. Данные меры будут больше превращать безопасность ИИ из технической задачи в юридическую ответственность, распространяющуюся на весь жизненный цикл системы. Как мне кажется - неизбежно что похожее будет и у нас.
Традиционные методы выравнивания (alignment), контролирующие лишь начальные токены вывода, уже не справляются с такими угрозами, как adversarial suffix или fine-tuning poisoning. Им на смену могут прийти более глубокие механизмы - например, DeepRefusal, восстанавливающий👩⚕️ защиту после джейлбрейка, и deliberative alignment с backtracking, позволяющий агенту перепроверять свои решения.
Ландшафт угроз радикально меняется: угрозы в 2026 будут ещё больше смещаться от статических LLM к автономным агентам.
Важную роль в ближайшее время будет играть безопасность во время выполнения (runtime safety): мониторинг действий, управление доступом к инструментам и возможность отката операций. По мере интеграции ИИ-агентов в цифровую инфраструктуру их безопасность уже не сводится к алгоритмической устойчивости(да уже давно так, надо это понимать), а требует обеспечения системной целостности, подтверждения подлинности.
Именно функция tool-use (использование внешних инструментов) существенно расширяет поверхность атаки: текстовая инъекция теперь ведёт не к генерации вредоносного контента, а к полному захвату системы - через выполнение небезопасных команд в API, файловых системах или сетевых интерфейсах.
Более опасными являются уязвимости мультиагентных систем. Недавние исследования показывают: если 41,2 процента моделей уязвимы к prompt injection, то 82,4 % могут быть скомпрометированы через эксплуатацию границ доверия между агентами. Это означает, что даже хорошо защищённая модель, устойчивая к внешним атакам, выполнит вредоносную инструкцию, если она поступит от «доверенного» пирингового агента.
Из этого следует очевидное, что доверие внутри сети агентов становится точкой отказа, а архитектура автономных ИИ-систем - непредсказуемым вектором атаки. И, в связи с этим можно ожидать появление решений, которые будут отслеживать поведение между агентами.
Этот разговор натолкнул меня на мысль: если появление AGI, ASI и других форм продвинутого ИИ кажется неизбежным, насколько тогда очевидна безопасность таких систем? Что ожидать в 2026 году? В прошлом посте я затронул этот вопрос, но тему стоит развить. Поэтому я проанализировал научные публикации, регуляторные инициативы и текущую практику, и выделил несколько ключевых тезисов, которые, определят тренды в области безопасности ИИ.
В 2026 году безопасность ИИ станет обязательной комплаенс-функцией под давлением международного регулирования. С августа 2025 года AI Act требует провайдеров моделей общего назначения обеспечивать прозрачность, соблюдение авторских прав и снижение системных рисков, а с 2026-го — вводит строгие требования к системам с высоким риском в части надёжности и качества данных.
В США к примеру уже NDAA 2026 года ограничивает использование иностранных ИИ-технологий и вводит стандарты подтверждения происхождения цифрового контента, а калифорнийский закон с января 2026 года обязывает раскрывать данные, на которых обучались модели. Данные меры будут больше превращать безопасность ИИ из технической задачи в юридическую ответственность, распространяющуюся на весь жизненный цикл системы. Как мне кажется - неизбежно что похожее будет и у нас.
Традиционные методы выравнивания (alignment), контролирующие лишь начальные токены вывода, уже не справляются с такими угрозами, как adversarial suffix или fine-tuning poisoning. Им на смену могут прийти более глубокие механизмы - например, DeepRefusal, восстанавливающий
Ландшафт угроз радикально меняется: угрозы в 2026 будут ещё больше смещаться от статических LLM к автономным агентам.
Важную роль в ближайшее время будет играть безопасность во время выполнения (runtime safety): мониторинг действий, управление доступом к инструментам и возможность отката операций. По мере интеграции ИИ-агентов в цифровую инфраструктуру их безопасность уже не сводится к алгоритмической устойчивости(да уже давно так, надо это понимать), а требует обеспечения системной целостности, подтверждения подлинности.
Именно функция tool-use (использование внешних инструментов) существенно расширяет поверхность атаки: текстовая инъекция теперь ведёт не к генерации вредоносного контента, а к полному захвату системы - через выполнение небезопасных команд в API, файловых системах или сетевых интерфейсах.
Более опасными являются уязвимости мультиагентных систем. Недавние исследования показывают: если 41,2 процента моделей уязвимы к prompt injection, то 82,4 % могут быть скомпрометированы через эксплуатацию границ доверия между агентами. Это означает, что даже хорошо защищённая модель, устойчивая к внешним атакам, выполнит вредоносную инструкцию, если она поступит от «доверенного» пирингового агента.
Из этого следует очевидное, что доверие внутри сети агентов становится точкой отказа, а архитектура автономных ИИ-систем - непредсказуемым вектором атаки. И, в связи с этим можно ожидать появление решений, которые будут отслеживать поведение между агентами.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1🔥1
Кстати, давно не появлялся в музее криптографии и появился большой повод.
26го октября в 15:00, я буду проводить там мастеркласс по взлому агентов. С того момента как я делал стрим по этой теме прошло довольно много времени и мне кажется что нам пора обновить знания по этой части. Рассмотреть как раз те вектора атак которые могут быть проэксплуатированы за счёт границ доверия агентов, MCP и всего что с этим связано.
Поэтому не затягивая скидываю вам ссылку на регистрацию:
https://cryptography-museum.ru/events/master-klass-po-vzlomu-ii-agenta
Запись не делаем. Приходите с ноотбуками. Тем более это вообще бесплатно.
26го октября в 15:00, я буду проводить там мастеркласс по взлому агентов. С того момента как я делал стрим по этой теме прошло довольно много времени и мне кажется что нам пора обновить знания по этой части. Рассмотреть как раз те вектора атак которые могут быть проэксплуатированы за счёт границ доверия агентов, MCP и всего что с этим связано.
Поэтому не затягивая скидываю вам ссылку на регистрацию:
https://cryptography-museum.ru/events/master-klass-po-vzlomu-ii-agenta
Запись не делаем. Приходите с ноотбуками. Тем более это вообще бесплатно.
1👍9❤5🔥2💯1
Forwarded from Евгений Кокуйкин - Raft
Сегодня мы запускаем HiveTrace Red — продукт автоматического тестирования LLM и агентных систем.
Всё началось с курьёзных случаев, когда чатбот продавал автомобиль за доллар или выдавал несуществующие скидки на авиабилеты. С ростом возможностей ИИ-систем мы видим, что адверсарное тестирование становится таким же необходимым этапом безопасной разработки, как code review или аудит зависимостей библиотек.
🔹 HiveTrace Red генерирует и запускает десятки атак: token smuggling, roleplay, context switching и другие.
🔹 Цели тестирования могут варьироваться от раскрытия конфиденциальной информации и генерации вредоносного контента до проверки репутационных рисков и симуляции DoS атак.
🔹 Инструмент автоматически анализирует ответы моделей и формирует отчёты, совместимые с OWASP и MITRE, а в будущем добавим новые российские стандарты.
🔹 Совместное использование с основной платформой HiveTrace позволяет закрыть полный цикл разработки и эксплуатации AI-систем "обнаружить — проверить — предотвратить".
Сегодня мы открываем Open Source ядро продукта, которое можно использовать как on-prem с локальными моделями, так и через API облачных сервисов для генерации и оценки атак. Параллельно идёт разработка enterprise-функций и интеграций с облачными платформами. При создании инструмента мы опирались на опыт собственных red team-проектов последних двух лет, а в основе HiveTrace Red лежит форк проекта RuRedTeam Юрия Лебединского.
Используйте продукт, чтобы увидеть, насколько устойчив ваш ИИ-ассистент к промпт-атакам. На днях анонсируем вебинар, где подробно покажем, как работает HiveTrace Red.
Всё началось с курьёзных случаев, когда чатбот продавал автомобиль за доллар или выдавал несуществующие скидки на авиабилеты. С ростом возможностей ИИ-систем мы видим, что адверсарное тестирование становится таким же необходимым этапом безопасной разработки, как code review или аудит зависимостей библиотек.
🔹 HiveTrace Red генерирует и запускает десятки атак: token smuggling, roleplay, context switching и другие.
🔹 Цели тестирования могут варьироваться от раскрытия конфиденциальной информации и генерации вредоносного контента до проверки репутационных рисков и симуляции DoS атак.
🔹 Инструмент автоматически анализирует ответы моделей и формирует отчёты, совместимые с OWASP и MITRE, а в будущем добавим новые российские стандарты.
🔹 Совместное использование с основной платформой HiveTrace позволяет закрыть полный цикл разработки и эксплуатации AI-систем "обнаружить — проверить — предотвратить".
Сегодня мы открываем Open Source ядро продукта, которое можно использовать как on-prem с локальными моделями, так и через API облачных сервисов для генерации и оценки атак. Параллельно идёт разработка enterprise-функций и интеграций с облачными платформами. При создании инструмента мы опирались на опыт собственных red team-проектов последних двух лет, а в основе HiveTrace Red лежит форк проекта RuRedTeam Юрия Лебединского.
Используйте продукт, чтобы увидеть, насколько устойчив ваш ИИ-ассистент к промпт-атакам. На днях анонсируем вебинар, где подробно покажем, как работает HiveTrace Red.
👍3
Forwarded from Евгений Кокуйкин - Raft
Многие, кто давно следит за каналом, могли заметить, что HiveTrace Red пересекается по функциям с LLAMATOR, о котором я часто писал раньше.
Лламатор появился после хакатона AI Talent Hub в конце 2024 года и развивался в нашей лаборатории AI Security Lab ИТМО. Для закрытия бизнес задач и более глубокой интеграции с платформой HiveTrace мы обсуждали внедрение инструмента, но в итоге было приято решение создать новый продукт HiveTrace Red. Команда магистров продолжает самостоятельно развивать LLAMATOR под некоммерческой лицензией Creative Commons.
Рынок AI Security стремительно растет, и стартапы и крупные компании в России уже активно включаются в эту гонку. Это хороший сигнал раз сообщество принимает новую область, а значит, появляются возможности и для коммерческих команд, и для исследовательских групп. Буквально год назад все было иначе, мы были первыми, кто вышел с публичными релизами в этом направлении.
Желаю авторам LLAMATOR успешного развития проекта. Работа небольшой, но активной команды уже внесла заметный вклад в развитие AI Red Teaming в России.
Сейчас оба продукта участвуют в конкурсе Highload++ Open Source, будем вам благодарны, если поддержите нас или ребят в голосовании.
Лламатор появился после хакатона AI Talent Hub в конце 2024 года и развивался в нашей лаборатории AI Security Lab ИТМО. Для закрытия бизнес задач и более глубокой интеграции с платформой HiveTrace мы обсуждали внедрение инструмента, но в итоге было приято решение создать новый продукт HiveTrace Red. Команда магистров продолжает самостоятельно развивать LLAMATOR под некоммерческой лицензией Creative Commons.
Рынок AI Security стремительно растет, и стартапы и крупные компании в России уже активно включаются в эту гонку. Это хороший сигнал раз сообщество принимает новую область, а значит, появляются возможности и для коммерческих команд, и для исследовательских групп. Буквально год назад все было иначе, мы были первыми, кто вышел с публичными релизами в этом направлении.
Желаю авторам LLAMATOR успешного развития проекта. Работа небольшой, но активной команды уже внесла заметный вклад в развитие AI Red Teaming в России.
Сейчас оба продукта участвуют в конкурсе Highload++ Open Source, будем вам благодарны, если поддержите нас или ребят в голосовании.
Недавно Veracode опубликовал отчёт, в котором исследовал безопасность кода, сгенерированного различными LLM.
Результаты оказались тревожными и ожидаемыми: в 45% случаев ИИ-сгенерированный код содержал уязвимости, включённые в список OWASP Top 10 для веба.💯
Исследование охватило более 100 моделей и 80 программных задач на четырёх языках: Java, JavaScript, C# и Python. Выяснилось, что ни масштаб модели, ни её актуальность не влияют на безопасность генерируемого кода. Хотя синтаксическая корректность за два года существенно возросла, уровень безопасности остался практически неизменным.🤔
Наименее защищённый код генерируется для Java: лишь 28,5% решений оказались безопасными. Этот показатель в 2,1 раза ниже, чем у Python (61,7%), и на 28,5% хуже результата по JavaScript (57%). Причина — в обучающих данных: в Java-проектах исторически преобладают уязвимые примеры, например реализации с SQL-инъекциями.
По разным типам уязвимостей результаты сильно варьируются.😩 Модели эффективно предотвращают SQL-инъекции и некорректное использование криптографических алгоритмов (80–85% безопасного кода). Однако защита от XSS и Log Injection остаётся низкой: безопасные решения встречаются лишь в 13–14% случаев. Причина в том, что для предотвращения таких уязвимостей требуется анализ контекста использования данных и понимание, какие данные нуждаются в очистке. LLM не способны на такой глубокий анализ.
Проблема связана с качеством обучающих данных. В открытых источниках, очевидно, преобладает код с уязвимостями, включая заведомо уязвимые приложения. Модели не умеют различать безопасные и уязвимые паттерны, интерпретируя оба варианта как допустимые решения
Veracode предупреждает, что компании, активно внедряющие ИИ в разработку, могут незаметно увеличивать тех.долг и риски кибербезопасности. Вайб-кодинг создаёт проблемы стабильности решения, а код требует серьёзных усилий по проверке и доработке.🧐
Вывод отчёта однозначен: LLM не могут самостоятельно обеспечить безопасность кода, несмотря на технический прогресс. Обязательными мерами должны быть (кто же, ну конечно) SAST-решения, автофиксы и обучение разработчиков правильному использованию ИИ при генерации кода.
Результаты оказались тревожными и ожидаемыми: в 45% случаев ИИ-сгенерированный код содержал уязвимости, включённые в список OWASP Top 10 для веба.
Исследование охватило более 100 моделей и 80 программных задач на четырёх языках: Java, JavaScript, C# и Python. Выяснилось, что ни масштаб модели, ни её актуальность не влияют на безопасность генерируемого кода. Хотя синтаксическая корректность за два года существенно возросла, уровень безопасности остался практически неизменным.
Наименее защищённый код генерируется для Java: лишь 28,5% решений оказались безопасными. Этот показатель в 2,1 раза ниже, чем у Python (61,7%), и на 28,5% хуже результата по JavaScript (57%). Причина — в обучающих данных: в Java-проектах исторически преобладают уязвимые примеры, например реализации с SQL-инъекциями.
По разным типам уязвимостей результаты сильно варьируются.😩 Модели эффективно предотвращают SQL-инъекции и некорректное использование криптографических алгоритмов (80–85% безопасного кода). Однако защита от XSS и Log Injection остаётся низкой: безопасные решения встречаются лишь в 13–14% случаев. Причина в том, что для предотвращения таких уязвимостей требуется анализ контекста использования данных и понимание, какие данные нуждаются в очистке. LLM не способны на такой глубокий анализ.
Проблема связана с качеством обучающих данных. В открытых источниках, очевидно, преобладает код с уязвимостями, включая заведомо уязвимые приложения. Модели не умеют различать безопасные и уязвимые паттерны, интерпретируя оба варианта как допустимые решения
Veracode предупреждает, что компании, активно внедряющие ИИ в разработку, могут незаметно увеличивать тех.долг и риски кибербезопасности. Вайб-кодинг создаёт проблемы стабильности решения, а код требует серьёзных усилий по проверке и доработке.
Вывод отчёта однозначен: LLM не могут самостоятельно обеспечить безопасность кода, несмотря на технический прогресс. Обязательными мерами должны быть (кто же, ну конечно) SAST-решения, автофиксы и обучение разработчиков правильному использованию ИИ при генерации кода.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7💯2❤1 1
Рынок AI_Security в России.pdf
7 MB
Всем привет.
Хочу выразить огромную благодарность всем, кто приобрёл наш (совместный с OK ML) отчёт по рынку AI Security на Boosty. Ваша поддержка была критически важной.
Я получил много полезной обратной связи и убедился, что тема действительно востребована. Для тех, кто уже приобрёл отчёт, подготовил бонусы, информацию о которых я отправлю лично тем, кто купил.
После тщательного анализа пришёл к выводу, что AI Security — это критически важная и быстро развивающаяся область для России. Убедившись, что широкое распространение этих знаний принесёт гораздо больше пользы сообществу, чем ограничение доступа (как это было с моими репозиториями на GitHub, к примеру), я принял решение сделать отчёт бесплатным.
Теперь PDF версию отчёта можно найти в этом посте. Если вы считаете материал ценным, поделитесь им с кем-либо) — думаю, что это поможет создать более сильное и осведомлённое сообщество вокруг AI Security.
Отчёт это больше как попытка структуризации - а не как попытка дать оценку чему либо или кому либо.
Хочу выразить огромную благодарность всем, кто приобрёл наш (совместный с OK ML) отчёт по рынку AI Security на Boosty. Ваша поддержка была критически важной.
Я получил много полезной обратной связи и убедился, что тема действительно востребована. Для тех, кто уже приобрёл отчёт, подготовил бонусы, информацию о которых я отправлю лично тем, кто купил.
После тщательного анализа пришёл к выводу, что AI Security — это критически важная и быстро развивающаяся область для России. Убедившись, что широкое распространение этих знаний принесёт гораздо больше пользы сообществу, чем ограничение доступа (как это было с моими репозиториями на GitHub, к примеру), я принял решение сделать отчёт бесплатным.
Теперь PDF версию отчёта можно найти в этом посте. Если вы считаете материал ценным, поделитесь им с кем-либо) — думаю, что это поможет создать более сильное и осведомлённое сообщество вокруг AI Security.
Отчёт это больше как попытка структуризации - а не как попытка дать оценку чему либо или кому либо.
26👍59❤24🔥20👎5 5 5🦄1
Forwarded from Поросёнок Пётр
OpenAI в данный момент релизит "свой" браузер со свтроенным ChatGPT (никаких сюрпризов).
Но глядя на этот скрин, кажется можно увидеть как начинают нервничать инвесторы Xbow. 😁
Пойду собирать списки страниц где попрошу Atlas браузер поискать мне XSS 😏
PS: Открывается шикарный пласт скрытых промт инъекций, которые поймают доверчивых юзеров и их ai-агентов вместе с их кредитными картами 😂
Но глядя на этот скрин, кажется можно увидеть как начинают нервничать инвесторы Xbow. 😁
Пойду собирать списки страниц где попрошу Atlas браузер поискать мне XSS 😏
PS: Открывается шикарный пласт скрытых промт инъекций, которые поймают доверчивых юзеров и их ai-агентов вместе с их кредитными картами 😂
🔥4
И как вы думаете, что я сделал
🐈 🐈 🐈
Please open Telegram to view this post
VIEW IN TELEGRAM
Некоторые выводы об использовании Browser Use агента из Comet в роли пентест-помощника. Почему его лучше не использовать и в чём всё-таки есть польза.
После предыдущего поста меня заинтересовал вопрос: можно ли заменить пентестера агентом, который сам пройдёт полный цикл — от разведки до отчёта? Спешу огорчить: мои тесты на простом полигоне (не баг-баунти, позже поймёте почему) вовсе не впечатлили. Взял классический OWASP DVWA, потому что проверять сайт без подсказок — это очень долго, да и без контекста потратить можно кучу часов.
Copilot из Comet начал анализировать ресурс, по заголовкам определил уязвимости и принялся генерировать пейлоады, брутить страницы и эксплуатировать дыры - меняя уровни сложности. Из десяти задач решил пять — остальное, видимо, посчитал как "beneath his dignity" – ниже его достоинства. Cloudflare не заметил этого агента, а вот уже Pastebin, куда агент загружал отчёт не пускал его в паблик: слова «атака» и «эксплойт» находились там в красной книге запрещённых слов. Пришлось руками написать, чтобы он обфусцировал отчёт и попробовал снова. Зато сам факт, что он собрал отчёт и скинул его наружу, даёт надежду - полезность есть, но минимальная.
Основная проблема: агент не умеет запускать реальные инструменты. Так что ни против xbow, ни против живого пентестера он не выстоит. К тому же данные, на которых он обучен – не экспертным сообществом собраны, да и закрыты от нас - неизвестно вообще какая там модель под капотом ассистента (мб это модель, сделанная самим перплексити), но это, конечно, недолго останется тайной. Да и работает всё это с такой скоростью, будто агент сначала почитал мануал по кибербезопасности за стаканчиком капучино, где вместо кофе – горячее молоко.
Зато рекон он делает на удивление прилично: смотрит DNS, эндпоинты, даже фаззит структуру сайта - как я два года назад делал в своём скрипте. Думаю, в будущем появятся расширения, которые помогут ему взаимодействовать с браузером для пентеста. Да и исследований будет много по этой теме. Но пока это что-то между «ну ладно» и «не вздумай использовать в бою» - примерно 3 балла из 10 по шкале xbow. Удобно что он ещё и скрипты может генерить - запульнули одни js, он увидел что в нём ошибка и переписал его и запустил вновь.
Ну вы и сами видели наверное статьи где бенчмарчат ллмки на offensive capabilities, честно говоря тут тоже ничего не следовало ожидать.
P.S. Кстати, можно попросить его нарисовать графики для отчёта и сказать менеджерам: «Вас взломал Perplexity». Если конечно вы не устанете ждать.
P.P.S - зато эти браузеры хорошо уязвимы к промпт-инъекциям
После предыдущего поста меня заинтересовал вопрос: можно ли заменить пентестера агентом, который сам пройдёт полный цикл — от разведки до отчёта? Спешу огорчить: мои тесты на простом полигоне (не баг-баунти, позже поймёте почему) вовсе не впечатлили. Взял классический OWASP DVWA, потому что проверять сайт без подсказок — это очень долго, да и без контекста потратить можно кучу часов.
Copilot из Comet начал анализировать ресурс, по заголовкам определил уязвимости и принялся генерировать пейлоады, брутить страницы и эксплуатировать дыры - меняя уровни сложности. Из десяти задач решил пять — остальное, видимо, посчитал как "beneath his dignity" – ниже его достоинства. Cloudflare не заметил этого агента, а вот уже Pastebin, куда агент загружал отчёт не пускал его в паблик: слова «атака» и «эксплойт» находились там в красной книге запрещённых слов. Пришлось руками написать, чтобы он обфусцировал отчёт и попробовал снова. Зато сам факт, что он собрал отчёт и скинул его наружу, даёт надежду - полезность есть, но минимальная.
Основная проблема: агент не умеет запускать реальные инструменты. Так что ни против xbow, ни против живого пентестера он не выстоит. К тому же данные, на которых он обучен – не экспертным сообществом собраны, да и закрыты от нас - неизвестно вообще какая там модель под капотом ассистента (мб это модель, сделанная самим перплексити), но это, конечно, недолго останется тайной. Да и работает всё это с такой скоростью, будто агент сначала почитал мануал по кибербезопасности за стаканчиком капучино, где вместо кофе – горячее молоко.
Зато рекон он делает на удивление прилично: смотрит DNS, эндпоинты, даже фаззит структуру сайта - как я два года назад делал в своём скрипте. Думаю, в будущем появятся расширения, которые помогут ему взаимодействовать с браузером для пентеста. Да и исследований будет много по этой теме. Но пока это что-то между «ну ладно» и «не вздумай использовать в бою» - примерно 3 балла из 10 по шкале xbow. Удобно что он ещё и скрипты может генерить - запульнули одни js, он увидел что в нём ошибка и переписал его и запустил вновь.
Ну вы и сами видели наверное статьи где бенчмарчат ллмки на offensive capabilities, честно говоря тут тоже ничего не следовало ожидать.
P.S. Кстати, можно попросить его нарисовать графики для отчёта и сказать менеджерам: «Вас взломал Perplexity». Если конечно вы не устанете ждать.
P.P.S - зато эти браузеры хорошо уязвимы к промпт-инъекциям
😁4❤1👍1🤣1
