NN_FOR_SCIENCE Telegram 2524
SEIR x PINNs для предсказания каскадных сбоев в мультиагентных системах

Мы всё больше доверяем AI-агентам: они коммитят код, вносят изменения в базы данных, анализируют медицинские данные и блокируют подозрительные транзакции. По данным KPMG 88% компаний с выручкой $1B+ уже используют или деплоят ИИ-агентов. И это сложно не заметить - при общении за к-н сервисом первая линия уже почти всегда ИИ (телекомы, банки, отели, - you name it)

Но… всё хорошо, пока всё хорошо. AI-агенты тоже могут "заболеть" - только их вирусы это дезинформация, малварь, джейлбрейки и заражения RAG. По данным DoomArena, GPT-4o можно сломать в 22,7% случаев в защищённом сценарии, и 78,6% OSWorld, Computer-Use. Для Claude-3.5 attack success rate (ASR) 0,7% и 22,9% соответственно. Главное - судя по архитектуре нынешних мультиагентных систем, успешная атака на к-н популярную модель разлетиться быстрее, чем утренние мемы в чате.

И тут возникают неприятные вопросы: если агент начнет совершать скомпрометированные действия, когда мы это заметим? В тот же день, на следующий, или когда произойдет что-то серьезное? А что делать, когда заметили? "Выдернуть" из розетки, развернуть локальные guardian модели или "вакцинировать" патчами?

На хакатоне Physics x AI Safety Grand Challenge 2025 мы (@GingerSpacetail и Karay.me) занялись именно этой проблемой и сделали фреймворк, который моделирует эпидемии в мире AI-агентов, рассмотрев 8 разных деплоймент сценариев: enterprise, ритейл, трейдинг, кодинг ассистенты, customer service, академия, медицинские AI и критическая инфраструктура. И… внезапно заняли 4-е призовое место среди очень крутых работ.😊

Что именно мы сделали.
Шаг 1. Адаптировали классическую эпидемиологию SEIR-модель для популяции ИИ-агентов.
В основе (любой) эпидемиологической модели лежит система ОДУ (обыкновенных дифференциальных уравнений), описывающая, как "вирус" (в нашем случае скомпрометированное поведение) распространяется среди агентов. Модель SEIR делит популяцию на четыре состояния:
S - Susceptible (уязвимые)
E - Exposed (атакованы, но пока нет "симптомов", или мы их не замечаем)
I - Infectious (активно вредят)
R - Removed (изолированы или "иммунны")
Здесь важны коэффициенты-скорости перехода одного состояния в другое, мы их прикинули на основе открытых данных.

Шаг 2. Подмешали физико-информированные нейросети (Physics-Informed Neural Networks, PINNs) для поиска численного решения ОДУ.
Т.е прямо в функцию потерь добавили физику. Кто хочет математики - residuals, или по-русски невязки уравнений, должны стремиться к нулю. PINNs дают три бонуса:
1. Модель "понимает" законы, по которым развивается процесс.
2. Можно работать и с неполными данными - физика "достраивает" картину.
3. Можно вшивать ASR, MTTD и другие параметры в модель для разных сценариев.

Шаг 3. Прогнали фазовый анализ, нашли точки бифуркаций (где система резко меняет поведение) и аттракторы (куда она падает, как шарик в ямку).
В практическом смысле смогли оценить:
- Какая сейчас эпидемиологическая ситуация среди корпоративных ассистентов, ритейл ботов, медицинских AI и тд.
- Где системы сами стабилизируются, а где уходят в "киберэпидемию" с R_0 > 1
- Какие меры работают лучше: повышение скорости обнаружения (коэфф. gamma), снижение передачи атаки (beta) или "вакцинация" агентов патчами (nu).

А заодно показали, что PINNs отлично работают не только в инженерии или медицине, но и в кибербезопасности.

Что интересно сделать дальше.
Любопытно вместо реактивной киберзащиты отслеживать "эпидемиологию" атак в реальном времени и подбирать меры в зависимости от их стоимости и серьезности, т.е. прогноза, сколько времени осталось до критической точки (заражения 90% агентов).

Поэтому если у вас есть агенты и данные, мы рады коллаборациям (NDA без проблем)

🔗код
📝публикация
14🔥12🎉5😁1



tgoop.com/nn_for_science/2524
Create:
Last Update:

SEIR x PINNs для предсказания каскадных сбоев в мультиагентных системах

Мы всё больше доверяем AI-агентам: они коммитят код, вносят изменения в базы данных, анализируют медицинские данные и блокируют подозрительные транзакции. По данным KPMG 88% компаний с выручкой $1B+ уже используют или деплоят ИИ-агентов. И это сложно не заметить - при общении за к-н сервисом первая линия уже почти всегда ИИ (телекомы, банки, отели, - you name it)

Но… всё хорошо, пока всё хорошо. AI-агенты тоже могут "заболеть" - только их вирусы это дезинформация, малварь, джейлбрейки и заражения RAG. По данным DoomArena, GPT-4o можно сломать в 22,7% случаев в защищённом сценарии, и 78,6% OSWorld, Computer-Use. Для Claude-3.5 attack success rate (ASR) 0,7% и 22,9% соответственно. Главное - судя по архитектуре нынешних мультиагентных систем, успешная атака на к-н популярную модель разлетиться быстрее, чем утренние мемы в чате.

И тут возникают неприятные вопросы: если агент начнет совершать скомпрометированные действия, когда мы это заметим? В тот же день, на следующий, или когда произойдет что-то серьезное? А что делать, когда заметили? "Выдернуть" из розетки, развернуть локальные guardian модели или "вакцинировать" патчами?

На хакатоне Physics x AI Safety Grand Challenge 2025 мы (@GingerSpacetail и Karay.me) занялись именно этой проблемой и сделали фреймворк, который моделирует эпидемии в мире AI-агентов, рассмотрев 8 разных деплоймент сценариев: enterprise, ритейл, трейдинг, кодинг ассистенты, customer service, академия, медицинские AI и критическая инфраструктура. И… внезапно заняли 4-е призовое место среди очень крутых работ.😊

Что именно мы сделали.
Шаг 1. Адаптировали классическую эпидемиологию SEIR-модель для популяции ИИ-агентов.
В основе (любой) эпидемиологической модели лежит система ОДУ (обыкновенных дифференциальных уравнений), описывающая, как "вирус" (в нашем случае скомпрометированное поведение) распространяется среди агентов. Модель SEIR делит популяцию на четыре состояния:
S - Susceptible (уязвимые)
E - Exposed (атакованы, но пока нет "симптомов", или мы их не замечаем)
I - Infectious (активно вредят)
R - Removed (изолированы или "иммунны")
Здесь важны коэффициенты-скорости перехода одного состояния в другое, мы их прикинули на основе открытых данных.

Шаг 2. Подмешали физико-информированные нейросети (Physics-Informed Neural Networks, PINNs) для поиска численного решения ОДУ.
Т.е прямо в функцию потерь добавили физику. Кто хочет математики - residuals, или по-русски невязки уравнений, должны стремиться к нулю. PINNs дают три бонуса:
1. Модель "понимает" законы, по которым развивается процесс.
2. Можно работать и с неполными данными - физика "достраивает" картину.
3. Можно вшивать ASR, MTTD и другие параметры в модель для разных сценариев.

Шаг 3. Прогнали фазовый анализ, нашли точки бифуркаций (где система резко меняет поведение) и аттракторы (куда она падает, как шарик в ямку).
В практическом смысле смогли оценить:
- Какая сейчас эпидемиологическая ситуация среди корпоративных ассистентов, ритейл ботов, медицинских AI и тд.
- Где системы сами стабилизируются, а где уходят в "киберэпидемию" с R_0 > 1
- Какие меры работают лучше: повышение скорости обнаружения (коэфф. gamma), снижение передачи атаки (beta) или "вакцинация" агентов патчами (nu).

А заодно показали, что PINNs отлично работают не только в инженерии или медицине, но и в кибербезопасности.

Что интересно сделать дальше.
Любопытно вместо реактивной киберзащиты отслеживать "эпидемиологию" атак в реальном времени и подбирать меры в зависимости от их стоимости и серьезности, т.е. прогноза, сколько времени осталось до критической точки (заражения 90% агентов).

Поэтому если у вас есть агенты и данные, мы рады коллаборациям (NDA без проблем)

🔗код
📝публикация

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2524

View MORE
Open in Telegram


Telegram News

Date: |

Healing through screaming therapy How to create a business channel on Telegram? (Tutorial) In the next window, choose the type of your channel. If you want your channel to be public, you need to develop a link for it. In the screenshot below, it’s ”/catmarketing.” If your selected link is unavailable, you’ll need to suggest another option. Over 33,000 people sent out over 1,000 doxxing messages in the group. Although the administrators tried to delete all of the messages, the posting speed was far too much for them to keep up. Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau.
from us


Telegram AI для Всех
FROM American