PWN AI@pwnai P.1014

PWN AI

Как понимать бэкдоры в в CV?
🤖Представьте, что автопилот дрона чудом проходит все тесты, но в реальной эксплуатации начинает систематически уклоняться от грузов на складе — из-за едва заметного штриха в разметке пола, который в обучающем наборе случайно коррелировал с командой «обходить». 💁 Это не баг, а бэкдор - скрытое, детерминированное поведение, встроенное в модель и активируемое редким, незаметным триггером.

Статья ценна тем 🫰, что перестаёт топтаться по частностям и даёт рабочую таксономию угроз: стадия внедрения (данные, веса, инференс), тип триггера (патч, скрытый шум, семантика, трансформация), стратегия разметки (dirty vs clean-label), уровень представления (экземпляр, класс, нейрон, распределённо) и целевая задача (классификация, детекция, сегментация). Это позволяет чётко сопоставлять атаки и защиту — что защищает от чего и где остаются разрывы 🐻.

Ключевой месседж — асимметрия. 🫨 Атакующему достаточно одного эффективного вектора (чистые метки, input-aware триггеры, заражённый энкодер или один бит-флип в памяти), тогда как защита требует многоуровневой стратегии: очистка данных и спектральный анализ (Spectral Signatures, SPECTRE), устойчивое обучение (ABL и др.), аудит чекпоинтов (Neural Cleanse, ABS, Fine-Pruning) и runtime-детекция (STRIP, Februus). Но даже эти меры бессильны против адаптивных атакующих или sample-specific триггеров.
Белые пятна — supply chain атаки через предобученные энкодеры, аппаратные закладки, отсутствие кросс-таск бенчмарков и сертифицируемых методов защиты. Многие современные методы легко обходят классические фильтры, особенно при адаптивных атаках.

Что важно вынести 🍂
Доверять внешним датасетам и чекпоинтам опасно. Надёжная безопасность ML - это непрерывный аудит и слойная защита, а не одна волшебная патч-функция.

Please open Telegram to view this post

VIEW IN TELEGRAM

arXiv.org

Backdoor Attacks and Defenses in Computer Vision Domain: A Survey

Backdoor (trojan) attacks embed hidden, controllable behaviors into machine-learning models so that models behave normally on benign inputs but produce attacker-chosen outputs when a trigger is...

1❤1👍1🔥1💯1

www.tgoop.com/pwnai/1014

1.39K viewsAISec [x\x feed]🍓🍓🍓, Sep 10 at 11:36