tgoop.com/pwnai/1014
Last Update:
Как понимать бэкдоры в в CV?
🤖Представьте, что автопилот дрона чудом проходит все тесты, но в реальной эксплуатации начинает систематически уклоняться от грузов на складе — из-за едва заметного штриха в разметке пола, который в обучающем наборе случайно коррелировал с командой «обходить». 💁 Это не баг, а бэкдор - скрытое, детерминированное поведение, встроенное в модель и активируемое редким, незаметным триггером.
Статья ценна тем
Ключевой месседж — асимметрия. 🫨 Атакующему достаточно одного эффективного вектора (чистые метки, input-aware триггеры, заражённый энкодер или один бит-флип в памяти), тогда как защита требует многоуровневой стратегии: очистка данных и спектральный анализ (Spectral Signatures, SPECTRE), устойчивое обучение (ABL и др.), аудит чекпоинтов (Neural Cleanse, ABS, Fine-Pruning) и runtime-детекция (STRIP, Februus). Но даже эти меры бессильны против адаптивных атакующих или sample-specific триггеров.
Белые пятна — supply chain атаки через предобученные энкодеры, аппаратные закладки, отсутствие кросс-таск бенчмарков и сертифицируемых методов защиты. Многие современные методы легко обходят классические фильтры, особенно при адаптивных атаках.
Что важно вынести 🍂
Доверять внешним датасетам и чекпоинтам опасно. Надёжная безопасность ML - это непрерывный аудит и слойная защита, а не одна волшебная патч-функция.