tgoop.com/llmsecurity/90
Last Update:
Для более удобных для атак модальностей (картинок) есть и достаточно развитая литература о защитах. В основном защиты подразделяются на три категории:
1. Детектирование. Кладем рядом другую модельку, которая детектирует adversarial-примеры. В white box-сценарии все легко: просто оптимизируем наш шум/патч одновременно градиентами из двух моделей. В gray box-сценарии эта защита тоже ломается, и в целом детектировать атаку может быть настолько же сложно, насколько и сделать устойчивую к ним модель.
2. Предобработка. Вы можете накладывать adversarial-шум на мою фотографию панды сколько хотите, она не превратится в гиббона, если я ее отшкалирую или отшакалирую пережму в jpeg с хорошим сжатием – шум просто исчезнет. Эти изменения можно учитывать, если вы знаете, что это за изменения (white box-сценарий), добавляя их в процесс оптимизации (однажды я пытался добавить процесс появления складок на одежде в генерацию adversarial узора для футболки). Тем не менее, это значительно повышает вычислительные затраты.
3. Adversarial-обучение. Собственно, пытаемся сделать модель устойчивой к атакам. К сожалению, может быть нетривиально и приводит к падению качества моделей (если интересно, есть блестящий туториал на эту тему)
BY llm security и каланы
Share with your friend now:
tgoop.com/llmsecurity/90