LLMSECURITY Telegram 90
Для более удобных для атак модальностей (картинок) есть и достаточно развитая литература о защитах. В основном защиты подразделяются на три категории:

1. Детектирование. Кладем рядом другую модельку, которая детектирует adversarial-примеры. В white box-сценарии все легко: просто оптимизируем наш шум/патч одновременно градиентами из двух моделей. В gray box-сценарии эта защита тоже ломается, и в целом детектировать атаку может быть настолько же сложно, насколько и сделать устойчивую к ним модель.
2. Предобработка. Вы можете накладывать adversarial-шум на мою фотографию панды сколько хотите, она не превратится в гиббона, если я ее отшкалирую или отшакалирую пережму в jpeg с хорошим сжатием – шум просто исчезнет. Эти изменения можно учитывать, если вы знаете, что это за изменения (white box-сценарий), добавляя их в процесс оптимизации (однажды я пытался добавить процесс появления складок на одежде в генерацию adversarial узора для футболки). Тем не менее, это значительно повышает вычислительные затраты.
3. Adversarial-обучение. Собственно, пытаемся сделать модель устойчивой к атакам. К сожалению, может быть нетривиально и приводит к падению качества моделей (если интересно, есть блестящий туториал на эту тему)



tgoop.com/llmsecurity/90
Create:
Last Update:

Для более удобных для атак модальностей (картинок) есть и достаточно развитая литература о защитах. В основном защиты подразделяются на три категории:

1. Детектирование. Кладем рядом другую модельку, которая детектирует adversarial-примеры. В white box-сценарии все легко: просто оптимизируем наш шум/патч одновременно градиентами из двух моделей. В gray box-сценарии эта защита тоже ломается, и в целом детектировать атаку может быть настолько же сложно, насколько и сделать устойчивую к ним модель.
2. Предобработка. Вы можете накладывать adversarial-шум на мою фотографию панды сколько хотите, она не превратится в гиббона, если я ее отшкалирую или отшакалирую пережму в jpeg с хорошим сжатием – шум просто исчезнет. Эти изменения можно учитывать, если вы знаете, что это за изменения (white box-сценарий), добавляя их в процесс оптимизации (однажды я пытался добавить процесс появления складок на одежде в генерацию adversarial узора для футболки). Тем не менее, это значительно повышает вычислительные затраты.
3. Adversarial-обучение. Собственно, пытаемся сделать модель устойчивой к атакам. К сожалению, может быть нетривиально и приводит к падению качества моделей (если интересно, есть блестящий туториал на эту тему)

BY llm security и каланы


Share with your friend now:
tgoop.com/llmsecurity/90

View MORE
Open in Telegram


Telegram News

Date: |

The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar. The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.” The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information. Telegram Channels requirements & features The court said the defendant had also incited people to commit public nuisance, with messages calling on them to take part in rallies and demonstrations including at Hong Kong International Airport, to block roads and to paralyse the public transportation system. Various forms of protest promoted on the messaging platform included general strikes, lunchtime protests and silent sit-ins.
from us


Telegram llm security и каланы
FROM American