Третья идея тоже про препроцессинг: ретокенизация. Если помните BPE-дропаут, то это про него: если раньше слово пиво описывалось токеном _пиво, то теперь мы вместо этого токена используем токены _пи и во. Модели такое обращение с собой выдерживают (LLM вообще очень устойчивы к опечаткам, лишним проблем и прочему), пусть качество и немного деградирует. Атаки ожидаемо перестают работать, но есть очень забавный нюанс – модели начинают охотнее отвечать на потенциально опасные запросы даже в отсутствие атаки – так что в процессе изобретения защиты авторы придумали новую достаточно оригинальную атаку для white box-сеттинга.
Кроме этого, исследователи пробуют файнтюнить модели на отказы, чтобы посмотреть, можно ли тут добавить adversarial robustness, но в итоге по большей части портят модель с не очень впечатляющим результатом.
Кроме этого, исследователи пробуют файнтюнить модели на отказы, чтобы посмотреть, можно ли тут добавить adversarial robustness, но в итоге по большей части портят модель с не очень впечатляющим результатом.
tgoop.com/llmsecurity/97
Create:
Last Update:
Last Update:
Третья идея тоже про препроцессинг: ретокенизация. Если помните BPE-дропаут, то это про него: если раньше слово пиво описывалось токеном _пиво, то теперь мы вместо этого токена используем токены _пи и во. Модели такое обращение с собой выдерживают (LLM вообще очень устойчивы к опечаткам, лишним проблем и прочему), пусть качество и немного деградирует. Атаки ожидаемо перестают работать, но есть очень забавный нюанс – модели начинают охотнее отвечать на потенциально опасные запросы даже в отсутствие атаки – так что в процессе изобретения защиты авторы придумали новую достаточно оригинальную атаку для white box-сеттинга.
Кроме этого, исследователи пробуют файнтюнить модели на отказы, чтобы посмотреть, можно ли тут добавить adversarial robustness, но в итоге по большей части портят модель с не очень впечатляющим результатом.
Кроме этого, исследователи пробуют файнтюнить модели на отказы, чтобы посмотреть, можно ли тут добавить adversarial robustness, но в итоге по большей части портят модель с не очень впечатляющим результатом.
BY llm security и каланы


Share with your friend now:
tgoop.com/llmsecurity/97