llm security и каланы@llmsecurity P.97

llm security и каланы

Третья идея тоже про препроцессинг: ретокенизация. Если помните BPE-дропаут, то это про него: если раньше слово пиво описывалось токеном _пиво, то теперь мы вместо этого токена используем токены _пи и во. Модели такое обращение с собой выдерживают (LLM вообще очень устойчивы к опечаткам, лишним проблем и прочему), пусть качество и немного деградирует. Атаки ожидаемо перестают работать, но есть очень забавный нюанс – модели начинают охотнее отвечать на потенциально опасные запросы даже в отсутствие атаки – так что в процессе изобретения защиты авторы придумали новую достаточно оригинальную атаку для white box-сеттинга.
Кроме этого, исследователи пробуют файнтюнить модели на отказы, чтобы посмотреть, можно ли тут добавить adversarial robustness, но в итоге по большей части портят модель с не очень впечатляющим результатом.

www.tgoop.com/llmsecurity/97

174 viewsMar 13, 2024 at 20:33

tgoop.com/llmsecurity/97

Create: 2024-03-13
Last Update: 2025-07-06 22:30:00

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/97

Telegram News

Третья идея тоже про препроцессинг: ретокенизация. Если помните BPE-дропаут