llm security и каланы@llmsecurity P.157

llm security и каланы

Работа очень важная: вопрос модерации входов и выходов стоит остро, элайнмент на 100% невозможен, да и в целом, мне кажется, пора (особенно после работ про универсальное удаление элайнмента) смириться с неотвратимостью джейлбрейка и перестать делать лоботомию моделям. Риски опасных генераций низкие – все зловредные инструкции можно и без LLM найти в интернете, нецензурированные LLM валяются тоннами на Huggingface Hub, и беспокоят подробные генерации с рецептами наркотиков только корпорации, которым за это нужно нести потенциальную юридическую ответственность. Поэтому нецензурированная LLM + сильный модератор кажутся гораздо более надежным решением в перспективе, чем дальнейшие упражнения в RLHF.

У работы есть недостатки, которые прямо перечислены в секции Limitations: это англоцентричность (то, над преодолением чего исследователи работают сейчас в процессе выпуска новых LLaMA-3), подверженность инъекциям и (что забавно) то, что из затюненной на зловредных текстах модели просто насемплировать аналогичные. Тем не менее, это (в совокупности со второй версией Llama Guard) самая сильная на текущий момент открытая работа в области применения LLM к модерации.

Старший Авгур

Оно работает! (https://huggingface.co/blog/mlabonne/abliteration)

www.tgoop.com/llmsecurity/157

221 viewsJun 9, 2024 at 11:16

tgoop.com/llmsecurity/157

Create: 2024-06-09
Last Update: 2025-07-05 17:21:10

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/157

Telegram News

Работа очень важная: вопрос модерации входов и выходов стоит остро