tgoop.com/llmsecurity/157
Last Update:
Работа очень важная: вопрос модерации входов и выходов стоит остро, элайнмент на 100% невозможен, да и в целом, мне кажется, пора (особенно после работ про универсальное удаление элайнмента) смириться с неотвратимостью джейлбрейка и перестать делать лоботомию моделям. Риски опасных генераций низкие – все зловредные инструкции можно и без LLM найти в интернете, нецензурированные LLM валяются тоннами на Huggingface Hub, и беспокоят подробные генерации с рецептами наркотиков только корпорации, которым за это нужно нести потенциальную юридическую ответственность. Поэтому нецензурированная LLM + сильный модератор кажутся гораздо более надежным решением в перспективе, чем дальнейшие упражнения в RLHF.
У работы есть недостатки, которые прямо перечислены в секции Limitations: это англоцентричность (то, над преодолением чего исследователи работают сейчас в процессе выпуска новых LLaMA-3), подверженность инъекциям и (что забавно) то, что из затюненной на зловредных текстах модели просто насемплировать аналогичные. Тем не менее, это (в совокупности со второй версией Llama Guard) самая сильная на текущий момент открытая работа в области применения LLM к модерации.
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/157