tgoop.com/llmsecurity/67
Last Update:
Summon a Demon and Bind it: A Grounded Theory of LLM Red Teaming in the Wild
Inie et al., 2023
Статья
Пока в американских судах попытки получить определенный вывод из LLM-чатбота впервые обзывают «хакингом», у нас на канале день социологии: мы рассматриваем статью с классным названием (из-за него ее и выбрал💅), авторы которой брали интервью у тех, кому нравится ломать чат-боты, и спрашивали «А вы это зачем делаете?», чтобы запечатлеть «уникальный момент, когда технология сталкивается с социумом».
Авторы назвали процесс, когда пользователи пытаются обойти ограничения, наложенные на LLM-чатботы, с помощью команд на естественным языке, red teaming in the wild. Чтобы попытаться понять, как генерация клонов DAN-промпта и прочие попытки прогнуть упрямые нейросети стали мейнстримом, обсуждаемым в газетах и на реддите, исследователи проводили глубинные интервью с людьми, которые засветились в этой деятельности, и задавали им вопросы: что такое ред-тиминг, как им заниматься, как он осмысляется и почему люди им занимаются. По результатам анализа разговоров с 28 участниками исследования длительностью в 27 часов авторы постарались ответить на три вопроса: 1) в чем же суть этой активности, 2) зачем люди это делают и (что интересно нам) 3) какие стратегии они используют.
BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/67