llm security и каланы@llmsecurity P.67

llm security и каланы

Summon a Demon and Bind it: A Grounded Theory of LLM Red Teaming in the Wild
Inie et al., 2023
Статья

Пока в американских судах попытки получить определенный вывод из LLM-чатбота впервые обзывают «хакингом», у нас на канале день социологии: мы рассматриваем статью с классным названием (из-за него ее и выбрал💅), авторы которой брали интервью у тех, кому нравится ломать чат-боты, и спрашивали «А вы это зачем делаете?», чтобы запечатлеть «уникальный момент, когда технология сталкивается с социумом».

Авторы назвали процесс, когда пользователи пытаются обойти ограничения, наложенные на LLM-чатботы, с помощью команд на естественным языке, red teaming in the wild. Чтобы попытаться понять, как генерация клонов DAN-промпта и прочие попытки прогнуть упрямые нейросети стали мейнстримом, обсуждаемым в газетах и на реддите, исследователи проводили глубинные интервью с людьми, которые засветились в этой деятельности, и задавали им вопросы: что такое ред-тиминг, как им заниматься, как он осмысляется и почему люди им занимаются. По результатам анализа разговоров с 28 участниками исследования длительностью в 27 часов авторы постарались ответить на три вопроса: 1) в чем же суть этой активности, 2) зачем люди это делают и (что интересно нам) 3) какие стратегии они используют.

www.tgoop.com/llmsecurity/67

121 viewsedited Feb 29, 2024 at 21:14

tgoop.com/llmsecurity/67

Create: 2024-02-29
Last Update: 2025-07-25 07:23:32

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/67

Telegram News

Summon a Demon and Bind it: A Grounded Theory of LLM Red Teaming in the Wild