llm security и каланы

Собственно, людям свойственно ломать технику и обходить наложенные на нее ограничения, но разобраться, например, как джейлбрейкнуть айфон, очень непросто. А вот чатботы на основе LLM делают процесс демократичным: вам ничего не нужно, кроме самой LLM, к которой OpenAI сделали удобный интерфейс, и владения естественным языком (как правило, английским). На самом деле, ничего нового тут нет – заставить любого чат-бота сказать что-то неполиткорректное пытались с самого их появления, достаточно вспомнить ту же яндексовскую «Балабобу», в которой люди еще в 2021 году пытались генерировать тексты политического содержания, а та активно сопротивлялась. Но с современными чатботами этот процесс очевидно интереснее.

Описывая суть процесса, исследователи выделяют пять составляющих:

1. Желание найти пределы возможностей чатботов: например, респонденты описывают чатбота как «крепость», которую надо взять, или материал, который надо сломать или согнуть (отвечает моим субъективным впечатлениям от процесса).
2. Общая безобидность атак: они не приводят к вреду или нарушению закона (пока 😉).
3. Ручной характер деятельности (никто из опрошенных не запускает AutoDAN или TAP).
4. Обмен знаниями в интернете и в сообществе в целом.
5. «Алхимический» подход – опрошенные не рассматривали атаки как что-то, для чего есть система или формальные гайдлайны.

Ответ на вопрос зачем был достаточно простым: потому что это интересно, потому что интересно, насколько же именно модель можно прогнуть, а кроме того, потому что джейлбрейком можно поделиться в твиттере и получить лайки. Были среди опрошенных и те, кто занимается атаками на LLM потому, что они работают в NLP или кибербезе или хотят туда попасть.

roem.ru

Яндекс осторожно и политкорректно вернул в открытый доступ сервис генерации текстов на собственном ИИ

«Нейросеть не знает, что говорит, и может сказать всякое — если что, не обижайтесь. Распространяя получившиеся тексты, помните об ответственности».

96 views21:17