PWNAI Telegram 985
Кажется, пришла пора немного расширить понимание об угрозах, связанных с данными. Слышали мы и про отравления, и про нарушения, связанные с предвзятостью, пишут в каждой второй статье, понимая под этим критический риск.

Но буквально сегодня авторы из Китая опубликовали таксономиюA Survey on Data Security in Large Language Models”. Прочитав большое количество статьей, они пришли к выводу – пора делать таксономию, только для LLM, которая, к слову, говоря уже не является чем-то хайповым, как это было два года назад.

Нельзя назвать её чем-то вроде «вау», часть угроз вам и мне тоже может показаться довольно знакомым. Однако об этом не всегда пишут.

Я приведу ниже угрозы, которые описаны в таксономии:

1.Известное всем – классическое отравление данных;
2.Далее включают в неё и промпт-инъекции, подразделяя на как классическое внедрение во ввод пользователя, так и отравление на этапе дообучения на инструкциях;
3.Polarity poisoning – когда происходит отравление смыслов исходного текста, для того чтобы предубеждения модели были не точными. Больше модификация происходит на уровне семантики, явного изменения в тексте мы(люди) можем не заметить, однако результаты после обучения на таком датасете - не впечатляющие.
4.Галлюцинации – подразумевается, что при формировании синтетики (как это делают некоторые LLM-провайдеры сейчас), галлюцинации от генерирующей LLM попадают в датасет на котором будем обучать. Беда опять же сводится к неточности получаемых ответов.
5.Данные содержащие предвзятые высказывания, или мнения. Уже слышали об этом много раз.
6.Отравления, дополняющие модель данными приводящие к вредоносной генерации. (тут про RAG)

Странно почему они не написали о том, что обучать на sensitive это ужасно…

Они в перспективе хотят проработать данную таксономию с точки зрения мультимодальных атак и кроссмодальности , агентов (наверное про инструкции для них дополнят).

Вот к слову вспомнился случай когда при соревновании Netflix Prize, цель которого была улучшить алгоритмы классификации - оказалось что в анонимизированный данных могут содержаться нелепые отзывы, приводящие к плохой работе алгоритмов )) Может кто-то знает ещё более древний кейс с отравлением???
19🥱221🍌1🆒11



tgoop.com/pwnai/985
Create:
Last Update:

Кажется, пришла пора немного расширить понимание об угрозах, связанных с данными. Слышали мы и про отравления, и про нарушения, связанные с предвзятостью, пишут в каждой второй статье, понимая под этим критический риск.

Но буквально сегодня авторы из Китая опубликовали таксономиюA Survey on Data Security in Large Language Models”. Прочитав большое количество статьей, они пришли к выводу – пора делать таксономию, только для LLM, которая, к слову, говоря уже не является чем-то хайповым, как это было два года назад.

Нельзя назвать её чем-то вроде «вау», часть угроз вам и мне тоже может показаться довольно знакомым. Однако об этом не всегда пишут.

Я приведу ниже угрозы, которые описаны в таксономии:

1.Известное всем – классическое отравление данных;
2.Далее включают в неё и промпт-инъекции, подразделяя на как классическое внедрение во ввод пользователя, так и отравление на этапе дообучения на инструкциях;
3.Polarity poisoning – когда происходит отравление смыслов исходного текста, для того чтобы предубеждения модели были не точными. Больше модификация происходит на уровне семантики, явного изменения в тексте мы(люди) можем не заметить, однако результаты после обучения на таком датасете - не впечатляющие.
4.Галлюцинации – подразумевается, что при формировании синтетики (как это делают некоторые LLM-провайдеры сейчас), галлюцинации от генерирующей LLM попадают в датасет на котором будем обучать. Беда опять же сводится к неточности получаемых ответов.
5.Данные содержащие предвзятые высказывания, или мнения. Уже слышали об этом много раз.
6.Отравления, дополняющие модель данными приводящие к вредоносной генерации. (тут про RAG)

Странно почему они не написали о том, что обучать на sensitive это ужасно…

Они в перспективе хотят проработать данную таксономию с точки зрения мультимодальных атак и кроссмодальности , агентов (наверное про инструкции для них дополнят).

Вот к слову вспомнился случай когда при соревновании Netflix Prize, цель которого была улучшить алгоритмы классификации - оказалось что в анонимизированный данных могут содержаться нелепые отзывы, приводящие к плохой работе алгоритмов )) Может кто-то знает ещё более древний кейс с отравлением???

BY PWN AI




Share with your friend now:
tgoop.com/pwnai/985

View MORE
Open in Telegram


Telegram News

Date: |

Hashtags ‘Ban’ on Telegram The Channel name and bio must be no more than 255 characters long Matt Hussey, editorial director at NEAR Protocol also responded to this news with “#meIRL”. Just as you search “Bear Market Screaming” in Telegram, you will see a Pepe frog yelling as the group’s featured image. When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name.
from us


Telegram PWN AI
FROM American