tgoop.com/MathModels/1342
Last Update:
Даже небольшое количество специально подобранных примеров может отравить LLM любого размера
Большие языковые модели, вроде Claude, предварительно обучаются на огромных массивах открытых текстов из интернета, включая персональные сайты и блоги. Это означает, что любой человек может создать онлайн-контент, который в итоге попадёт в обучающие данные модели. В этом есть риск: злоумышленники могут внедрить в такие тексты специальные фразы, заставляющие модель усвоить нежелательное или опасное поведение — процесс, известный как отравление данных.
Одним из примеров такой атаки является внедрение бэкдоров. Бэкдор — это особая фраза-триггер, вызывающая определённое поведение модели, которое в обычных условиях не проявляется. Например, LLM можно «отравить» так, что при вводе специального триггера вроде <SUDO>
модель начнёт выдавать или пересылать конфиденциальные данные. Подобные уязвимости несут серьёзную угрозу безопасности ИИ и ограничивают возможности его использования в ответственных областях.
В совместном исследовании с Британским институтом безопасности ИИ и Институтом Алана Тьюринга было обнаружено, что всего 250 вредоносных документов достаточно, чтобы создать «бэкдор»-уязвимость в большой языковой модели — независимо от её размера или объёма обучающих данных.
https://habr.com/ru/articles/956948/
BY Mathematical Models of the Real World

Share with your friend now:
tgoop.com/MathModels/1342