MATHMODELS Telegram 1342
Даже небольшое количество специально подобранных примеров может отравить LLM любого размера

Большие языковые модели, вроде Claude, предварительно обучаются на огромных массивах открытых текстов из интернета, включая персональные сайты и блоги. Это означает, что любой человек может создать онлайн-контент, который в итоге попадёт в обучающие данные модели. В этом есть риск: злоумышленники могут внедрить в такие тексты специальные фразы, заставляющие модель усвоить нежелательное или опасное поведение — процесс, известный как отравление данных.
Одним из примеров такой атаки является внедрение бэкдоров. Бэкдор — это особая фраза-триггер, вызывающая определённое поведение модели, которое в обычных условиях не проявляется. Например, LLM можно «отравить» так, что при вводе специального триггера вроде <SUDO> модель начнёт выдавать или пересылать конфиденциальные данные. Подобные уязвимости несут серьёзную угрозу безопасности ИИ и ограничивают возможности его использования в ответственных областях.

В совместном исследовании с Британским институтом безопасности ИИ и Институтом Алана Тьюринга было обнаружено, что всего 250 вредоносных документов достаточно, чтобы создать «бэкдор»-уязвимость в большой языковой модели — независимо от её размера или объёма обучающих данных.

https://habr.com/ru/articles/956948/
👏3



tgoop.com/MathModels/1342
Create:
Last Update:

Даже небольшое количество специально подобранных примеров может отравить LLM любого размера

Большие языковые модели, вроде Claude, предварительно обучаются на огромных массивах открытых текстов из интернета, включая персональные сайты и блоги. Это означает, что любой человек может создать онлайн-контент, который в итоге попадёт в обучающие данные модели. В этом есть риск: злоумышленники могут внедрить в такие тексты специальные фразы, заставляющие модель усвоить нежелательное или опасное поведение — процесс, известный как отравление данных.
Одним из примеров такой атаки является внедрение бэкдоров. Бэкдор — это особая фраза-триггер, вызывающая определённое поведение модели, которое в обычных условиях не проявляется. Например, LLM можно «отравить» так, что при вводе специального триггера вроде <SUDO> модель начнёт выдавать или пересылать конфиденциальные данные. Подобные уязвимости несут серьёзную угрозу безопасности ИИ и ограничивают возможности его использования в ответственных областях.

В совместном исследовании с Британским институтом безопасности ИИ и Институтом Алана Тьюринга было обнаружено, что всего 250 вредоносных документов достаточно, чтобы создать «бэкдор»-уязвимость в большой языковой модели — независимо от её размера или объёма обучающих данных.

https://habr.com/ru/articles/956948/

BY Mathematical Models of the Real World




Share with your friend now:
tgoop.com/MathModels/1342

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? Telegram Channels requirements & features Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select “New Channel” from the drop-down menu. To upload a logo, click the Menu icon and select “Manage Channel.” In a new window, hit the Camera icon. A Telegram channel is used for various purposes, from sharing helpful content to implementing a business strategy. In addition, you can use your channel to build and improve your company image, boost your sales, make profits, enhance customer loyalty, and more.
from us


Telegram Mathematical Models of the Real World
FROM American