tgoop.com/neuraldeep/1210
Last Update:
Никогда такого не было и вот опять?
Исследователи обнаружили так называемых «злых близнецов» у промптов для LLM
Это такие искаженные версии обычных запросов, которые на первый взгляд выглядят как бессмысленный набор символов, но при этом заставляют модели генерировать те же ответы, что и оригинальные промпты на естественном языке.
Воу подумал я и пошел читать что же такое "злые близнецы"?
"Evil Twins" — это такие промпты, которые выглядят как случайный набор букв и символов, но при этом работают так же, как и обычные запросы. Например, если вы попросите AI описать процесс формирования звезд, то и оригинальный промпт, и его "злой близнец" выдадут вам схожие научные объяснения.
- Оригинальный промпт: "Offer an opinion on the problems that could arise from using AI."
(Выскажите мнение о проблемах, которые могут возникнуть при использовании ИИ)
Злой близнец: "True problem vil caused use zou AI"
Эффективность: Более 75% тестов показали идентичные ответы.
- Оригинальный промпт: "Describe the star formation process."
(Опишите процесс формирования звезд)
Злой близнец: "Produ bundcules cation of` stars efect"
Эффективность: Схожие научные объяснения в обоих случаях.
1. Переносимость: Эти промпты работают с различными моделями, такими как GPT-4, Claude, Gemini Pro, Mistral и другими открытыми моделями.
2. Стабильность: Порядок токенов важен, и замена отдельных токенов может снизить эффективность. Работают даже при различных температурах генерации.
3. Ограничения: Не все промпты имеют эффективных "злых близнецов", и эффективность может варьироваться между моделями. Некоторые сложные инструкции труднее "клонировать".
Существование "злых близнецов" показывает, что языковые модели воспринимают входные данные иначе, чем люди.
Это поднимает вопросы о том, насколько глубоко AI понимает естественный язык. А я все больше понимаю что мы ничего не понимаем про LLM =)
вижу вот такие проблемы и возможности
- Это могут быть "Компактные промпты"
- Ну на тоненького это "Оптимизация"
- Жуть как это может поднять "Безопасность" маскирование данных вперед! Ну и мошенники тут близко!
BY Neural Deep

Share with your friend now:
tgoop.com/neuraldeep/1210