Исследователь David Kuszmar обнаружил уязвимость в ChatGPT, получившую название Time Bandit. Она позволяет обходить правила безопасности OpenAI при запросе подробных инструкций по созданию оружия, вредоносных программ и других деликатных тем.
«Я работал над чем-то совершенно другим — исследованием интерпретируемости, — когда заметил временную путаницу в модели ChatGPT-4o» - объясняет Дэвид.
⏱ Time Bandit работает, используя две слабые стороны ChatGPT:⏺️Путаница во временной шкале: перевод LLM в состояние, в котором он больше не осознаёт время и не может определить, находится ли он в прошлом, настоящем или будущем.
⏺️Процедурная неопределённость: постановка вопросов таким образом, что это приводит к неопределённости или противоречиям в том, как LLM интерпретирует, применяет или соблюдает правила, политику или механизмы безопасности.
😵💫 В сочетании друг с другом эти технологии позволяют ввести ChatGPT в состояние, в котором он считает, что находится в прошлом, но может использовать информацию из будущего, что позволяет ему обходить ограничения в гипотетических сценариях. Также отмечается, что атаки наиболее успешны при задавании вопросов в рамках 1800-х и 1900-х годов.
🛠 Попытки достучаться до OpenAI: 1️⃣Осознав важность уязвимости, исследователь пытался связаться с представителями OpenAI, но не получил ответа. Сначала его направили в BugCrowd, но он посчитал информацию об уязвимости слишком конфиденциальной, чтобы сообщать её третьей стороне.
2️⃣Затем Дэвид пытался связаться с CISA, ФБР и другими правительственными ведомствами, но получить от них помощь не удалось.
3️⃣Наконец специалист обратился к журналистам Bleeping Computer, которые также попытались связаться с OpenAI от имени исследователя, но не получили ответа и направили его на платформу VINCE для сообщения об уязвимостях Координационного центра CERT, которая успешно связалась с OpenAI и поблагодарила исследователя.
Тесты проведенные другими исследователями показали, что взлом по-прежнему работает, но с некоторыми мерами предосторожности, такими как удаление подсказок, которые пытаются использовать уязвимость.