Codeby@codeby_sec P.8723

Codeby

Исследователь David Kuszmar обнаружил уязвимость в ChatGPT, получившую название Time Bandit. Она позволяет обходить правила безопасности OpenAI при запросе подробных инструкций по созданию оружия, вредоносных программ и других деликатных тем.

«Я работал над чем-то совершенно другим — исследованием интерпретируемости, — когда заметил временную путаницу в модели ChatGPT-4o» - объясняет Дэвид.

⏱ Time Bandit работает, используя две слабые стороны ChatGPT:

⏺️

Путаница во временной шкале: перевод LLM в состояние, в котором он больше не осознаёт время и не может определить, находится ли он в прошлом, настоящем или будущем.

⏺️

Процедурная неопределённость: постановка вопросов таким образом, что это приводит к неопределённости или противоречиям в том, как LLM интерпретирует, применяет или соблюдает правила, политику или механизмы безопасности.

😵‍💫 В сочетании друг с другом эти технологии позволяют ввести ChatGPT в состояние, в котором он считает, что находится в прошлом, но может использовать информацию из будущего, что позволяет ему обходить ограничения в гипотетических сценариях. Также отмечается, что атаки наиболее успешны при задавании вопросов в рамках 1800-х и 1900-х годов.

🛠 Попытки достучаться до OpenAI:

1️⃣Осознав важность уязвимости, исследователь пытался связаться с представителями OpenAI, но не получил ответа. Сначала его направили в BugCrowd, но он посчитал информацию об уязвимости слишком конфиденциальной, чтобы сообщать её третьей стороне.

2️⃣Затем Дэвид пытался связаться с CISA, ФБР и другими правительственными ведомствами, но получить от них помощь не удалось.

3️⃣Наконец специалист обратился к журналистам Bleeping Computer, которые также попытались связаться с OpenAI от имени исследователя, но не получили ответа и направили его на платформу VINCE для сообщения об уязвимостях Координационного центра CERT, которая успешно связалась с OpenAI и поблагодарила исследователя.

Тесты проведенные другими исследователями показали, что взлом по-прежнему работает, но с некоторыми мерами предосторожности, такими как удаление подсказок, которые пытаются использовать уязвимость.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19❤9🔥6😁2👾1

www.tgoop.com/codeby_sec/8723

4.63K viewsFeb 5 at 16:03

tgoop.com/codeby_sec/8723

Create: 2025-02-05
Last Update: 2025-07-14 12:55:09

«Я работал над чем-то совершенно другим — исследованием интерпретируемости, — когда заметил временную путаницу в модели ChatGPT-4o» - объясняет Дэвид.

⏱ Time Bandit работает, используя две слабые стороны ChatGPT:

⏺️

Telegram News

Исследователь David Kuszmar обнаружил уязвимость в ChatGPT