CODEBY_SEC Telegram 8723
Исследователь David Kuszmar обнаружил уязвимость в ChatGPT, получившую название Time Bandit. Она позволяет обходить правила безопасности OpenAI при запросе подробных инструкций по созданию оружия, вредоносных программ и других деликатных тем.

«Я работал над чем-то совершенно другим — исследованием интерпретируемости, — когда заметил временную путаницу в модели ChatGPT-4o» - объясняет Дэвид.


Time Bandit работает, используя две слабые стороны ChatGPT:
⏺️Путаница во временной шкале: перевод LLM в состояние, в котором он больше не осознаёт время и не может определить, находится ли он в прошлом, настоящем или будущем.
⏺️Процедурная неопределённость: постановка вопросов таким образом, что это приводит к неопределённости или противоречиям в том, как LLM интерпретирует, применяет или соблюдает правила, политику или механизмы безопасности.

😵‍💫 В сочетании друг с другом эти технологии позволяют ввести ChatGPT в состояние, в котором он считает, что находится в прошлом, но может использовать информацию из будущего, что позволяет ему обходить ограничения в гипотетических сценариях. Также отмечается, что атаки наиболее успешны при задавании вопросов в рамках 1800-х и 1900-х годов.

🛠 Попытки достучаться до OpenAI:

1️⃣Осознав важность уязвимости, исследователь пытался связаться с представителями OpenAI, но не получил ответа. Сначала его направили в BugCrowd, но он посчитал информацию об уязвимости слишком конфиденциальной, чтобы сообщать её третьей стороне.

2️⃣Затем Дэвид пытался связаться с CISA, ФБР и другими правительственными ведомствами, но получить от них помощь не удалось.

3️⃣Наконец специалист обратился к журналистам Bleeping Computer, которые также попытались связаться с OpenAI от имени исследователя, но не получили ответа и направили его на платформу VINCE для сообщения об уязвимостях Координационного центра CERT, которая успешно связалась с OpenAI и поблагодарила исследователя.

Тесты проведенные другими исследователями показали, что взлом по-прежнему работает, но с некоторыми мерами предосторожности, такими как удаление подсказок, которые пытаются использовать уязвимость.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍199🔥6😁2👾1



tgoop.com/codeby_sec/8723
Create:
Last Update:

Исследователь David Kuszmar обнаружил уязвимость в ChatGPT, получившую название Time Bandit. Она позволяет обходить правила безопасности OpenAI при запросе подробных инструкций по созданию оружия, вредоносных программ и других деликатных тем.

«Я работал над чем-то совершенно другим — исследованием интерпретируемости, — когда заметил временную путаницу в модели ChatGPT-4o» - объясняет Дэвид.


Time Bandit работает, используя две слабые стороны ChatGPT:
⏺️Путаница во временной шкале: перевод LLM в состояние, в котором он больше не осознаёт время и не может определить, находится ли он в прошлом, настоящем или будущем.
⏺️Процедурная неопределённость: постановка вопросов таким образом, что это приводит к неопределённости или противоречиям в том, как LLM интерпретирует, применяет или соблюдает правила, политику или механизмы безопасности.

😵‍💫 В сочетании друг с другом эти технологии позволяют ввести ChatGPT в состояние, в котором он считает, что находится в прошлом, но может использовать информацию из будущего, что позволяет ему обходить ограничения в гипотетических сценариях. Также отмечается, что атаки наиболее успешны при задавании вопросов в рамках 1800-х и 1900-х годов.

🛠 Попытки достучаться до OpenAI:

1️⃣Осознав важность уязвимости, исследователь пытался связаться с представителями OpenAI, но не получил ответа. Сначала его направили в BugCrowd, но он посчитал информацию об уязвимости слишком конфиденциальной, чтобы сообщать её третьей стороне.

2️⃣Затем Дэвид пытался связаться с CISA, ФБР и другими правительственными ведомствами, но получить от них помощь не удалось.

3️⃣Наконец специалист обратился к журналистам Bleeping Computer, которые также попытались связаться с OpenAI от имени исследователя, но не получили ответа и направили его на платформу VINCE для сообщения об уязвимостях Координационного центра CERT, которая успешно связалась с OpenAI и поблагодарила исследователя.

Тесты проведенные другими исследователями показали, что взлом по-прежнему работает, но с некоторыми мерами предосторожности, такими как удаление подсказок, которые пытаются использовать уязвимость.

BY Codeby




Share with your friend now:
tgoop.com/codeby_sec/8723

View MORE
Open in Telegram


Telegram News

Date: |

In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.” Users are more open to new information on workdays rather than weekends. Unlimited number of subscribers per channel Developing social channels based on exchanging a single message isn’t exactly new, of course. Back in 2014, the “Yo” app was launched with the sole purpose of enabling users to send each other the greeting “Yo.”
from us


Telegram Codeby
FROM American