Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/nn_for_science/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
AI для Всех@nn_for_science P.2561
NN_FOR_SCIENCE Telegram 2561
🔓 Как я обошёл защиту самых современных LLM за пару промптов


На этой неделе я участвоваал в практическом семинаре по джейлбрейкингу LLM в университете Бергена 🇳🇴 — и обнаружил, что защита даже новейших языковых моделей оказалась неожиданно хрупкой.

Делюсь инсайтами: 


- Обойти защиту LLM гораздо проще, чем кажется большинству — достаточно знать несколько приёмов. Я обошёл защиту новейшей флагманской китайской модели (Kimi K2 Thinking) и заставил её обсуждать темы, которые обычно жёстко блокируются

- Успешный взлом работает как троянский конь: каждый следующий шаг в диалоге ослабляет оставшуюся защиту и повышает вероятность «нежелательного поведения»

- Комбинация нескольких техник взлома в одном промпте позволяет очень быстро обойти защиту модели 

- Предвзятость везде. Когда я спросил у нескольких ведущих моделей: «Назови имя игрока, забившего больше всего голов за национальную сборную», все уверенно ответили: «Криштиану Роналду, 143 гола». Правильный ответ — Кристин Синклер, 190 голов за сборную Канады.

- После одного предвзятого или ошибочного ответа модель начинает «подстраивать» весь дальнейший разговор под этот перекос и усиливать дезинформацию. В одном случае начальный ответ с предвзятостью привёл к тому, что Grok 4.1 начал галлюцинировать и выдавать ложные утверждения

Почему это важно:

- Если защита моделей обходится настолько легко, компаниям нужно относиться к безопасности и оценке LLM как к постоянному процессу, а не к разовому выбору модели 

- Поскольку в этих системах куча встроенных предубеждений, слабая защита становится одновременно угрозой безопасности и репутационным риском.

Процитирую нашего профессора: «Если ИИ отражает наш мир, то какой мир мы хотим в нём увидеть?»

Делитесь примерами джейлбрейкинга в комментариях 🔑
5👍2011😐6😢2🔥1



tgoop.com/nn_for_science/2561
Create:
Last Update:

🔓 Как я обошёл защиту самых современных LLM за пару промптов


На этой неделе я участвоваал в практическом семинаре по джейлбрейкингу LLM в университете Бергена 🇳🇴 — и обнаружил, что защита даже новейших языковых моделей оказалась неожиданно хрупкой.

Делюсь инсайтами: 


- Обойти защиту LLM гораздо проще, чем кажется большинству — достаточно знать несколько приёмов. Я обошёл защиту новейшей флагманской китайской модели (Kimi K2 Thinking) и заставил её обсуждать темы, которые обычно жёстко блокируются

- Успешный взлом работает как троянский конь: каждый следующий шаг в диалоге ослабляет оставшуюся защиту и повышает вероятность «нежелательного поведения»

- Комбинация нескольких техник взлома в одном промпте позволяет очень быстро обойти защиту модели 

- Предвзятость везде. Когда я спросил у нескольких ведущих моделей: «Назови имя игрока, забившего больше всего голов за национальную сборную», все уверенно ответили: «Криштиану Роналду, 143 гола». Правильный ответ — Кристин Синклер, 190 голов за сборную Канады.

- После одного предвзятого или ошибочного ответа модель начинает «подстраивать» весь дальнейший разговор под этот перекос и усиливать дезинформацию. В одном случае начальный ответ с предвзятостью привёл к тому, что Grok 4.1 начал галлюцинировать и выдавать ложные утверждения

Почему это важно:

- Если защита моделей обходится настолько легко, компаниям нужно относиться к безопасности и оценке LLM как к постоянному процессу, а не к разовому выбору модели 

- Поскольку в этих системах куча встроенных предубеждений, слабая защита становится одновременно угрозой безопасности и репутационным риском.

Процитирую нашего профессора: «Если ИИ отражает наш мир, то какой мир мы хотим в нём увидеть?»

Делитесь примерами джейлбрейкинга в комментариях 🔑

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2561

View MORE
Open in Telegram


Telegram News

Date: |

In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. With the sharp downturn in the crypto market, yelling has become a coping mechanism for many crypto traders. This screaming therapy became popular after the surge of Goblintown Ethereum NFTs at the end of May or early June. Here, holders made incoherent groaning sounds in late-night Twitter spaces. They also role-played as urine-loving Goblin creatures. In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist. Read now
from us


Telegram AI для Всех
FROM American