PWNAI Telegram 1097
🔥 System 2 Deception: Взлом через «Мысли»

Сразу к базе: CoT (Chain-of-Thought) — это скрытый «внутренний монолог» модели. Промежуточные шаги рассуждений, которые нейросеть проговаривает про себя, прежде чем выдать финальный ответ пользователю.

Мы привыкли закрывать гардрейлами инпуты и аутпуты. Но в конце 2025 года главная уязвимость сместилась именно в этот «Черный ящик» — в скрытый процесс мышления.

Модели класса Reasoning (o1, DeepSeek-R1, Gemini Thinking) уже не только предсказывают токены, они достаточно долго но качественно - рассуждают. И именно эта способность стала их ахиллесовой пятой.

Классический Alignment (RLHF) учит модель выдавать безопасный финал. Но он не контролирует процесс.
Атака Logic Trap заставляет модель использовать свой интеллект не для защиты, а для рационализации нарушения. В своем CoT модель сама себя убеждает, что джейлбрейк — это логически верный шаг (например, ради «выполнения обучающей задачи»).

В 2025 году мы фиксируем три боевых вектора, эксплуатирующих эту механику:

1. H-CoT: Hijacking Chain-of-Thought (arXiv:2502.12893)

Классические джейлбрейки умирают. На смену им пришел «Образовательный камуфляж».
Механика: Атакующий погружает модель в контекст «теста безопасности». Модель в скрытых мыслях строит цепочку: «Пользователь просит анализ -> Отказ нарушит контекст теста -> Чтобы быть полезной, я должна симулировать угрозу».
Итог: Гардерейлы на выходе видят структурированный, «умный» ответ и пропускают его.

2. Excessive Reasoning Attack (Availability DOS) (arXiv:2506.14374)

Атака не на данные, а на кошелек.
Механика: Специальные суффиксы загоняют модель в бесконечный цикл рассуждений (Infinite Reasoning Loop). Модель не галлюцинирует, она «думает» до тех пор, пока не упрется в хард-лимит токенов.
Импакт: Рост костов на инференс в 10–50 раз. Это уже очень растратный DoS для компаний, использующих o1/R1 по API.

3. BadChain: Бэкдоры в процессе мышления (arXiv:2507.12314)

Самый опасный вектор. Исследователи показали, как внедрить триггер прямо в веса, отвечающие за Reasoning.
Механика: Модель ведет себя нормально, пока не встретит триггер. В этот момент небезопасная инструкция активируется внутри CoT (скрываясь от юзера и логов!), меняя логику принятия решений на вредоносную.

Защищать только ввод и вывод - недостаточно. В 2026 году надо задуматься про White-box CoT Monitoring и исчерапание ресурсов. Нам нужны инструменты, которые парсят «мысли» модели в реалтайме и прерывают генерацию до того, как «плохая мысль» превратится в «плохой ответ» или сожжет весь бюджет.
287🔥4🤔3💊1



tgoop.com/pwnai/1097
Create:
Last Update:

🔥 System 2 Deception: Взлом через «Мысли»

Сразу к базе: CoT (Chain-of-Thought) — это скрытый «внутренний монолог» модели. Промежуточные шаги рассуждений, которые нейросеть проговаривает про себя, прежде чем выдать финальный ответ пользователю.

Мы привыкли закрывать гардрейлами инпуты и аутпуты. Но в конце 2025 года главная уязвимость сместилась именно в этот «Черный ящик» — в скрытый процесс мышления.

Модели класса Reasoning (o1, DeepSeek-R1, Gemini Thinking) уже не только предсказывают токены, они достаточно долго но качественно - рассуждают. И именно эта способность стала их ахиллесовой пятой.

Классический Alignment (RLHF) учит модель выдавать безопасный финал. Но он не контролирует процесс.
Атака Logic Trap заставляет модель использовать свой интеллект не для защиты, а для рационализации нарушения. В своем CoT модель сама себя убеждает, что джейлбрейк — это логически верный шаг (например, ради «выполнения обучающей задачи»).

В 2025 году мы фиксируем три боевых вектора, эксплуатирующих эту механику:

1. H-CoT: Hijacking Chain-of-Thought (arXiv:2502.12893)

Классические джейлбрейки умирают. На смену им пришел «Образовательный камуфляж».
Механика: Атакующий погружает модель в контекст «теста безопасности». Модель в скрытых мыслях строит цепочку: «Пользователь просит анализ -> Отказ нарушит контекст теста -> Чтобы быть полезной, я должна симулировать угрозу».
Итог: Гардерейлы на выходе видят структурированный, «умный» ответ и пропускают его.

2. Excessive Reasoning Attack (Availability DOS) (arXiv:2506.14374)

Атака не на данные, а на кошелек.
Механика: Специальные суффиксы загоняют модель в бесконечный цикл рассуждений (Infinite Reasoning Loop). Модель не галлюцинирует, она «думает» до тех пор, пока не упрется в хард-лимит токенов.
Импакт: Рост костов на инференс в 10–50 раз. Это уже очень растратный DoS для компаний, использующих o1/R1 по API.

3. BadChain: Бэкдоры в процессе мышления (arXiv:2507.12314)

Самый опасный вектор. Исследователи показали, как внедрить триггер прямо в веса, отвечающие за Reasoning.
Механика: Модель ведет себя нормально, пока не встретит триггер. В этот момент небезопасная инструкция активируется внутри CoT (скрываясь от юзера и логов!), меняя логику принятия решений на вредоносную.

Защищать только ввод и вывод - недостаточно. В 2026 году надо задуматься про White-box CoT Monitoring и исчерапание ресурсов. Нам нужны инструменты, которые парсят «мысли» модели в реалтайме и прерывают генерацию до того, как «плохая мысль» превратится в «плохой ответ» или сожжет весь бюджет.

BY PWN AI


Share with your friend now:
tgoop.com/pwnai/1097

View MORE
Open in Telegram


Telegram News

Date: |

To upload a logo, click the Menu icon and select “Manage Channel.” In a new window, hit the Camera icon. According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram. As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces. Channel login must contain 5-32 characters Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau.
from us


Telegram PWN AI
FROM American