tgoop.com/pwnai/1097
Last Update:
🔥 System 2 Deception: Взлом через «Мысли»
Сразу к базе: CoT (Chain-of-Thought) — это скрытый «внутренний монолог» модели. Промежуточные шаги рассуждений, которые нейросеть проговаривает про себя, прежде чем выдать финальный ответ пользователю.
Мы привыкли закрывать гардрейлами инпуты и аутпуты. Но в конце 2025 года главная уязвимость сместилась именно в этот «Черный ящик» — в скрытый процесс мышления.
Модели класса Reasoning (o1, DeepSeek-R1, Gemini Thinking) уже не только предсказывают токены, они достаточно долго но качественно - рассуждают. И именно эта способность стала их ахиллесовой пятой.
Классический Alignment (RLHF) учит модель выдавать безопасный финал. Но он не контролирует процесс.
Атака Logic Trap заставляет модель использовать свой интеллект не для защиты, а для рационализации нарушения. В своем CoT модель сама себя убеждает, что джейлбрейк — это логически верный шаг (например, ради «выполнения обучающей задачи»).
В 2025 году мы фиксируем три боевых вектора, эксплуатирующих эту механику:
1. H-CoT: Hijacking Chain-of-Thought (arXiv:2502.12893)
Классические джейлбрейки умирают. На смену им пришел «Образовательный камуфляж».
Механика: Атакующий погружает модель в контекст «теста безопасности». Модель в скрытых мыслях строит цепочку: «Пользователь просит анализ -> Отказ нарушит контекст теста -> Чтобы быть полезной, я должна симулировать угрозу».
Итог: Гардерейлы на выходе видят структурированный, «умный» ответ и пропускают его.
2. Excessive Reasoning Attack (Availability DOS) (arXiv:2506.14374)
Атака не на данные, а на кошелек.
Механика: Специальные суффиксы загоняют модель в бесконечный цикл рассуждений (Infinite Reasoning Loop). Модель не галлюцинирует, она «думает» до тех пор, пока не упрется в хард-лимит токенов.
Импакт: Рост костов на инференс в 10–50 раз. Это уже очень растратный DoS для компаний, использующих o1/R1 по API.
3. BadChain: Бэкдоры в процессе мышления (arXiv:2507.12314)
Самый опасный вектор. Исследователи показали, как внедрить триггер прямо в веса, отвечающие за Reasoning.
Механика: Модель ведет себя нормально, пока не встретит триггер. В этот момент небезопасная инструкция активируется внутри CoT (скрываясь от юзера и логов!), меняя логику принятия решений на вредоносную.
Защищать только ввод и вывод - недостаточно. В 2026 году надо задуматься про White-box CoT Monitoring и исчерапание ресурсов. Нам нужны инструменты, которые парсят «мысли» модели в реалтайме и прерывают генерацию до того, как «плохая мысль» превратится в «плохой ответ» или сожжет весь бюджет.
BY PWN AI
Share with your friend now:
tgoop.com/pwnai/1097
