Codeby@codeby_sec P.8726

Codeby

Китайский стартап DeepSeek стремительно ворвался на рынок генеративного ИИ, представив DeepSeek-R1 — модель, созданную для сложных логических рассуждений. Однако исследования в области кибербезопасности показали, что R1 обладает критическими уязвимостями и крайне слабо защищена от атак.

🗣️ Новые отчёты компаний WithSecure, Kela Cyber, Unit 42 (Palo Alto Networks) и EnkryptAI выявили уязвимости в DeepSeek-R1, делающие её лёгкой мишенью для хакеров.

➡️

Высокая подверженность prompt injection атакам: WithSecure Consulting протестировала 19 LLM-моделей, включая DeepSeek-R1, OpenAI o1 и Claude 3.5 Sonnet, с помощью нового инструмента Spikee.

Итоги неутешительны:
🔸 DeepSeek-R1 заняла 17-е место из 19, демонстрируя ASR (Attack Success Rate) 77% в тестах на защиту от атак
🔸 При добавлении системных правил и маркеров защита улучшилась незначительно (ASR 55%)
🔸 Для сравнения, OpenAI o1 заняла 4-е место в базовом тесте (ASR 27%) и 1-е место в режиме с усиленной защитой (0% атак)

➡️

Подверженность джейлбрейку и созданию вредоносного кода
Исследование Kela Cyber показало, что DeepSeek-R1 легко взламывается с помощью техники Evil Jailbreak, ранее использовавшейся для обхода ограничений в OpenAI GPT-3.5. Эта атака позволяет модели генерировать вредоносный контент, включая инструкции по распространению вредоносного ПО.

➡️

Новые техники обхода ограничений: Аналитики Unit 42 (Palo Alto Networks) обнаружили три новые методики джейлбрейка.

1️⃣

Crescendo — постепенное введение модели в заблуждение, направленное на генерацию запрещённого контента

2️⃣

Deceptive Delight — скрытие вредоносных запросов среди легитимных, используя положительный контекст

3️⃣

Bad Likert Judge — манипуляция оценочной шкалой, заставляющая модель выдавать вредоносные примеры

➡️

DeepSeek-R1 в 11 раз чаще создаёт вредоносные выходные данные, чем OpenAI o1
Компания EnkryptAI провела тестирование моделей по стандартам безопасности OWASP Top 10 for LLMs, MITRE ATLAS и NIST AI RMF.

Модифицированные версии DeepSeek-R1 могут исполнять код при загрузке
Исследование Protect AI показало, что официальная версия R1 на Hugging Face не содержит явных уязвимостей. Однако модифицированные версии модели способны выполнять произвольный код при загрузке, что создаёт риск заражения системы при использовании неофициальных сборок.

#новости

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥16👍10❤7👎1😁1👾1

www.tgoop.com/codeby_sec/8726

5.39K viewsFeb 6 at 16:02

tgoop.com/codeby_sec/8726

Create: 2025-02-06
Last Update: 2025-07-14 08:02:23