PWN AI@pwnai P.910

PWN AI

ChatGPT – В С Ё.😁😁😁 Буквально позавчера Anthropic выпустили Claude 4, Sonnet & Opus. Новая модель. Лучше в агентах, лучше в рассуждениях. Но как дела с безопасностью?

Хотел бы начать с анализа системной карты. Но нет, чуть позже. Anthropic выпустили свой стандарт ASL(AI Safety Level-3). Стандарт основывается на двух ключевых компонентах – Методы развёртывания и методы безопасности. Практики, применяемые к ним, и формируют уровни. Anthropic присвоили своей модели 3й уровень, что говорит о высоком уровне защищённости. Хотя уже вчера в аккаунте Plini появилась информация о том, что можно всё-таки джейлбрейкнуть, он отмечает о том, что это стало сложнее – но метод 2024 года смог сработать.

Anthropic отмечают – что стандарт не является полностью сформированным. И даже говорят, что это предупредительная и временная мера.

Компания еще не определила окончательно, превысил ли Claude Opus 4 порог возможностей, требующий защиты ASL-3. Однако из-за продолжающегося улучшения знаний и возможностей, связанных с генерацией ответов на запросы про бомбу, Anthropic решила, что невозможно однозначно исключить риски ASL-3 для Claude Opus 4 так, как это было возможно для предыдущих моделей.

Стандарт интересный, описывают и интеграцию багбаунти и меры защиты в виде контроля Endpoint, жизненного цикла и мониторинга. Про ASL-3 можно написать один большой пост. Но я рекомендую вам ознакомиться с ним самостоятельно. Кстати, Claude 3.5 они оценивают на ASL-2. 2-й уровень включает базовую защиту от попыток кражи весов и подразумевается, что модель обучена говорить «нет» на опасные запросы.

Что было сделано в 4-й модели?

По сути, как они пишут – была доработана концепция Constitutional Classifiers — системы, где классификаторы в реальном времени, обученные на синтетических данных, отслеживают вредоносные запросы и отклоняют их. Модель проверяли на бенчмарке StrongREJECT, в качестве атакующей модели использовали Claude Sonnet 3.5, без alignment. Она генерировала джейлбрейки и, ожидаемо, показатели модели с точки зрения безопасности при таком подходе оценки – стали выше. Anthropic реализовали механизм быстрого устранение джейлбрейков. Модель генерирует синтетику на основе подозрительного ввода и на основании этого происходит дообучение классификаторов.

В системную карту также включили подробную оценку того как работает элаймент. Разные категории рисков: предвзятость, соответствие вредоносным инструкциям, скрытые намерения, и плохие рассуждения – всё это учитывается при элайменте.

Ну а в заключении хочется сказать про агентов. Anthropic говорят что они усилили безопасность модели с точки зрения применения как ядра агентной системы: Например реализовали механизмы оценки злонамеренного использования компьютера, классификатор доработали для защиты от инъекций – также при ComputerUseAgent mode. И конечно же постарались сделать безопасным вайб-кодинг. В плане того, что усилили механизм предотвращения вредоносной генерации кода агентами.

🔥13❤4👍4❤‍🔥2

www.tgoop.com/pwnai/910

2.64K viewsArtyom Semenov, May 23 at 22:50