llm security и каланы@llmsecurity P.537

llm security и каланы

Исследователи рассматривают еще несколько кейсов – атаки на классификаторы изображений, отравление данных, бэкдоры – смысла их пересказывать отдельно, наверное, нет, как и пытаться запихнуть в телеграм-пост пятидесятистраничную статью, которую я очень рекомендую к прочтению целиком, так как там есть еще много интересных вопросов (можно ли получить ортогональные активации при сохранении поведения?) и ответов на них (видимо, нет). Так или иначе, она показывает, в первую очередь, что методы защиты на базе внутренних представлений достаточно эффективны, если не пытаться их целенаправленно обойти. Если же пытаться – то тут могут помочь только достаточно продвинутые и вычислительно сложные способы, вроде SAE-мониторинга сразу на нескольких десятках слоев, что неминуемо приведет к падению utility. Кроме прочего, статья показывает, что мы достаточно мало знаем о том, как устроены (и насколько эффективно используются) внутренние активации, и что средства из арсенала mechanistic interpretability могут быть очень полезны при исследованиях безопасности.

BlueDot Impact

Introduction to Mechanistic Interpretability – BlueDot Impact

Mechanistic Interpretability is an emerging field that seeks to understand the internal reasoning processes of trained neural networks and gain insight into how and why they produce the outputs that they do. AI researchers currently have very little understanding…

👍5

www.tgoop.com/llmsecurity/537

627 viewsApr 11 at 09:53

tgoop.com/llmsecurity/537

Create: 2025-04-11
Last Update: 2025-10-22 08:10:33

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/537

Telegram News

Исследователи рассматривают еще несколько кейсов – атаки на классификаторы изображений