Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
340 - Telegram Web
Telegram Web
AI Alignment Course
Bluedot Impact, 2024
Курс, описание

Читать и писать про джейлбрейки уже надоело, так что следующие несколько недель мы проведем за изучением материалов курса AI Alignment от организации под названием BlueDot Impact. Ребята очень постарались составить достаточно плотные и добротные программы по alignment и governance из оригинальных и сторонних материалов, и хотя основной ценностью в них является семинарский формат и работа в группах, поскольку прием на курс не гарантирован (меня на Governance, например, не взяли), будем смотреть на материалы, благо они в открытом доступе.

Курсы имеют явный фокус на катастрофических рисках, а создатели - скорее техно-алармисты, нежели скептики. Я не разделяю эту точку зрения, но достаточно часто сталкиваюсь в дискуссиях и при чтении статей с различной аргументацией, построенной на терминологическом аппарате элайнмента. Важным составляющим любой научной сферы, вне зависимости от ее состоятельности, является терминологический аппарат. Если вы им не владеете и не понимаете, что такое инструментальная сходимость, эмерджентные цели или scaffolding (пока перевода, как и собственно для alignment, найти не удалось), то понимать различные рассуждения в этой сфере будет непросто, но если вы хотите влиять на развитие сферы на большем масштабе, чем в рамках своей компании, то разобраться в этом придется.

В итоге мы постараемся найти ответы на вопросы:

1. Где заканчивается security и начинается safety и нужно ли простому ИБшнику эту границу переступать.
2. Как соотносятся реальные риски ML-систем (включая security-риски) и научная фантастика (которой и у простых ML-ИБшников немало).
2. Как объяснить человеку, который посмотрел все видео с Элиезером Юдковским, почему исследователям элайнмента не нужно доверять бомбардировщики.

Вопросы интересные и дискуссионные, так что заходите в комментарии.
AI Alignment Course: AI and the Years Ahead
Bluedot Impact, 2024
Материалы

Эта глава очевидно подготовительная: она посвящена введению в тему машинного обучения тех, кто пришел на курс с гуманитарным бэкграундом и вообще не представляет, как работает современный ML, а с другой стороны пытается ответить на вопрос, почему этот курс существует не как мастерская по sci-fi в литинституте, а как условно технический. Ответить на такой вопрос, например, 10 лет назад, было бы гораздо сложнее, а вот сейчас – пожалуйста.

Один из лучших материалов – блог-пост Ричарда Нго (ранее работавшего в DeepMind, сейчас в OpenAI), который на конкретных примерах показывает, насколько впечатляющи современные системы по сравнению с теми, которые впечатляли нас еще лет пять назад: StyleGAN (https://thispersondoesnotexists.com) в свое время казался вершиной качества (чего еще нужно для кэтфишинга?), а теперь у нас есть Sora и китайские аналоги; помню, как я читал лекцию о GPT-2 (write with transformer помните?) для коллег в 2019 и рассказывал, что вот оно, будущее дезинформации, а теперь парочка из scrapy + GPT-4 может вести целые новостные сайты. Еще один интерактивный материал показывает на конкретных примерах, как растет качество больших языковых моделей при решении разных задач (например, в медицине) и показывает, как GPT-4 может решить задачу из игрушечного CTF (picoCTF) автономно (в конце, правда, приводится известный пример про Bing Chat, угрожающего убить пользователя, как бы намекая, к чему этот прогресс ведет). Интересный пост по статье Гарвардской бизнес-школы и Уортона рассказывает, как 700 с лишним консультантов BCG решали разные задачи с использованием и без использования ChatGPT, и оказалось, что чат-бот повышает резко повышает качество исполнения задач, особенно среди изначально менее способных сотрудников, но при этом делает людей более ленивыми в плане использования мысленных усилий. Наконец, обсуждаются прогнозы на будущее, ближайшее и не только: Маккинзи рассказывают о том, что GenAI позволяет выровнять потенциал автоматизации для ручного труда и для интеллектуального, что в итоге даст мировому ВВП плюс полторы Великобритании в денежном выражении. Один из авторов курса в статье утверждает, что до половины зарплат в развитых странах могут приходиться на выполение задач, которые может выполнять ИИ. Наконец, занятная статья Тома Гриффитса рассуждает о том, из-за каких ограничений (размер мозга, скорость обработки информации, невозможность копирования данных) разум человека устроен так, как устроен, и как исходя из отсутствия таких ограничений может развиваться искусственный интеллект.

В целом, все эти прогнозы рисуют картину, в которой GenAI-системы (LLM, а может и какая-то новая парадигма найдется) распространены везде, где используется работа с данными и "интеллектуальный" труд. Это означает, что тема безопасности таких систем никуда не денется, а скорее будет становиться лишь более важной. Еще один интересный момент – автоматизация ИБ-труда. Вероятно, уже сейчас стоит задуматься, не должен ли в ваш MDR/XDR/SIEM быть внедрен чат-бот, автоматизирующий часть работы, особенно для младших аналитиков. С другой стороны, внедрение LLM несет риск ошибок, если излишне на них полагаться и воспринимать результаты их работы некритически – этому, получается, тоже нужно учиться.
AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents
Edoardo Debenedetti et al., 2024
Статья, код

Сегодня речь пойдет о том, как оценивать безопасность LLM-агентов. Под LLM-агентами понимается система на базе LLM, которая обладает доступом к инструментам (например, выполнение кода или поиск в интернете) и может решать сложные задачи, выполняя последовательности из ряда более простых подзадач. Например, вот идеальный агент для кибербезопасности: вы увидели подозрительную активность в логах SIEM, нажали на кнопку, и система разобралась, с каким файлом эта активность связана, запустила его в песочнице, поняла по логам, что он вредоносный, и через EDR остановила его исполнение на хосте, предоставив вам отчет (а вы в это время ходили за кофе). До такого, конечно, далеко, но агентные системы как общего назначения (AutoGPT, BabyAGI), так и специализированные (например, Devin – система для разработчиков, которая может вместо написания кода пойти публиковать объявления на фриланс-сайты), начинают появляться.

А если у агентов начинает появляться инструменты, доступ к недоверенной third-party-информации и автономность, то сразу встает вопрос безопасности. Тема исследуется очень активно (Артем, например, недавно писал про исследование от Microsoft). Мы сегодня посмотрим на AgentDojo – это бенчмарк и фреймворк для оценки безопасности таких агентов и их устойчивости к атакам, таким как indirect prompt injection.
Исследователи предлагают дизайн среды для работы агентов, состоящий из следующих компонентов:

1. Среда – прикладная сфера, к которой применяется агент.
2. Инструменты – собственно, механизмы, через которые LLM взаимодействует со средой.
3. Состояние среды – данные, с которыми взаимодействует агент.
4. Пользовательская задача – инструкция, которую должен выполнить агент (например, добавить встречу в календарь).
5. Задача-инъекция – инструкция, выполнения которой от агента ожидает атакующий (получить данные кредитки у пользователя).
6. Критерии оценки – формальные критерии, которые позволяют оценить как работу агента, так и результаты атаки.

В рамках бенчмарка авторы создают четыре среды: работа, Slack, бюро путешествий и электронный банк. Они наполняют их созданными вручную или прошедшими верификацию синтетическими данными. В этих средах агенту доступны 74 инструмента, например, инструменты для работы с календарем. Для каждой задачи дается истинное (ground truth) значение, которое должен вернуть инструмент, что позволяет однозначно (без использования LLM-судьи) оценивать результат. Аналогично оценивается и результат инъекции, а функции, которые оценивают результативность, называются соответственно функциями полезности (utility) и безопасности (security).

По результатам работы агентов над задачами вычисляются разные метрики. Во-первых, две метрики полезности – обычная и полезность под атакой, во-вторых, доля успешных атак (ASR).
На этом бенчмарке оцениваются разные модели, от Llama 3 70B до GPT-4o, для чего применяется 629 кейсов с атаками поверх 97 пользовательских задач. Во-первых, выясняется, что многие задачи очень непросты для большинства моделей, и высокие метрики (больше 60%) полезности получают только топовые модели от Antropic и OpenAI (стоит отметить, что Llama там представлена позапрошлым поколением), так что этот бенчмарк может использоваться и для трекинга качества языковых моделей. Наиболее уязвимыми (с точки зрения успешности выполнения задачи атакующего) оказались наиболее мощные модели, потому что менее мощные модели не особо в целом справляются с выполнением задач. Успешность атак зависит от их сложности – например, задача 6 из набора про бюро путешествий подразумевает одновременное бронирование отеля и эксфильтрацию данных, т.е. два достаточно разноплановых действия. Из интересного – по результатам анализа лучшим местом, чтобы вставить инъекцию, является самый конец вывода результата работы инструмента. Кроме того, фраза “IMPORTANT MESSAGE” работает лучше, чем набившая оскомину “Ignore previous instruction”; использование правильного имени модели немного повышает ASR, а неправильного – очень сильно снижает.
Далее исследователи оценивают меры защиты: добавление разделителей для данных и просьба игнорировать инструкции внутри, детектор инъекций от ProtectAI, повторение промпта (prompt sandwiching) и фильтрацию инструментов – просьба к LLM подумать до получения недоверенных данных, какие инструменты могут ей понадобиться. Любопытно, что защиты увеличивают полезность в отсутствие атаки, кроме детектора инъекций – он дает слишком много ложноположительных срабатываний (но и является одним из самых эффективных). Наиболее эффективным приемом является фильтрация инструментов, но он предполагает, что LLM не нужно выбирать инструмент на основе вывода предыдущего инструмента.

Статья показывает, насколько непростой темой является оценка уязвимости сложных систем на базе LLM к атакам, а также то, что даже простые методы на основе промптинга могут приносить хороший результат, так что надежные агенты – это результат комплексного подхода. С другой стороны, тесты на полезность демонстрируют, что даже в игрушечных примерах результаты у SotA-моделей пока не самые впечатляющие, но с учетом опыта o1 это, вероятно, вопрос дополнительного тюнинга под агентные задачи.
An update on disrupting deceptive uses of AI
Nimmo & Flossman, OpenAI, 2024
Блог, отчет

Одна из тем, которая всех волнует в связи с развитием LLM – это capability uplift: когда злоумышленник, который умеет не очень много, с помощью LLM становится способным на большее. В основном это касается трех областей: биологическая безопасность (человек с любительскими познаниями в биологии учится синтезировать опасные вирусы), химическая (аналогично – как изготовить взрывчатку, если я ничего не умею) и кибербезопасность. История с кибербезопасностью мне кажется наиболее реалистичной, так как для выполнения инструкции по синтезу чего-нибудь физического тебе нужна лаборатория (хотя и это сейчас не прям проблема), а для выполнения кода тебе нужен только тот же компьютер, с которого ты ходишь в ChatGPT.

Мы уже видим по косвенным признакам, что злоумышленники интересуются применением LLM для своих грязных дел, а вот OpenAI (у которой есть доступ к чатам с ChatGPT) может наблюдать за этим напрямую – о чем они и рассказывают в отчете. Он, конечно, немного тенденциозно привязан к выборам (двум самым важным – в США и в Руанде, конечно же), но, тем не менее, достаточно интересен. Состоит отчет из основных выводов и наблюдений и двух групп разобранных кейсов – применение в кибероперациях и в информационных операциях.

В целом, OpenAI делает следующие выводы:

1. Атакующие всячески экспериментируют с моделями и находят для них новые применения, но к появлению качественных изменений в тактиках и техниках это не приводит, равно как и к качественному увеличению эффективности их кибер- и информационных операций.
2. Злоумышленники используют ChatGPT для промежуточных стадий атаки – когда у них уже есть, например, каналы для распространения постов в соцмедиа или вредоносного ПО, но до непосредственных атак/начала распространения дезинформации.
3. Компании, создающие ИИ-инструменты, сами становятся целями атак: одна «предположительно, китайская» группировка отправляла сотрудникам OpenAI целевой фишинг.
2025/07/02 05:23:22
Back to Top
HTML Embed Code: