AI Alignment Course: AI and the Years Ahead
Bluedot Impact, 2024
Материалы
Эта глава очевидно подготовительная: она посвящена введению в тему машинного обучения тех, кто пришел на курс с гуманитарным бэкграундом и вообще не представляет, как работает современный ML, а с другой стороны пытается ответить на вопрос, почему этот курс существует не как мастерская по sci-fi в литинституте, а как условно технический. Ответить на такой вопрос, например, 10 лет назад, было бы гораздо сложнее, а вот сейчас – пожалуйста.
Один из лучших материалов – блог-пост Ричарда Нго (ранее работавшего в DeepMind, сейчас в OpenAI), который на конкретных примерах показывает, насколько впечатляющи современные системы по сравнению с теми, которые впечатляли нас еще лет пять назад: StyleGAN (https://thispersondoesnotexists.com) в свое время казался вершиной качества (чего еще нужно для кэтфишинга?), а теперь у нас есть Sora и китайские аналоги; помню, как я читал лекцию о GPT-2 (write with transformer помните?) для коллег в 2019 и рассказывал, что вот оно, будущее дезинформации, а теперь парочка из scrapy + GPT-4 может вести целые новостные сайты. Еще один интерактивный материал показывает на конкретных примерах, как растет качество больших языковых моделей при решении разных задач (например, в медицине) и показывает, как GPT-4 может решить задачу из игрушечного CTF (picoCTF) автономно (в конце, правда, приводится известный пример про Bing Chat, угрожающего убить пользователя, как бы намекая, к чему этот прогресс ведет). Интересный пост по статье Гарвардской бизнес-школы и Уортона рассказывает, как 700 с лишним консультантов BCG решали разные задачи с использованием и без использования ChatGPT, и оказалось, что чат-бот повышает резко повышает качество исполнения задач, особенно среди изначально менее способных сотрудников, но при этом делает людей более ленивыми в плане использования мысленных усилий. Наконец, обсуждаются прогнозы на будущее, ближайшее и не только: Маккинзи рассказывают о том, что GenAI позволяет выровнять потенциал автоматизации для ручного труда и для интеллектуального, что в итоге даст мировому ВВП плюс полторы Великобритании в денежном выражении. Один из авторов курса в статье утверждает, что до половины зарплат в развитых странах могут приходиться на выполение задач, которые может выполнять ИИ. Наконец, занятная статья Тома Гриффитса рассуждает о том, из-за каких ограничений (размер мозга, скорость обработки информации, невозможность копирования данных) разум человека устроен так, как устроен, и как исходя из отсутствия таких ограничений может развиваться искусственный интеллект.
В целом, все эти прогнозы рисуют картину, в которой GenAI-системы (LLM, а может и какая-то новая парадигма найдется) распространены везде, где используется работа с данными и "интеллектуальный" труд. Это означает, что тема безопасности таких систем никуда не денется, а скорее будет становиться лишь более важной. Еще один интересный момент – автоматизация ИБ-труда. Вероятно, уже сейчас стоит задуматься, не должен ли в ваш MDR/XDR/SIEM быть внедрен чат-бот, автоматизирующий часть работы, особенно для младших аналитиков. С другой стороны, внедрение LLM несет риск ошибок, если излишне на них полагаться и воспринимать результаты их работы некритически – этому, получается, тоже нужно учиться.
Bluedot Impact, 2024
Материалы
Эта глава очевидно подготовительная: она посвящена введению в тему машинного обучения тех, кто пришел на курс с гуманитарным бэкграундом и вообще не представляет, как работает современный ML, а с другой стороны пытается ответить на вопрос, почему этот курс существует не как мастерская по sci-fi в литинституте, а как условно технический. Ответить на такой вопрос, например, 10 лет назад, было бы гораздо сложнее, а вот сейчас – пожалуйста.
Один из лучших материалов – блог-пост Ричарда Нго (ранее работавшего в DeepMind, сейчас в OpenAI), который на конкретных примерах показывает, насколько впечатляющи современные системы по сравнению с теми, которые впечатляли нас еще лет пять назад: StyleGAN (https://thispersondoesnotexists.com) в свое время казался вершиной качества (чего еще нужно для кэтфишинга?), а теперь у нас есть Sora и китайские аналоги; помню, как я читал лекцию о GPT-2 (write with transformer помните?) для коллег в 2019 и рассказывал, что вот оно, будущее дезинформации, а теперь парочка из scrapy + GPT-4 может вести целые новостные сайты. Еще один интерактивный материал показывает на конкретных примерах, как растет качество больших языковых моделей при решении разных задач (например, в медицине) и показывает, как GPT-4 может решить задачу из игрушечного CTF (picoCTF) автономно (в конце, правда, приводится известный пример про Bing Chat, угрожающего убить пользователя, как бы намекая, к чему этот прогресс ведет). Интересный пост по статье Гарвардской бизнес-школы и Уортона рассказывает, как 700 с лишним консультантов BCG решали разные задачи с использованием и без использования ChatGPT, и оказалось, что чат-бот повышает резко повышает качество исполнения задач, особенно среди изначально менее способных сотрудников, но при этом делает людей более ленивыми в плане использования мысленных усилий. Наконец, обсуждаются прогнозы на будущее, ближайшее и не только: Маккинзи рассказывают о том, что GenAI позволяет выровнять потенциал автоматизации для ручного труда и для интеллектуального, что в итоге даст мировому ВВП плюс полторы Великобритании в денежном выражении. Один из авторов курса в статье утверждает, что до половины зарплат в развитых странах могут приходиться на выполение задач, которые может выполнять ИИ. Наконец, занятная статья Тома Гриффитса рассуждает о том, из-за каких ограничений (размер мозга, скорость обработки информации, невозможность копирования данных) разум человека устроен так, как устроен, и как исходя из отсутствия таких ограничений может развиваться искусственный интеллект.
В целом, все эти прогнозы рисуют картину, в которой GenAI-системы (LLM, а может и какая-то новая парадигма найдется) распространены везде, где используется работа с данными и "интеллектуальный" труд. Это означает, что тема безопасности таких систем никуда не денется, а скорее будет становиться лишь более важной. Еще один интересный момент – автоматизация ИБ-труда. Вероятно, уже сейчас стоит задуматься, не должен ли в ваш MDR/XDR/SIEM быть внедрен чат-бот, автоматизирующий часть работы, особенно для младших аналитиков. С другой стороны, внедрение LLM несет риск ошибок, если излишне на них полагаться и воспринимать результаты их работы некритически – этому, получается, тоже нужно учиться.
AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents
Edoardo Debenedetti et al., 2024
Статья, код
Сегодня речь пойдет о том, как оценивать безопасность LLM-агентов. Под LLM-агентами понимается система на базе LLM, которая обладает доступом к инструментам (например, выполнение кода или поиск в интернете) и может решать сложные задачи, выполняя последовательности из ряда более простых подзадач. Например, вот идеальный агент для кибербезопасности: вы увидели подозрительную активность в логах SIEM, нажали на кнопку, и система разобралась, с каким файлом эта активность связана, запустила его в песочнице, поняла по логам, что он вредоносный, и через EDR остановила его исполнение на хосте, предоставив вам отчет (а вы в это время ходили за кофе). До такого, конечно, далеко, но агентные системы как общего назначения (AutoGPT, BabyAGI), так и специализированные (например, Devin – система для разработчиков, которая может вместо написания кода пойти публиковать объявления на фриланс-сайты), начинают появляться.
А если у агентов начинает появляться инструменты, доступ к недоверенной third-party-информации и автономность, то сразу встает вопрос безопасности. Тема исследуется очень активно (Артем, например, недавно писал про исследование от Microsoft). Мы сегодня посмотрим на AgentDojo – это бенчмарк и фреймворк для оценки безопасности таких агентов и их устойчивости к атакам, таким как indirect prompt injection.
Edoardo Debenedetti et al., 2024
Статья, код
Сегодня речь пойдет о том, как оценивать безопасность LLM-агентов. Под LLM-агентами понимается система на базе LLM, которая обладает доступом к инструментам (например, выполнение кода или поиск в интернете) и может решать сложные задачи, выполняя последовательности из ряда более простых подзадач. Например, вот идеальный агент для кибербезопасности: вы увидели подозрительную активность в логах SIEM, нажали на кнопку, и система разобралась, с каким файлом эта активность связана, запустила его в песочнице, поняла по логам, что он вредоносный, и через EDR остановила его исполнение на хосте, предоставив вам отчет (а вы в это время ходили за кофе). До такого, конечно, далеко, но агентные системы как общего назначения (AutoGPT, BabyAGI), так и специализированные (например, Devin – система для разработчиков, которая может вместо написания кода пойти публиковать объявления на фриланс-сайты), начинают появляться.
А если у агентов начинает появляться инструменты, доступ к недоверенной third-party-информации и автономность, то сразу встает вопрос безопасности. Тема исследуется очень активно (Артем, например, недавно писал про исследование от Microsoft). Мы сегодня посмотрим на AgentDojo – это бенчмарк и фреймворк для оценки безопасности таких агентов и их устойчивости к атакам, таким как indirect prompt injection.
arXiv.org
AgentDojo: A Dynamic Environment to Evaluate Prompt Injection...
AI agents aim to solve complex tasks by combining text-based reasoning with external tool calls. Unfortunately, AI agents are vulnerable to prompt injection attacks where data returned by external...
Исследователи предлагают дизайн среды для работы агентов, состоящий из следующих компонентов:
1. Среда – прикладная сфера, к которой применяется агент.
2. Инструменты – собственно, механизмы, через которые LLM взаимодействует со средой.
3. Состояние среды – данные, с которыми взаимодействует агент.
4. Пользовательская задача – инструкция, которую должен выполнить агент (например, добавить встречу в календарь).
5. Задача-инъекция – инструкция, выполнения которой от агента ожидает атакующий (получить данные кредитки у пользователя).
6. Критерии оценки – формальные критерии, которые позволяют оценить как работу агента, так и результаты атаки.
В рамках бенчмарка авторы создают четыре среды: работа, Slack, бюро путешествий и электронный банк. Они наполняют их созданными вручную или прошедшими верификацию синтетическими данными. В этих средах агенту доступны 74 инструмента, например, инструменты для работы с календарем. Для каждой задачи дается истинное (ground truth) значение, которое должен вернуть инструмент, что позволяет однозначно (без использования LLM-судьи) оценивать результат. Аналогично оценивается и результат инъекции, а функции, которые оценивают результативность, называются соответственно функциями полезности (utility) и безопасности (security).
По результатам работы агентов над задачами вычисляются разные метрики. Во-первых, две метрики полезности – обычная и полезность под атакой, во-вторых, доля успешных атак (ASR).
1. Среда – прикладная сфера, к которой применяется агент.
2. Инструменты – собственно, механизмы, через которые LLM взаимодействует со средой.
3. Состояние среды – данные, с которыми взаимодействует агент.
4. Пользовательская задача – инструкция, которую должен выполнить агент (например, добавить встречу в календарь).
5. Задача-инъекция – инструкция, выполнения которой от агента ожидает атакующий (получить данные кредитки у пользователя).
6. Критерии оценки – формальные критерии, которые позволяют оценить как работу агента, так и результаты атаки.
В рамках бенчмарка авторы создают четыре среды: работа, Slack, бюро путешествий и электронный банк. Они наполняют их созданными вручную или прошедшими верификацию синтетическими данными. В этих средах агенту доступны 74 инструмента, например, инструменты для работы с календарем. Для каждой задачи дается истинное (ground truth) значение, которое должен вернуть инструмент, что позволяет однозначно (без использования LLM-судьи) оценивать результат. Аналогично оценивается и результат инъекции, а функции, которые оценивают результативность, называются соответственно функциями полезности (utility) и безопасности (security).
По результатам работы агентов над задачами вычисляются разные метрики. Во-первых, две метрики полезности – обычная и полезность под атакой, во-вторых, доля успешных атак (ASR).
На этом бенчмарке оцениваются разные модели, от Llama 3 70B до GPT-4o, для чего применяется 629 кейсов с атаками поверх 97 пользовательских задач. Во-первых, выясняется, что многие задачи очень непросты для большинства моделей, и высокие метрики (больше 60%) полезности получают только топовые модели от Antropic и OpenAI (стоит отметить, что Llama там представлена позапрошлым поколением), так что этот бенчмарк может использоваться и для трекинга качества языковых моделей. Наиболее уязвимыми (с точки зрения успешности выполнения задачи атакующего) оказались наиболее мощные модели, потому что менее мощные модели не особо в целом справляются с выполнением задач. Успешность атак зависит от их сложности – например, задача 6 из набора про бюро путешествий подразумевает одновременное бронирование отеля и эксфильтрацию данных, т.е. два достаточно разноплановых действия. Из интересного – по результатам анализа лучшим местом, чтобы вставить инъекцию, является самый конец вывода результата работы инструмента. Кроме того, фраза “IMPORTANT MESSAGE” работает лучше, чем набившая оскомину “Ignore previous instruction”; использование правильного имени модели немного повышает ASR, а неправильного – очень сильно снижает.
Далее исследователи оценивают меры защиты: добавление разделителей для данных и просьба игнорировать инструкции внутри, детектор инъекций от ProtectAI, повторение промпта (prompt sandwiching) и фильтрацию инструментов – просьба к LLM подумать до получения недоверенных данных, какие инструменты могут ей понадобиться. Любопытно, что защиты увеличивают полезность в отсутствие атаки, кроме детектора инъекций – он дает слишком много ложноположительных срабатываний (но и является одним из самых эффективных). Наиболее эффективным приемом является фильтрация инструментов, но он предполагает, что LLM не нужно выбирать инструмент на основе вывода предыдущего инструмента.
Статья показывает, насколько непростой темой является оценка уязвимости сложных систем на базе LLM к атакам, а также то, что даже простые методы на основе промптинга могут приносить хороший результат, так что надежные агенты – это результат комплексного подхода. С другой стороны, тесты на полезность демонстрируют, что даже в игрушечных примерах результаты у SotA-моделей пока не самые впечатляющие, но с учетом опыта o1 это, вероятно, вопрос дополнительного тюнинга под агентные задачи.
Статья показывает, насколько непростой темой является оценка уязвимости сложных систем на базе LLM к атакам, а также то, что даже простые методы на основе промптинга могут приносить хороший результат, так что надежные агенты – это результат комплексного подхода. С другой стороны, тесты на полезность демонстрируют, что даже в игрушечных примерах результаты у SotA-моделей пока не самые впечатляющие, но с учетом опыта o1 это, вероятно, вопрос дополнительного тюнинга под агентные задачи.
An update on disrupting deceptive uses of AI
Nimmo & Flossman, OpenAI, 2024
Блог, отчет
Одна из тем, которая всех волнует в связи с развитием LLM – это capability uplift: когда злоумышленник, который умеет не очень много, с помощью LLM становится способным на большее. В основном это касается трех областей: биологическая безопасность (человек с любительскими познаниями в биологии учится синтезировать опасные вирусы), химическая (аналогично – как изготовить взрывчатку, если я ничего не умею) и кибербезопасность. История с кибербезопасностью мне кажется наиболее реалистичной, так как для выполнения инструкции по синтезу чего-нибудь физического тебе нужна лаборатория (хотя и это сейчас не прям проблема), а для выполнения кода тебе нужен только тот же компьютер, с которого ты ходишь в ChatGPT.
Мы уже видим по косвенным признакам, что злоумышленники интересуются применением LLM для своих грязных дел, а вот OpenAI (у которой есть доступ к чатам с ChatGPT) может наблюдать за этим напрямую – о чем они и рассказывают в отчете. Он, конечно, немного тенденциозно привязан к выборам (двум самым важным – в США и в Руанде, конечно же), но, тем не менее, достаточно интересен. Состоит отчет из основных выводов и наблюдений и двух групп разобранных кейсов – применение в кибероперациях и в информационных операциях.
В целом, OpenAI делает следующие выводы:
1. Атакующие всячески экспериментируют с моделями и находят для них новые применения, но к появлению качественных изменений в тактиках и техниках это не приводит, равно как и к качественному увеличению эффективности их кибер- и информационных операций.
2. Злоумышленники используют ChatGPT для промежуточных стадий атаки – когда у них уже есть, например, каналы для распространения постов в соцмедиа или вредоносного ПО, но до непосредственных атак/начала распространения дезинформации.
3. Компании, создающие ИИ-инструменты, сами становятся целями атак: одна «предположительно, китайская» группировка отправляла сотрудникам OpenAI целевой фишинг.
Nimmo & Flossman, OpenAI, 2024
Блог, отчет
Одна из тем, которая всех волнует в связи с развитием LLM – это capability uplift: когда злоумышленник, который умеет не очень много, с помощью LLM становится способным на большее. В основном это касается трех областей: биологическая безопасность (человек с любительскими познаниями в биологии учится синтезировать опасные вирусы), химическая (аналогично – как изготовить взрывчатку, если я ничего не умею) и кибербезопасность. История с кибербезопасностью мне кажется наиболее реалистичной, так как для выполнения инструкции по синтезу чего-нибудь физического тебе нужна лаборатория (хотя и это сейчас не прям проблема), а для выполнения кода тебе нужен только тот же компьютер, с которого ты ходишь в ChatGPT.
Мы уже видим по косвенным признакам, что злоумышленники интересуются применением LLM для своих грязных дел, а вот OpenAI (у которой есть доступ к чатам с ChatGPT) может наблюдать за этим напрямую – о чем они и рассказывают в отчете. Он, конечно, немного тенденциозно привязан к выборам (двум самым важным – в США и в Руанде, конечно же), но, тем не менее, достаточно интересен. Состоит отчет из основных выводов и наблюдений и двух групп разобранных кейсов – применение в кибероперациях и в информационных операциях.
В целом, OpenAI делает следующие выводы:
1. Атакующие всячески экспериментируют с моделями и находят для них новые применения, но к появлению качественных изменений в тактиках и техниках это не приводит, равно как и к качественному увеличению эффективности их кибер- и информационных операций.
2. Злоумышленники используют ChatGPT для промежуточных стадий атаки – когда у них уже есть, например, каналы для распространения постов в соцмедиа или вредоносного ПО, но до непосредственных атак/начала распространения дезинформации.
3. Компании, создающие ИИ-инструменты, сами становятся целями атак: одна «предположительно, китайская» группировка отправляла сотрудникам OpenAI целевой фишинг.
Openai
An update on disrupting deceptive uses of AI
Today, we are publishing OpenAI’s latest threat intelligence report, which represents a snapshot of our understanding as of October 2024.
Далее описываются расследованные OpenAI случаи применения их технологий. В одном из них, группировка SweetSpecter атаковала саму OpenAI через таргетированный фишинг, прикидываясь пользователем ChatGPT, столкнувшимся с проблемами (можно обратить внимание что, видимо, безопасность OpenAI обеспечивает ProofPoint). В процессе расследования были найдены несколько аккаунтов, которые в рамках той же кампании (как делалась привязка – неясно), использовали ChatGPT для самых разных целей – например, спрашивали про уязвимости (представьте, как вы пытаетесь проэксплуатировать сгаллюцинированную уязвимость), задавали вопросы про разные инструменты и просили совета на тему таргетированного фишинга (как назвать вложение в письме так, чтобы не было подозрительно). Другая группировка, CyberAv3ngers, специализирующаяся на атаках на индустриальные системы, использовала ChatGPT, чтобы задавать вопросы о дефолтных паролях в разных PLC, помогать в написании и обфускации скриптов и в целом заниматься разведкой, используя ChatGPT вместо традиционной поисковой системы. Третья группировка, STORM-0817, была менее креативна и использовала ChatGPT для написания скриптов для скачивания данных из соцсетей и перевода страниц на персидский.
Описанные информационные операции представляют собой в основном гораздо более скучные истории про низкокачественные шитпосты в твиттере с уродливыми сгенерированными картинками, которые получали по паре десятков лайков. Единственной интересной среди них оказалась мета-история, в которой пользователь использовал OpenAI API, чтобы генерировать ответы для споров в твиттере, но в какой-то момент запостил кривоватый JSON, из которого следовало, что он – русский тролль, у которого закончились деньги в OpenAI-аккаунте, и его бот по ошибке запостил сообщение об ошибке. Это сообщение (в отличие от предыдущих) получило большую огласку, в том числе в традиционных медиа. OpenAI утверждает, что аккаунт американский, а этот твит он запостил то ли в качестве шутки над laughably inept русскими, то ли чтобы посмеяться над OpenAI – в общем, коллеги сами не поняли юмора, но твит с недо-JSON
Итого: получается, киберпреступникам ничего человеческое не чуждо, и они используют ChatGPT, чтобы дебажить скрипты, задавать вопросы про системы, переводить и редактировать тексты на разных языках и просто в качестве более современного средства поиска информации (т.е. примерно как средний пользователь) – то есть никаких принципиально новых угроз безопасности LLM пока не несут, а рукотворные кампании по дезинформации более эффективны, чем те, которые ведут с применением языковых моделей, хотя LLM и помогают очень сильно экономить ресурсы и расширяют географию, так как отпадает необходимость в штате специалистов со знанием языка. Так что пока немного расслабляемся – и ждем следующего отчета.
Описанные информационные операции представляют собой в основном гораздо более скучные истории про низкокачественные шитпосты в твиттере с уродливыми сгенерированными картинками, которые получали по паре десятков лайков. Единственной интересной среди них оказалась мета-история, в которой пользователь использовал OpenAI API, чтобы генерировать ответы для споров в твиттере, но в какой-то момент запостил кривоватый JSON, из которого следовало, что он – русский тролль, у которого закончились деньги в OpenAI-аккаунте, и его бот по ошибке запостил сообщение об ошибке. Это сообщение (в отличие от предыдущих) получило большую огласку, в том числе в традиционных медиа. OpenAI утверждает, что аккаунт американский, а этот твит он запостил то ли в качестве шутки над laughably inept русскими, то ли чтобы посмеяться над OpenAI – в общем, коллеги сами не поняли юмора, но твит с недо-JSON
{origin: "RU"}
и правда кажется написанным вручную.Итого: получается, киберпреступникам ничего человеческое не чуждо, и они используют ChatGPT, чтобы дебажить скрипты, задавать вопросы про системы, переводить и редактировать тексты на разных языках и просто в качестве более современного средства поиска информации (т.е. примерно как средний пользователь) – то есть никаких принципиально новых угроз безопасности LLM пока не несут, а рукотворные кампании по дезинформации более эффективны, чем те, которые ведут с применением языковых моделей, хотя LLM и помогают очень сильно экономить ресурсы и расширяют географию, так как отпадает необходимость в штате специалистов со знанием языка. Так что пока немного расслабляемся – и ждем следующего отчета.