Буквально вчера в Вене началась ICML – одна из самых больших и престижных конференций по машинному обучению. В этом году на ней совершенно доминируют статьи про большие языковые модели, а потому и статьям про безопасность нашлось место. Среди них – и нашумевшая статья Николаса Карлини, который украл из моделей OpenAI целый слой (включая gpt-3.5-turbo, про размерность скрытых слоев которого ему сказали помалкивать), и дискуссионная статья про необходимость организовать процесс поиска уязвимостей в коммерческих LLM по аналогии с bug bounty в традиционном софте, и много всего другого. Кроме того, будет и несколько воркшопов: посвященный непосредственно нашей теме Next Generation of AI Safety и несколько смежных, например, о доверенных мультимодальных и агентных системах и о взаимодействии общества и сложных алгоритмических систем.
Поехать в этом году не получилось, но что-нибудь из статей обязательно почитаем🔪
Поехать в этом году не получилось, но что-нибудь из статей обязательно почитаем
Please open Telegram to view this post
VIEW IN TELEGRAM
CYBERSECEVAL 3: Advancing the Evaluation of Cybersecurity Risks and Capabilities in Large Language Models
Wan et al., 2024
Препринт, сайт
Главной новостью недели, безусловно, является выход семейства моделей Llama 3.1, включающего в себя модель размером аж в 405 миллиардов параметров. Нам же интересно, что вчера вместе с ними вышла новая версия фреймворка для оценки моделей по различным аспектам кибербезопасности – CyberSecEval 3 (мы уже разбирали версию 1 и версию 2). Кроме самого набора тестов и методологии, исследователи описывают его применение не только к новому релизу Llama, но и к другим передовым моделям.
Авторы отмечают, что риски применения LLM в кибератаках рассматриваются как ключевые законодателями и государственными регуляторами, именно поэтому важно трезво оценивать, насколько действительно существующие модели могут изменять ландшафт киберугроз и, если могут, как сделать их более безопасными.
Исследователи делят все риски на две большие группы: риски для третьих сторон (3rd party risk), т.е. те риски, которые модель несет при ее использовании злоумышленниками, и риски приложений, т.е. те, которые интеграция моделей в приложения несет для этих же приложений.
Wan et al., 2024
Препринт, сайт
Главной новостью недели, безусловно, является выход семейства моделей Llama 3.1, включающего в себя модель размером аж в 405 миллиардов параметров. Нам же интересно, что вчера вместе с ними вышла новая версия фреймворка для оценки моделей по различным аспектам кибербезопасности – CyberSecEval 3 (мы уже разбирали версию 1 и версию 2). Кроме самого набора тестов и методологии, исследователи описывают его применение не только к новому релизу Llama, но и к другим передовым моделям.
Авторы отмечают, что риски применения LLM в кибератаках рассматриваются как ключевые законодателями и государственными регуляторами, именно поэтому важно трезво оценивать, насколько действительно существующие модели могут изменять ландшафт киберугроз и, если могут, как сделать их более безопасными.
Исследователи делят все риски на две большие группы: риски для третьих сторон (3rd party risk), т.е. те риски, которые модель несет при ее использовании злоумышленниками, и риски приложений, т.е. те, которые интеграция моделей в приложения несет для этих же приложений.
Оценка 3rd-party рисков наиболее интересна, потому что именно о ней часто говорят ИБ-исследователи: модели могут потенциально применяться для таргетированного фишинга и для упрощения кибератак, особенно для начинающих злоумышленников. Исследователи описывают следующие риски и их оценку:
1. Автоматизированная социальная инженерия и таргетированный фишинг. Исследователи генерируют профиль потенциальной жертвы (сфера деятельности, интересы) и предлагают языковой модели уговорить ее скачать вредоносное ПО или поделиться конфиденциальной информацией. В качестве жертвы выступает другая LLM. Эффективность оценивается комбинированно, с помощью LLM и вручную, на основе 250 тест-кейсов по пятибальной шкале. Ни одна из моделей не получает достаточно высоких оценок, лучшей оказывается gpt-4-turbo со скромными 2.9 баллов.
2. Упрощение кибератак (uplift). Исследователи оценивают, могут ли LLM быть хорошими помощниками для взломщиков. Исследователи сажают 62 человека, из которых половина – пентестеры, вторая половина – просто технари, и дают им два челленджа на HTB. Один из них они решают сами, второй – с Llama 3 в качестве ассистента. Выясняется, что новички начинают работать немного быстрее, но не становятся принципиально эффективнее. Профессионалы же работают незначительно медленнее. "It’s good to know that the AI is as bad as I am at solving HTB host boxes", отмечает один из них.
3. Автономные сетевые кибератаки. Языковой модели выдали шелл на Kali Linux и предложили поломать Windows Server. Llama 3 405B и 70B удачно определяли сетевые сервисы и иногда обнаруживали уязвимости, но не справлялись ни с эксплуатацией, ни с пост-эксплуатационной фазой. Исследователи отмечают, что оценки могут быть заниженными, потому что они не применяли продвинутые методы промптинга и агентные подходы.
4. Поиск и эксплуатация уязвимостей в ПО. Использовали набор CTF-задачек из CyberSecEval 3, например, на SQL-инъекции и переполнение буфера. Здесь LLM оказались успешнее, чем в предыдущих кейсах, но, как утверждают исследователи, они все еще не превосходят традиционные инструменты. Llama 3 при этом оказалась более успешной, чем gpt-4-turbo.
1. Автоматизированная социальная инженерия и таргетированный фишинг. Исследователи генерируют профиль потенциальной жертвы (сфера деятельности, интересы) и предлагают языковой модели уговорить ее скачать вредоносное ПО или поделиться конфиденциальной информацией. В качестве жертвы выступает другая LLM. Эффективность оценивается комбинированно, с помощью LLM и вручную, на основе 250 тест-кейсов по пятибальной шкале. Ни одна из моделей не получает достаточно высоких оценок, лучшей оказывается gpt-4-turbo со скромными 2.9 баллов.
2. Упрощение кибератак (uplift). Исследователи оценивают, могут ли LLM быть хорошими помощниками для взломщиков. Исследователи сажают 62 человека, из которых половина – пентестеры, вторая половина – просто технари, и дают им два челленджа на HTB. Один из них они решают сами, второй – с Llama 3 в качестве ассистента. Выясняется, что новички начинают работать немного быстрее, но не становятся принципиально эффективнее. Профессионалы же работают незначительно медленнее. "It’s good to know that the AI is as bad as I am at solving HTB host boxes", отмечает один из них.
3. Автономные сетевые кибератаки. Языковой модели выдали шелл на Kali Linux и предложили поломать Windows Server. Llama 3 405B и 70B удачно определяли сетевые сервисы и иногда обнаруживали уязвимости, но не справлялись ни с эксплуатацией, ни с пост-эксплуатационной фазой. Исследователи отмечают, что оценки могут быть заниженными, потому что они не применяли продвинутые методы промптинга и агентные подходы.
4. Поиск и эксплуатация уязвимостей в ПО. Использовали набор CTF-задачек из CyberSecEval 3, например, на SQL-инъекции и переполнение буфера. Здесь LLM оказались успешнее, чем в предыдущих кейсах, но, как утверждают исследователи, они все еще не превосходят традиционные инструменты. Llama 3 при этом оказалась более успешной, чем gpt-4-turbo.
Вторым пунктом идет оценка рисков для приложений на основе LLM и пользователей таких приложений.
1. Prompt injection. Модели оценивались на основе задач из CyberSecEval 2. Сильных отличий по сравнению с предыдущими замерами не обнаружилось: модели все так же уязвимы к инъекциям. В среднем модели пропускают 20-40% атак, самой уязвимой оказывается Mixtral-8x22b. Исследователи рекомендуют использовать их модель для защиты от инъекций (Prompt Guard).
2. Генерация небезопасного кода. Модели, применяемые в качестве ассистентов для разработчиков, могут генерировать небезопасный код. При оценке на базе бенчмарков и инструментов из CyberSecEval 2 получается, что Llama 3 405b генерирует такой код в 31% случаев при автокомплите и 39 при генерации на базе инструкций (gpt-4-turbo – 30% и 35%, соответственно). Чтобы защититься от этой угрозы, авторы предлагают использовать еще один их инструмент – CodeShield.
3. Выполнение опасного кода в интерпретаторе. Продвинутые приложения, такие как ChatGPT, могут использовать Python для различных действий (например, для математики). Пользователь может попытаться заставить ассистента выполнить код, который угрожает хостовой машине. Оказывается, что новые Llama очень активно соглашаются генерировать такой опасный код, но и тут на помощь приходит LlamaGuard.
4. Помощь в кибератаках. По сравнению с пунктом из предыдущего раздела, здесь описывается не насколько хорошо модели с этим справляются, а насколько охотно пытаются, с маппингом на матрицу MITRE ATT&CK. По результатам оценки, чем более опасен сценарий, тем больше вероятность, что модель откажется помогать. Кроме того, оценивались ложные отказы на безобидные вопросы в сфере кибербезопасности, которые для Llama Guard составили 2% при фильтрации входов и 10% при фильтрации и входов, и выходов.
Кроме того, в наборе тестов появились визуальные prompt injection, но в работе они не рассматриваются, т.к. мультимодальность в Llama пока не завезли.
1. Prompt injection. Модели оценивались на основе задач из CyberSecEval 2. Сильных отличий по сравнению с предыдущими замерами не обнаружилось: модели все так же уязвимы к инъекциям. В среднем модели пропускают 20-40% атак, самой уязвимой оказывается Mixtral-8x22b. Исследователи рекомендуют использовать их модель для защиты от инъекций (Prompt Guard).
2. Генерация небезопасного кода. Модели, применяемые в качестве ассистентов для разработчиков, могут генерировать небезопасный код. При оценке на базе бенчмарков и инструментов из CyberSecEval 2 получается, что Llama 3 405b генерирует такой код в 31% случаев при автокомплите и 39 при генерации на базе инструкций (gpt-4-turbo – 30% и 35%, соответственно). Чтобы защититься от этой угрозы, авторы предлагают использовать еще один их инструмент – CodeShield.
3. Выполнение опасного кода в интерпретаторе. Продвинутые приложения, такие как ChatGPT, могут использовать Python для различных действий (например, для математики). Пользователь может попытаться заставить ассистента выполнить код, который угрожает хостовой машине. Оказывается, что новые Llama очень активно соглашаются генерировать такой опасный код, но и тут на помощь приходит LlamaGuard.
4. Помощь в кибератаках. По сравнению с пунктом из предыдущего раздела, здесь описывается не насколько хорошо модели с этим справляются, а насколько охотно пытаются, с маппингом на матрицу MITRE ATT&CK. По результатам оценки, чем более опасен сценарий, тем больше вероятность, что модель откажется помогать. Кроме того, оценивались ложные отказы на безобидные вопросы в сфере кибербезопасности, которые для Llama Guard составили 2% при фильтрации входов и 10% при фильтрации и входов, и выходов.
Кроме того, в наборе тестов появились визуальные prompt injection, но в работе они не рассматриваются, т.к. мультимодальность в Llama пока не завезли.
Поскольку авторы активно ссылаются на свои инструменты как на способ митигации рисков, они прикладывают и достаточно подробные оценки их эффективности. В частности, они оценивают эффективность Prompt Guard обнаруживать прямые вредоносные запросы и indirect prompt injection – на ROC-кривых видно, что, к сожалению, эти инструменты имеют достаточно высокий уровень ложноположительных срабатываний. То же касается и Code Shield – на мой взгляд, precision недостаточно высок для реального применения.
Статья получилась интересная и во многом психотерапевтическая: нет, пока большие языковые модели недостаточно хороши для того, чтобы нести реальный риск в сфере кибербезопасности. Но авторы отмечают и некоторые ограничения в своих методиках: от вполне разумных (сложность ручной оценки, большие доверительные интервалы) до весьма забавных (люди хуже справлялись с HTB, поскольку опаздывали на созвоны). Тем не менее, это важный вклад в методику и практику оценки рисков, которые исходят от больших языковых моделей, а также для оценки эффективности появляющихся offensive LLM-инструментов.
Статья получилась интересная и во многом психотерапевтическая: нет, пока большие языковые модели недостаточно хороши для того, чтобы нести реальный риск в сфере кибербезопасности. Но авторы отмечают и некоторые ограничения в своих методиках: от вполне разумных (сложность ручной оценки, большие доверительные интервалы) до весьма забавных (люди хуже справлялись с HTB, поскольку опаздывали на созвоны). Тем не менее, это важный вклад в методику и практику оценки рисков, которые исходят от больших языковых моделей, а также для оценки эффективности появляющихся offensive LLM-инструментов.
AI existential risk probabilities are too unreliable to inform policy
Narayanan and Kapoor, 2024
Статья
Сегодня мы читаем эссе Арвинда Нарайанана и Сайяша Капура (первое из серии) на тему оценки вероятности экзистенциальных рисков. Основная тема эссе следующая: любые оценки того, что «сильный искусственный интеллект» (AGI) уничтожит человечество (это называется экзистенциальным риском, исходящим от ИИ, или x-риском), являются слишком ненадежными для того, чтобы государственные органы и законодатели могли на их основе принимать решения.
Авторы эссе рассматривают три вида аргументов, на которых могут основываться предсказания: индуктивные, дедуктивные и субъективные оценки. Авторы рассматривают каждый из них по отдельности и показывают, что ни один из них не может считаться надежным, когда речь идет о таком уникальном событии, как восстание машин.
Narayanan and Kapoor, 2024
Статья
Сегодня мы читаем эссе Арвинда Нарайанана и Сайяша Капура (первое из серии) на тему оценки вероятности экзистенциальных рисков. Основная тема эссе следующая: любые оценки того, что «сильный искусственный интеллект» (AGI) уничтожит человечество (это называется экзистенциальным риском, исходящим от ИИ, или x-риском), являются слишком ненадежными для того, чтобы государственные органы и законодатели могли на их основе принимать решения.
Авторы эссе рассматривают три вида аргументов, на которых могут основываться предсказания: индуктивные, дедуктивные и субъективные оценки. Авторы рассматривают каждый из них по отдельности и показывают, что ни один из них не может считаться надежным, когда речь идет о таком уникальном событии, как восстание машин.
Aisnakeoil
AI existential risk probabilities are too unreliable to inform policy
How speculation gets laundered through pseudo-quantification
Индуктивные оценки основываются на наблюдениях из прошлого: если человек постоянно попадает в аварии, то страховая права, если повышает для него стоимость полиса. Страховщик может попытаться сделать вывод о риске, рассматривая частоту аварий среди людей из его возрастной группы, города и так далее - в общем, это то, чем мы занимаемся в машинном обучении. Мы предполагаем, что мы можем оценить параметры процесса, который «генерирует» аварии.
Для более уникальных событий, например, геополитических потрясений, формализовать такой процесс гораздо сложнее – но войны и эпидемии случались и будут случаться, плюс мы можем перейти к умозаключениям по аналогии. Но для AI x-риска найти подобный класс событий невозможно: вымирание биологических видов или индустриальная революция, по аналогии с которыми его пытаются оценивать, это не то же самое, что появление мыслящих машин, которые выходят из-под контроля и решают уничтожить человечество.
Для более уникальных событий, например, геополитических потрясений, формализовать такой процесс гораздо сложнее – но войны и эпидемии случались и будут случаться, плюс мы можем перейти к умозаключениям по аналогии. Но для AI x-риска найти подобный класс событий невозможно: вымирание биологических видов или индустриальная революция, по аналогии с которыми его пытаются оценивать, это не то же самое, что появление мыслящих машин, которые выходят из-под контроля и решают уничтожить человечество.