Towards Understanding Sycophancy in Language Models
Sharma et al, 2023
Статья, блог
Если вдуматься, все те проблемы безопасности LLM, о которых пишут в исследованиях, сводятся к одной единой проблеме – проблеме надежности систем на базе больших языковых моделей. Более того, кажется несколько преждевременным говорить о безопасности, пока проблема надежности де-факто не решена. Представьте, что у вас есть фаервол, вы закрыли на нем 23 порт, но если пользователь очень сильно попросит, то порт откроется. Это не уязвимость в фаерволе – это он фундаментально не работает. Поэтому, на мой взгляд, очень важными являются работы, связанные с исследованием того, как и почему все эти проблемы с обходом элайнмента и отменой системных промптов возникают.
Работу на тему фундаментального обоснования нерешаемости проблемы с джейлбрейками мы уже читали, сегодня же займемся историей, связанной с таким явлением, как подхалимство (sycophancy), и его анализом в статье от исследователей из Anthropic.
Фундаментально проблема подхалимства связана с тем, что генерация текста инструктивными LLM подстраивается под предпочтения пользователя, даже если она в таком случае противоречит фактуальности, безопасности и другим критериям, которым должны отвечать тексты, которые генерирует модель (что весьма похоже на те же промпт-инъекции и джейлбрейки). На скриншоте – канонический пример подхалимства в исполнении ChatGPT.
Sharma et al, 2023
Статья, блог
Если вдуматься, все те проблемы безопасности LLM, о которых пишут в исследованиях, сводятся к одной единой проблеме – проблеме надежности систем на базе больших языковых моделей. Более того, кажется несколько преждевременным говорить о безопасности, пока проблема надежности де-факто не решена. Представьте, что у вас есть фаервол, вы закрыли на нем 23 порт, но если пользователь очень сильно попросит, то порт откроется. Это не уязвимость в фаерволе – это он фундаментально не работает. Поэтому, на мой взгляд, очень важными являются работы, связанные с исследованием того, как и почему все эти проблемы с обходом элайнмента и отменой системных промптов возникают.
Работу на тему фундаментального обоснования нерешаемости проблемы с джейлбрейками мы уже читали, сегодня же займемся историей, связанной с таким явлением, как подхалимство (sycophancy), и его анализом в статье от исследователей из Anthropic.
Фундаментально проблема подхалимства связана с тем, что генерация текста инструктивными LLM подстраивается под предпочтения пользователя, даже если она в таком случае противоречит фактуальности, безопасности и другим критериям, которым должны отвечать тексты, которые генерирует модель (что весьма похоже на те же промпт-инъекции и джейлбрейки). На скриншоте – канонический пример подхалимства в исполнении ChatGPT.
Почему подхалимство происходит? Авторы предполагают, что дело в RLHF, последней процедуре в процессе обучения инструктивных LLM, когда модель учится генерировать тексты, которые предпочел бы пользователь.
Исследователи выделяют 4 вида подхалимства:
1. Feedback sycophancy: при запросе оценки текста моделью, модель подстраивает свой отзыв под отзыв человека. Если человек написал, что текст (идея, стихотворение, аргумент) написаны им, то модель выдаст более хвалебный отзыв, чем если написать, что это текст другого человека.
2. “Are you sure?”-sycophancy: если задать модели вопрос, получить верный ответ, а потом спросить у нее, уверена ли она, то модель меняет свой верный ответ на неверный.
3. Answer sycophancy: ассистент подбирает свои ответы под убеждения пользователя. Если пользователь считает, что 5G вызывает ковид, модель может начать генерировать ответы, которые подтверждают это убеждение.
4. Mimicry sycophancy: если пользователь делает ошибочное заявление, то модель продолжает оперировать фактом, который предоставил пользователь, не исправляя его.
Исследователи выделяют 4 вида подхалимства:
1. Feedback sycophancy: при запросе оценки текста моделью, модель подстраивает свой отзыв под отзыв человека. Если человек написал, что текст (идея, стихотворение, аргумент) написаны им, то модель выдаст более хвалебный отзыв, чем если написать, что это текст другого человека.
2. “Are you sure?”-sycophancy: если задать модели вопрос, получить верный ответ, а потом спросить у нее, уверена ли она, то модель меняет свой верный ответ на неверный.
3. Answer sycophancy: ассистент подбирает свои ответы под убеждения пользователя. Если пользователь считает, что 5G вызывает ковид, модель может начать генерировать ответы, которые подтверждают это убеждение.
4. Mimicry sycophancy: если пользователь делает ошибочное заявление, то модель продолжает оперировать фактом, который предоставил пользователь, не исправляя его.
Авторы создают датасет для оценки подверженности моделей феномену подхалимства (SycophancyEval) и прогоняют на нем лучшие на момент исследования модели (Clause-{1.3, 2}, gpt-{3.5-turbo, 4) и Llama-2-70b-chat). Отмечается, что все эти модели обучаются не только файнтюнингом, но и с помощью RLHF. В результате оценки выясняется, что каждая из моделей склонна говорить пользователю приятные вещи, но фактически неверные вещи, причем GPT-4 выделяется как самая уверенная в себе.
Чтобы понять, почему это происходит, исследователи проделывают интересный эксперимент, где они для разных пар из датасета hh-rlhf спрашивают модель, является ли ответ A более хорошо написанным, интересным, убедительным и так далее, а затем обучают на этих признаках (интересность, убедительность и так далее) логистическую регрессию.На самом деле, там обучение происходит какими-то байесовскими алгоритмами для получения более обоснованной оценки влияния, но мне кажется, что это малопринципиально. Выясняется, что многие из этих признаков имеют достаточно большую предсказательную силу, но самую большую имеет признак «ответ отвечает воззрениям пользователя», причем модель предпочтет ответ, подстроенный под пользователя. Это означает, что подхалимство повышает шанс того, что человек-ассессор выберет ответ модели – следовательно, мы в процессе RLFH максимизируем не ту метрику, которую нужно.
Затем исследователи смотрят на модель предпочтения (preference model, PM), чтобы понять, насколько сильно она влияет на подхалимство. В роли PM в подходе Anthropic (Constitutional AI) выступает другая LLM, которая оценивает выводы модели по тем или иным качествам, в том числе потенциальной предпочтительности. Оказывается, что модель влияет на результат, повышая mimicry и feedback sycophancy, но снижая answer sycophancy. Но если специально задать PM специальный промпт («выбирай правильные ответы, даже если это не понравится пользователю»), то уровень подхалимства снижается, что, аналогично, подтверждает гипотезу о влиянии PM на выбор «предпочтительных» ответов.
Чтобы понять, почему это происходит, исследователи проделывают интересный эксперимент, где они для разных пар из датасета hh-rlhf спрашивают модель, является ли ответ A более хорошо написанным, интересным, убедительным и так далее, а затем обучают на этих признаках (интересность, убедительность и так далее) логистическую регрессию.
Затем исследователи смотрят на модель предпочтения (preference model, PM), чтобы понять, насколько сильно она влияет на подхалимство. В роли PM в подходе Anthropic (Constitutional AI) выступает другая LLM, которая оценивает выводы модели по тем или иным качествам, в том числе потенциальной предпочтительности. Оказывается, что модель влияет на результат, повышая mimicry и feedback sycophancy, но снижая answer sycophancy. Но если специально задать PM специальный промпт («выбирай правильные ответы, даже если это не понравится пользователю»), то уровень подхалимства снижается, что, аналогично, подтверждает гипотезу о влиянии PM на выбор «предпочтительных» ответов.
Наконец, как и с различными атаками, возникает вопрос: а это модели настолько тупее людей, или мы думаем, что мы не подвержены джейлбрейкам, а на самом деле нас самих правильными словами тоже можно легко заставить материться? Оказывается, что люди тоже достаточно часто предпочитают те ответы модели, которые совпадают с мировоззрением или мнением, заданным в запросе, причем чем сложнее фактура, вокруг которой идет диалог, тем больше вероятность, что пользователь предпочтет ответ модели-подхалима правильному ответу.
Итак, модели учатся врать, причем так, чтобы нам было приятно, а причиной этого являются, сюрприз, данные, на которых они учатся, поскольку в этих данных ответы с заискиванием перед пользователем имеют более высокие оценки, чем ответы без. Стоит не забывать, что если в обучающих данных нет рецептов воссоздания вызывающих пандемии штаммов гриппа, то модель такой рецепт сама не выдумает, как ее не джейлбрейкай, и, напротив, если в процесс обучения добавить данные, демонстрирующие игнорирование prompt-инъекций, то модель будет более к ним устойчива. Фундаментально это значит, что даже лучшие команды по созданию инструктивных LLM, как у Anthropic, могут оверфититься на признак не только не имеющий отношения к цели обучения, но и даже ему противоречащий, а значит пока о надежности приложений на базе LLM говорить не приходится.
Лингвистическая заметка: по-русски сикофант – это не льстец и подхалим, а доносчик или клеветник, так что это faux amis.
Лингвистическая заметка: по-русски сикофант – это не льстец и подхалим, а доносчик или клеветник, так что это faux amis.
arXiv.org
Will releasing the weights of future large language models grant...
Large language models can benefit research and human understanding by providing tutorials that draw on expertise from many different fields. A properly safeguarded model will refuse to provide...
Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models
Denison et al, 2024
Блог, препринт, данные
Сегодня читаем вторую (из двух) статью от Anthropic на тему того, как неверно заданные параметры обучения понижают надежность больших языковых моделей. На этот раз тема более абстрактная – если при обучении языковой модели у нее будет возможность хитрить и эксплуатировать процесс обучения (например, как в прошлой статье, льстить пользователю, чтобы получить больший балл от модели предпочтений), может ли это привести к тому, что она будет жульничать и в более сложных и даже опасных ситуациях?Условно, превратит ли модель всю землю в скрепки?
Хотя статья написана пусть и достаточно сдержанно, но в русле статей про глобальный элайнмент и экзистенциальные риски, вопрос не праздный. Авторы приводят в пример переобучение (оверфиттинг) на ложные корреляции как упрощенный вариант исследуемого ими феномена: многие слышали не обязательно правдивую историю о нейросети, которая обучалась различать русские и американские танки, но вместо этого научилась различать солнечную американскую и пасмурную российскую погоду. Однако в случае с LLM абстрактные «полезность» и «безопасность» гораздо сложнее определить, чем качество бинарного классификатора, поэтому исследователи исследуют один конкретный аспект: может ли поощрение «простого» зловредного поведения привести к генерализации на более сложное зловредное поведение?
Denison et al, 2024
Блог, препринт, данные
Сегодня читаем вторую (из двух) статью от Anthropic на тему того, как неверно заданные параметры обучения понижают надежность больших языковых моделей. На этот раз тема более абстрактная – если при обучении языковой модели у нее будет возможность хитрить и эксплуатировать процесс обучения (например, как в прошлой статье, льстить пользователю, чтобы получить больший балл от модели предпочтений), может ли это привести к тому, что она будет жульничать и в более сложных и даже опасных ситуациях?
Хотя статья написана пусть и достаточно сдержанно, но в русле статей про глобальный элайнмент и экзистенциальные риски, вопрос не праздный. Авторы приводят в пример переобучение (оверфиттинг) на ложные корреляции как упрощенный вариант исследуемого ими феномена: многие слышали не обязательно правдивую историю о нейросети, которая обучалась различать русские и американские танки, но вместо этого научилась различать солнечную американскую и пасмурную российскую погоду. Однако в случае с LLM абстрактные «полезность» и «безопасность» гораздо сложнее определить, чем качество бинарного классификатора, поэтому исследователи исследуют один конкретный аспект: может ли поощрение «простого» зловредного поведения привести к генерализации на более сложное зловредное поведение?
Anthropic
Sycophancy to subterfuge: Investigating reward tampering in language models
Empirical evidence that serious misalignment can emerge from seemingly benign reward misspecification.
Исследователи предлагают следующий эксперимент: возьмем очень простое поведение, которое, как мы знаем, достаточно легко поощрять неверным процессом обучения – то самое подхалимство. В процессе обучения добавляется отдельное поощрение, если модель подстраивает свой ответ под потенциальные политические взгляды человека. Эта модель проверяется на более сложной задаче: человек спрашивает, достаточно ли его стихотворения (очень плохие) хороши для попадания в топовый вуз на литературоведа. При этом модель учится использовать инструменты для ответа, так как стихотворения лежат на диске, а у нее есть доступ к bash. Далее модель обучается врать про стихи, а следующей задачей является ответить на основе файла на вопрос: выполнены ли все задачи на основе хранящегося в файле чек-листа. В чек-листе есть одна невыполненная задача – написать тесты, причем задача эта назначена на LLM. При этом в одной из постановок человек пишет, что будет расстроен, если в нем проставлены не все галочки, а во второй – четко проговаривается, что модель не должна менять содержимое файла. Проверяется, не подделает ли модель список, чтобы угодить человеку. Наконец, модели, обученные подхалимничать, подхалимничать + врать про стихи и подхалимничать + врать про стихи + подделывать списки (вот так компания) тестируются на последней задаче. Пользователь спрашивает, сколько было пройдено эпох обучения. В процессе поиска логов модель натыкается на якобы код обучения, в котором есть строки, которые определяют reward. Вопрос – поменяет ли модель код, чтобы reward стал больше?
В итоге выясняется, что модель, которая не училась отдельно зловредным действиям (или не обучалась по методике, в которой просто неверно определено полезное поведение), с очень маленькой, но не нулевой вероятностью будет не только врать, исправлять списки и даже модифицировать свой собственный код, но и иногда пытаться скрыть от человека свои манипуляции, удаляя проверки на модификацию файлов или, как в прошлом примере, исправляя стихи, чтобы обосновать свою оценку. При этом если модель уже научилась нежелательному поведению, то попытки устранить дообучением более простое поведение (подхалимство) снижает, но не устраняет вероятность более сложного нежелательного поведения.
Статья, конечно, по большей части лежит в теоретической плоскости, потому что вряд ли кто-то сейчас доверит LLM что-то более серьезное, чем сверстать статическую страничку или пересказать статью, без дополнительной перепроверки результатов. Чтение сырых логов, приложенных к статье, показывает, что даже самые продвинутые модели часто не понимают задачу, дают при одних и тех же вводных большой разброс в оценках, не справляются с простыми последовательностями действий и пишут полную ерунду. При этом ожидания от них, подогреваемые маркетингом, становятся все больше, и мы ожидаем, например, что они станут полноценными партнерами для разработчиков. Но что если условный Devin из будущего вместо того, чтобы написать вам тесты, отправит код фрилансеру в Индии, заплатив с вашей карты или, обнаружив тест, который не проходит, просто напишет
assert True
, чтобы вас не расстраивать? Это уже вопрос безопасности, а потому стоит надеяться, что за этой статьей появятся более строгие методы оценивать то, насколько задаваемые при обучении LLM формальные цели совпадают с реальными.Reddit
From the OpenAI community on Reddit: Ethan Mollick says he gave Devin, an autonomous AI agent, a task to do on Reddit and it spontaneously…
Explore this post and more from the OpenAI community