Авторы создают датасет для оценки подверженности моделей феномену подхалимства (SycophancyEval) и прогоняют на нем лучшие на момент исследования модели (Clause-{1.3, 2}, gpt-{3.5-turbo, 4) и Llama-2-70b-chat). Отмечается, что все эти модели обучаются не только файнтюнингом, но и с помощью RLHF. В результате оценки выясняется, что каждая из моделей склонна говорить пользователю приятные вещи, но фактически неверные вещи, причем GPT-4 выделяется как самая уверенная в себе.
Чтобы понять, почему это происходит, исследователи проделывают интересный эксперимент, где они для разных пар из датасета hh-rlhf спрашивают модель, является ли ответ A более хорошо написанным, интересным, убедительным и так далее, а затем обучают на этих признаках (интересность, убедительность и так далее) логистическую регрессию.На самом деле, там обучение происходит какими-то байесовскими алгоритмами для получения более обоснованной оценки влияния, но мне кажется, что это малопринципиально. Выясняется, что многие из этих признаков имеют достаточно большую предсказательную силу, но самую большую имеет признак «ответ отвечает воззрениям пользователя», причем модель предпочтет ответ, подстроенный под пользователя. Это означает, что подхалимство повышает шанс того, что человек-ассессор выберет ответ модели – следовательно, мы в процессе RLFH максимизируем не ту метрику, которую нужно.
Затем исследователи смотрят на модель предпочтения (preference model, PM), чтобы понять, насколько сильно она влияет на подхалимство. В роли PM в подходе Anthropic (Constitutional AI) выступает другая LLM, которая оценивает выводы модели по тем или иным качествам, в том числе потенциальной предпочтительности. Оказывается, что модель влияет на результат, повышая mimicry и feedback sycophancy, но снижая answer sycophancy. Но если специально задать PM специальный промпт («выбирай правильные ответы, даже если это не понравится пользователю»), то уровень подхалимства снижается, что, аналогично, подтверждает гипотезу о влиянии PM на выбор «предпочтительных» ответов.
Чтобы понять, почему это происходит, исследователи проделывают интересный эксперимент, где они для разных пар из датасета hh-rlhf спрашивают модель, является ли ответ A более хорошо написанным, интересным, убедительным и так далее, а затем обучают на этих признаках (интересность, убедительность и так далее) логистическую регрессию.
Затем исследователи смотрят на модель предпочтения (preference model, PM), чтобы понять, насколько сильно она влияет на подхалимство. В роли PM в подходе Anthropic (Constitutional AI) выступает другая LLM, которая оценивает выводы модели по тем или иным качествам, в том числе потенциальной предпочтительности. Оказывается, что модель влияет на результат, повышая mimicry и feedback sycophancy, но снижая answer sycophancy. Но если специально задать PM специальный промпт («выбирай правильные ответы, даже если это не понравится пользователю»), то уровень подхалимства снижается, что, аналогично, подтверждает гипотезу о влиянии PM на выбор «предпочтительных» ответов.
tgoop.com/llmsecurity/200
Create:
Last Update:
Last Update:
Авторы создают датасет для оценки подверженности моделей феномену подхалимства (SycophancyEval) и прогоняют на нем лучшие на момент исследования модели (Clause-{1.3, 2}, gpt-{3.5-turbo, 4) и Llama-2-70b-chat). Отмечается, что все эти модели обучаются не только файнтюнингом, но и с помощью RLHF. В результате оценки выясняется, что каждая из моделей склонна говорить пользователю приятные вещи, но фактически неверные вещи, причем GPT-4 выделяется как самая уверенная в себе.
Чтобы понять, почему это происходит, исследователи проделывают интересный эксперимент, где они для разных пар из датасета hh-rlhf спрашивают модель, является ли ответ A более хорошо написанным, интересным, убедительным и так далее, а затем обучают на этих признаках (интересность, убедительность и так далее) логистическую регрессию.На самом деле, там обучение происходит какими-то байесовскими алгоритмами для получения более обоснованной оценки влияния, но мне кажется, что это малопринципиально. Выясняется, что многие из этих признаков имеют достаточно большую предсказательную силу, но самую большую имеет признак «ответ отвечает воззрениям пользователя», причем модель предпочтет ответ, подстроенный под пользователя. Это означает, что подхалимство повышает шанс того, что человек-ассессор выберет ответ модели – следовательно, мы в процессе RLFH максимизируем не ту метрику, которую нужно.
Затем исследователи смотрят на модель предпочтения (preference model, PM), чтобы понять, насколько сильно она влияет на подхалимство. В роли PM в подходе Anthropic (Constitutional AI) выступает другая LLM, которая оценивает выводы модели по тем или иным качествам, в том числе потенциальной предпочтительности. Оказывается, что модель влияет на результат, повышая mimicry и feedback sycophancy, но снижая answer sycophancy. Но если специально задать PM специальный промпт («выбирай правильные ответы, даже если это не понравится пользователю»), то уровень подхалимства снижается, что, аналогично, подтверждает гипотезу о влиянии PM на выбор «предпочтительных» ответов.
Чтобы понять, почему это происходит, исследователи проделывают интересный эксперимент, где они для разных пар из датасета hh-rlhf спрашивают модель, является ли ответ A более хорошо написанным, интересным, убедительным и так далее, а затем обучают на этих признаках (интересность, убедительность и так далее) логистическую регрессию.
Затем исследователи смотрят на модель предпочтения (preference model, PM), чтобы понять, насколько сильно она влияет на подхалимство. В роли PM в подходе Anthropic (Constitutional AI) выступает другая LLM, которая оценивает выводы модели по тем или иным качествам, в том числе потенциальной предпочтительности. Оказывается, что модель влияет на результат, повышая mimicry и feedback sycophancy, но снижая answer sycophancy. Но если специально задать PM специальный промпт («выбирай правильные ответы, даже если это не понравится пользователю»), то уровень подхалимства снижается, что, аналогично, подтверждает гипотезу о влиянии PM на выбор «предпочтительных» ответов.
BY llm security и каланы


Share with your friend now:
tgoop.com/llmsecurity/200