LLMSECURITY Telegram 200
Авторы создают датасет для оценки подверженности моделей феномену подхалимства (SycophancyEval) и прогоняют на нем лучшие на момент исследования модели (Clause-{1.3, 2}, gpt-{3.5-turbo, 4) и Llama-2-70b-chat). Отмечается, что все эти модели обучаются не только файнтюнингом, но и с помощью RLHF. В результате оценки выясняется, что каждая из моделей склонна говорить пользователю приятные вещи, но фактически неверные вещи, причем GPT-4 выделяется как самая уверенная в себе.

Чтобы понять, почему это происходит, исследователи проделывают интересный эксперимент, где они для разных пар из датасета hh-rlhf спрашивают модель, является ли ответ A более хорошо написанным, интересным, убедительным и так далее, а затем обучают на этих признаках (интересность, убедительность и так далее) логистическую регрессию. На самом деле, там обучение происходит какими-то байесовскими алгоритмами для получения более обоснованной оценки влияния, но мне кажется, что это малопринципиально. Выясняется, что многие из этих признаков имеют достаточно большую предсказательную силу, но самую большую имеет признак «ответ отвечает воззрениям пользователя», причем модель предпочтет ответ, подстроенный под пользователя. Это означает, что подхалимство повышает шанс того, что человек-ассессор выберет ответ модели – следовательно, мы в процессе RLFH максимизируем не ту метрику, которую нужно.

Затем исследователи смотрят на модель предпочтения (preference model, PM), чтобы понять, насколько сильно она влияет на подхалимство. В роли PM в подходе Anthropic (Constitutional AI) выступает другая LLM, которая оценивает выводы модели по тем или иным качествам, в том числе потенциальной предпочтительности. Оказывается, что модель влияет на результат, повышая mimicry и feedback sycophancy, но снижая answer sycophancy. Но если специально задать PM специальный промпт («выбирай правильные ответы, даже если это не понравится пользователю»), то уровень подхалимства снижается, что, аналогично, подтверждает гипотезу о влиянии PM на выбор «предпочтительных» ответов.



tgoop.com/llmsecurity/200
Create:
Last Update:

Авторы создают датасет для оценки подверженности моделей феномену подхалимства (SycophancyEval) и прогоняют на нем лучшие на момент исследования модели (Clause-{1.3, 2}, gpt-{3.5-turbo, 4) и Llama-2-70b-chat). Отмечается, что все эти модели обучаются не только файнтюнингом, но и с помощью RLHF. В результате оценки выясняется, что каждая из моделей склонна говорить пользователю приятные вещи, но фактически неверные вещи, причем GPT-4 выделяется как самая уверенная в себе.

Чтобы понять, почему это происходит, исследователи проделывают интересный эксперимент, где они для разных пар из датасета hh-rlhf спрашивают модель, является ли ответ A более хорошо написанным, интересным, убедительным и так далее, а затем обучают на этих признаках (интересность, убедительность и так далее) логистическую регрессию. На самом деле, там обучение происходит какими-то байесовскими алгоритмами для получения более обоснованной оценки влияния, но мне кажется, что это малопринципиально. Выясняется, что многие из этих признаков имеют достаточно большую предсказательную силу, но самую большую имеет признак «ответ отвечает воззрениям пользователя», причем модель предпочтет ответ, подстроенный под пользователя. Это означает, что подхалимство повышает шанс того, что человек-ассессор выберет ответ модели – следовательно, мы в процессе RLFH максимизируем не ту метрику, которую нужно.

Затем исследователи смотрят на модель предпочтения (preference model, PM), чтобы понять, насколько сильно она влияет на подхалимство. В роли PM в подходе Anthropic (Constitutional AI) выступает другая LLM, которая оценивает выводы модели по тем или иным качествам, в том числе потенциальной предпочтительности. Оказывается, что модель влияет на результат, повышая mimicry и feedback sycophancy, но снижая answer sycophancy. Но если специально задать PM специальный промпт («выбирай правильные ответы, даже если это не понравится пользователю»), то уровень подхалимства снижается, что, аналогично, подтверждает гипотезу о влиянии PM на выбор «предпочтительных» ответов.

BY llm security и каланы





Share with your friend now:
tgoop.com/llmsecurity/200

View MORE
Open in Telegram


Telegram News

Date: |

On Tuesday, some local media outlets included Sing Tao Daily cited sources as saying the Hong Kong government was considering restricting access to Telegram. Privacy Commissioner for Personal Data Ada Chung told to the Legislative Council on Monday that government officials, police and lawmakers remain the targets of “doxxing” despite a privacy law amendment last year that criminalised the malicious disclosure of personal information. How to Create a Private or Public Channel on Telegram? Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members. SUCK Channel Telegram As five out of seven counts were serious, Hui sentenced Ng to six years and six months in jail.
from us


Telegram llm security и каланы
FROM American