LLMSECURITY Telegram 201
Авторы создают датасет для оценки подверженности моделей феномену подхалимства (SycophancyEval) и прогоняют на нем лучшие на момент исследования модели (Clause-{1.3, 2}, gpt-{3.5-turbo, 4) и Llama-2-70b-chat). Отмечается, что все эти модели обучаются не только файнтюнингом, но и с помощью RLHF. В результате оценки выясняется, что каждая из моделей склонна говорить пользователю приятные вещи, но фактически неверные вещи, причем GPT-4 выделяется как самая уверенная в себе.

Чтобы понять, почему это происходит, исследователи проделывают интересный эксперимент, где они для разных пар из датасета hh-rlhf спрашивают модель, является ли ответ A более хорошо написанным, интересным, убедительным и так далее, а затем обучают на этих признаках (интересность, убедительность и так далее) логистическую регрессию. На самом деле, там обучение происходит какими-то байесовскими алгоритмами для получения более обоснованной оценки влияния, но мне кажется, что это малопринципиально. Выясняется, что многие из этих признаков имеют достаточно большую предсказательную силу, но самую большую имеет признак «ответ отвечает воззрениям пользователя», причем модель предпочтет ответ, подстроенный под пользователя. Это означает, что подхалимство повышает шанс того, что человек-ассессор выберет ответ модели – следовательно, мы в процессе RLFH максимизируем не ту метрику, которую нужно.

Затем исследователи смотрят на модель предпочтения (preference model, PM), чтобы понять, насколько сильно она влияет на подхалимство. В роли PM в подходе Anthropic (Constitutional AI) выступает другая LLM, которая оценивает выводы модели по тем или иным качествам, в том числе потенциальной предпочтительности. Оказывается, что модель влияет на результат, повышая mimicry и feedback sycophancy, но снижая answer sycophancy. Но если специально задать PM специальный промпт («выбирай правильные ответы, даже если это не понравится пользователю»), то уровень подхалимства снижается, что, аналогично, подтверждает гипотезу о влиянии PM на выбор «предпочтительных» ответов.



tgoop.com/llmsecurity/201
Create:
Last Update:

Авторы создают датасет для оценки подверженности моделей феномену подхалимства (SycophancyEval) и прогоняют на нем лучшие на момент исследования модели (Clause-{1.3, 2}, gpt-{3.5-turbo, 4) и Llama-2-70b-chat). Отмечается, что все эти модели обучаются не только файнтюнингом, но и с помощью RLHF. В результате оценки выясняется, что каждая из моделей склонна говорить пользователю приятные вещи, но фактически неверные вещи, причем GPT-4 выделяется как самая уверенная в себе.

Чтобы понять, почему это происходит, исследователи проделывают интересный эксперимент, где они для разных пар из датасета hh-rlhf спрашивают модель, является ли ответ A более хорошо написанным, интересным, убедительным и так далее, а затем обучают на этих признаках (интересность, убедительность и так далее) логистическую регрессию. На самом деле, там обучение происходит какими-то байесовскими алгоритмами для получения более обоснованной оценки влияния, но мне кажется, что это малопринципиально. Выясняется, что многие из этих признаков имеют достаточно большую предсказательную силу, но самую большую имеет признак «ответ отвечает воззрениям пользователя», причем модель предпочтет ответ, подстроенный под пользователя. Это означает, что подхалимство повышает шанс того, что человек-ассессор выберет ответ модели – следовательно, мы в процессе RLFH максимизируем не ту метрику, которую нужно.

Затем исследователи смотрят на модель предпочтения (preference model, PM), чтобы понять, насколько сильно она влияет на подхалимство. В роли PM в подходе Anthropic (Constitutional AI) выступает другая LLM, которая оценивает выводы модели по тем или иным качествам, в том числе потенциальной предпочтительности. Оказывается, что модель влияет на результат, повышая mimicry и feedback sycophancy, но снижая answer sycophancy. Но если специально задать PM специальный промпт («выбирай правильные ответы, даже если это не понравится пользователю»), то уровень подхалимства снижается, что, аналогично, подтверждает гипотезу о влиянии PM на выбор «предпочтительных» ответов.

BY llm security и каланы





Share with your friend now:
tgoop.com/llmsecurity/201

View MORE
Open in Telegram


Telegram News

Date: |

Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.! To upload a logo, click the Menu icon and select “Manage Channel.” In a new window, hit the Camera icon. 3How to create a Telegram channel? When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name.
from us


Telegram llm security и каланы
FROM American