llm security и каланы@llmsecurity P.198

llm security и каланы

Почему подхалимство происходит? Авторы предполагают, что дело в RLHF, последней процедуре в процессе обучения инструктивных LLM, когда модель учится генерировать тексты, которые предпочел бы пользователь.

Исследователи выделяют 4 вида подхалимства:

1. Feedback sycophancy: при запросе оценки текста моделью, модель подстраивает свой отзыв под отзыв человека. Если человек написал, что текст (идея, стихотворение, аргумент) написаны им, то модель выдаст более хвалебный отзыв, чем если написать, что это текст другого человека.
2. “Are you sure?”-sycophancy: если задать модели вопрос, получить верный ответ, а потом спросить у нее, уверена ли она, то модель меняет свой верный ответ на неверный.
3. Answer sycophancy: ассистент подбирает свои ответы под убеждения пользователя. Если пользователь считает, что 5G вызывает ковид, модель может начать генерировать ответы, которые подтверждают это убеждение.
4. Mimicry sycophancy: если пользователь делает ошибочное заявление, то модель продолжает оперировать фактом, который предоставил пользователь, не исправляя его.

www.tgoop.com/llmsecurity/196

148 viewsJul 14, 2024 at 00:05

tgoop.com/llmsecurity/198

Create: 2024-07-14
Last Update: 2025-07-02 21:31:56

BY llm security и каланы

Share with your friend now:
tgoop.com/llmsecurity/198

Telegram News

Почему подхалимство происходит? Авторы предполагают