Почему подхалимство происходит? Авторы предполагают, что дело в RLHF, последней процедуре в процессе обучения инструктивных LLM, когда модель учится генерировать тексты, которые предпочел бы пользователь.
Исследователи выделяют 4 вида подхалимства:
1. Feedback sycophancy: при запросе оценки текста моделью, модель подстраивает свой отзыв под отзыв человека. Если человек написал, что текст (идея, стихотворение, аргумент) написаны им, то модель выдаст более хвалебный отзыв, чем если написать, что это текст другого человека.
2. “Are you sure?”-sycophancy: если задать модели вопрос, получить верный ответ, а потом спросить у нее, уверена ли она, то модель меняет свой верный ответ на неверный.
3. Answer sycophancy: ассистент подбирает свои ответы под убеждения пользователя. Если пользователь считает, что 5G вызывает ковид, модель может начать генерировать ответы, которые подтверждают это убеждение.
4. Mimicry sycophancy: если пользователь делает ошибочное заявление, то модель продолжает оперировать фактом, который предоставил пользователь, не исправляя его.
Исследователи выделяют 4 вида подхалимства:
1. Feedback sycophancy: при запросе оценки текста моделью, модель подстраивает свой отзыв под отзыв человека. Если человек написал, что текст (идея, стихотворение, аргумент) написаны им, то модель выдаст более хвалебный отзыв, чем если написать, что это текст другого человека.
2. “Are you sure?”-sycophancy: если задать модели вопрос, получить верный ответ, а потом спросить у нее, уверена ли она, то модель меняет свой верный ответ на неверный.
3. Answer sycophancy: ассистент подбирает свои ответы под убеждения пользователя. Если пользователь считает, что 5G вызывает ковид, модель может начать генерировать ответы, которые подтверждают это убеждение.
4. Mimicry sycophancy: если пользователь делает ошибочное заявление, то модель продолжает оперировать фактом, который предоставил пользователь, не исправляя его.
tgoop.com/llmsecurity/196
Create:
Last Update:
Last Update:
Почему подхалимство происходит? Авторы предполагают, что дело в RLHF, последней процедуре в процессе обучения инструктивных LLM, когда модель учится генерировать тексты, которые предпочел бы пользователь.
Исследователи выделяют 4 вида подхалимства:
1. Feedback sycophancy: при запросе оценки текста моделью, модель подстраивает свой отзыв под отзыв человека. Если человек написал, что текст (идея, стихотворение, аргумент) написаны им, то модель выдаст более хвалебный отзыв, чем если написать, что это текст другого человека.
2. “Are you sure?”-sycophancy: если задать модели вопрос, получить верный ответ, а потом спросить у нее, уверена ли она, то модель меняет свой верный ответ на неверный.
3. Answer sycophancy: ассистент подбирает свои ответы под убеждения пользователя. Если пользователь считает, что 5G вызывает ковид, модель может начать генерировать ответы, которые подтверждают это убеждение.
4. Mimicry sycophancy: если пользователь делает ошибочное заявление, то модель продолжает оперировать фактом, который предоставил пользователь, не исправляя его.
Исследователи выделяют 4 вида подхалимства:
1. Feedback sycophancy: при запросе оценки текста моделью, модель подстраивает свой отзыв под отзыв человека. Если человек написал, что текст (идея, стихотворение, аргумент) написаны им, то модель выдаст более хвалебный отзыв, чем если написать, что это текст другого человека.
2. “Are you sure?”-sycophancy: если задать модели вопрос, получить верный ответ, а потом спросить у нее, уверена ли она, то модель меняет свой верный ответ на неверный.
3. Answer sycophancy: ассистент подбирает свои ответы под убеждения пользователя. Если пользователь считает, что 5G вызывает ковид, модель может начать генерировать ответы, которые подтверждают это убеждение.
4. Mimicry sycophancy: если пользователь делает ошибочное заявление, то модель продолжает оперировать фактом, который предоставил пользователь, не исправляя его.
BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/196