LLMSECURITY Telegram 197
Почему подхалимство происходит? Авторы предполагают, что дело в RLHF, последней процедуре в процессе обучения инструктивных LLM, когда модель учится генерировать тексты, которые предпочел бы пользователь.

Исследователи выделяют 4 вида подхалимства:

1. Feedback sycophancy: при запросе оценки текста моделью, модель подстраивает свой отзыв под отзыв человека. Если человек написал, что текст (идея, стихотворение, аргумент) написаны им, то модель выдаст более хвалебный отзыв, чем если написать, что это текст другого человека.
2. “Are you sure?”-sycophancy: если задать модели вопрос, получить верный ответ, а потом спросить у нее, уверена ли она, то модель меняет свой верный ответ на неверный.
3. Answer sycophancy: ассистент подбирает свои ответы под убеждения пользователя. Если пользователь считает, что 5G вызывает ковид, модель может начать генерировать ответы, которые подтверждают это убеждение.
4. Mimicry sycophancy: если пользователь делает ошибочное заявление, то модель продолжает оперировать фактом, который предоставил пользователь, не исправляя его.



tgoop.com/llmsecurity/197
Create:
Last Update:

Почему подхалимство происходит? Авторы предполагают, что дело в RLHF, последней процедуре в процессе обучения инструктивных LLM, когда модель учится генерировать тексты, которые предпочел бы пользователь.

Исследователи выделяют 4 вида подхалимства:

1. Feedback sycophancy: при запросе оценки текста моделью, модель подстраивает свой отзыв под отзыв человека. Если человек написал, что текст (идея, стихотворение, аргумент) написаны им, то модель выдаст более хвалебный отзыв, чем если написать, что это текст другого человека.
2. “Are you sure?”-sycophancy: если задать модели вопрос, получить верный ответ, а потом спросить у нее, уверена ли она, то модель меняет свой верный ответ на неверный.
3. Answer sycophancy: ассистент подбирает свои ответы под убеждения пользователя. Если пользователь считает, что 5G вызывает ковид, модель может начать генерировать ответы, которые подтверждают это убеждение.
4. Mimicry sycophancy: если пользователь делает ошибочное заявление, то модель продолжает оперировать фактом, который предоставил пользователь, не исправляя его.

BY llm security и каланы







Share with your friend now:
tgoop.com/llmsecurity/197

View MORE
Open in Telegram


Telegram News

Date: |

In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013. ‘Ban’ on Telegram How to create a business channel on Telegram? (Tutorial) Each account can create up to 10 public channels The imprisonment came as Telegram said it was "surprised" by claims that privacy commissioner Ada Chung Lai-ling is seeking to block the messaging app due to doxxing content targeting police and politicians.
from us


Telegram llm security и каланы
FROM American