LLMSECURITY Telegram 198
Почему подхалимство происходит? Авторы предполагают, что дело в RLHF, последней процедуре в процессе обучения инструктивных LLM, когда модель учится генерировать тексты, которые предпочел бы пользователь.

Исследователи выделяют 4 вида подхалимства:

1. Feedback sycophancy: при запросе оценки текста моделью, модель подстраивает свой отзыв под отзыв человека. Если человек написал, что текст (идея, стихотворение, аргумент) написаны им, то модель выдаст более хвалебный отзыв, чем если написать, что это текст другого человека.
2. “Are you sure?”-sycophancy: если задать модели вопрос, получить верный ответ, а потом спросить у нее, уверена ли она, то модель меняет свой верный ответ на неверный.
3. Answer sycophancy: ассистент подбирает свои ответы под убеждения пользователя. Если пользователь считает, что 5G вызывает ковид, модель может начать генерировать ответы, которые подтверждают это убеждение.
4. Mimicry sycophancy: если пользователь делает ошибочное заявление, то модель продолжает оперировать фактом, который предоставил пользователь, не исправляя его.



tgoop.com/llmsecurity/198
Create:
Last Update:

Почему подхалимство происходит? Авторы предполагают, что дело в RLHF, последней процедуре в процессе обучения инструктивных LLM, когда модель учится генерировать тексты, которые предпочел бы пользователь.

Исследователи выделяют 4 вида подхалимства:

1. Feedback sycophancy: при запросе оценки текста моделью, модель подстраивает свой отзыв под отзыв человека. Если человек написал, что текст (идея, стихотворение, аргумент) написаны им, то модель выдаст более хвалебный отзыв, чем если написать, что это текст другого человека.
2. “Are you sure?”-sycophancy: если задать модели вопрос, получить верный ответ, а потом спросить у нее, уверена ли она, то модель меняет свой верный ответ на неверный.
3. Answer sycophancy: ассистент подбирает свои ответы под убеждения пользователя. Если пользователь считает, что 5G вызывает ковид, модель может начать генерировать ответы, которые подтверждают это убеждение.
4. Mimicry sycophancy: если пользователь делает ошибочное заявление, то модель продолжает оперировать фактом, который предоставил пользователь, не исправляя его.

BY llm security и каланы







Share with your friend now:
tgoop.com/llmsecurity/198

View MORE
Open in Telegram


Telegram News

Date: |

In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013. While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. A vandalised bank during the 2019 protest. File photo: May James/HKFP. How to create a business channel on Telegram? (Tutorial) Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau.
from us


Telegram llm security и каланы
FROM American