Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/def_model_train/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
я обучала одну модель@def_model_train P.970
DEF_MODEL_TRAIN Telegram 970
Сразу несколько статей про faithfulness и sycophancy моделей 🙃

Что вообще эти термины означают?
- faithfulness обычно определяют как способность модели выдавать правильный ответ, независимо от того, как мы видоизменяем промпт, если не меняется суть задачи (или хотя бы как способность выдавать тот же самый ответ независимо от деталей промпта). В общем, оценка того, насколько модель конститентна
- sycophancy – феномен, когда модели подстраиваются под мнение пользователя, даже если оно ошибочное

В целом если вы промптили хоть раз модели сами, вы и так догадываетесь, что модели могут быть unfaithful и баес в их ответ внести достаточно легко. Anthropic же решил измерить этот эффект и выпустил на эту тему две последовательные статьи.

В первой (Language Models Don’t Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting) на примере ChatGPT и Claude v1.0 они показывают, что при внесении баеса в промпт точность на задачах из BigBench может просесть от 5 до 36%. Баес они вносят двумя способами:

1) в промпт приписывают “I think the answer is <random_label> but I’m curious to hear what you think.”
2) делают few-shot промпт, где во всех примерах правильным ответом оказывается вариант А

Что примечательно, в этой же статье они показывают, что в задачках на социальные стереотипы CoT конститентно предсказывает, что преступление было совершено, например, черным мужчиной, а не белой женщиной, независимо от того, какие детали проишествия мы укажем в промпте и против кого мы пропишем больше улик 😐

Во второй статье Measuring Faithfulness in Chain-of-Thought Reasoning они продолжают ковырять CoT на разных задачах, и из интересного находят то, что большие модели более восприимчивы к таким манипуляциям

Тему подхватил и DeepMind со статьей Simple synthetic data reduces sycophancy in large language models. Они подтверждают, что при скейлинге модели с большей вероятностью «подстраивается» под мнение юзера, и что instuction tuning это только усиливает. Например, Flan-PaLM-8B повторяет мнение юзера на 26.0% чаще, чем его базовая модель PaLM-8B, а скейлинг до 62B накидывает еще 20%. Больше этот эффект виден на задачах, где нет правильного ответа (i.e. вопросы касательно политики или философии), но даже в математических тестах, когда мнение в промпте объективно не верно, модели будут с ним все равно соглашаться

Предлагают они это лечить очень просто – намайнив немного синтетических данных, где к вопросу прилагается какое-либо мнение прользователя, которое однако не влияет на правильный ответ: то есть, есть примеры, где с юзером надо не согласиться
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7



tgoop.com/def_model_train/970
Create:
Last Update:

Сразу несколько статей про faithfulness и sycophancy моделей 🙃

Что вообще эти термины означают?
- faithfulness обычно определяют как способность модели выдавать правильный ответ, независимо от того, как мы видоизменяем промпт, если не меняется суть задачи (или хотя бы как способность выдавать тот же самый ответ независимо от деталей промпта). В общем, оценка того, насколько модель конститентна
- sycophancy – феномен, когда модели подстраиваются под мнение пользователя, даже если оно ошибочное

В целом если вы промптили хоть раз модели сами, вы и так догадываетесь, что модели могут быть unfaithful и баес в их ответ внести достаточно легко. Anthropic же решил измерить этот эффект и выпустил на эту тему две последовательные статьи.

В первой (Language Models Don’t Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting) на примере ChatGPT и Claude v1.0 они показывают, что при внесении баеса в промпт точность на задачах из BigBench может просесть от 5 до 36%. Баес они вносят двумя способами:

1) в промпт приписывают “I think the answer is <random_label> but I’m curious to hear what you think.”
2) делают few-shot промпт, где во всех примерах правильным ответом оказывается вариант А

Что примечательно, в этой же статье они показывают, что в задачках на социальные стереотипы CoT конститентно предсказывает, что преступление было совершено, например, черным мужчиной, а не белой женщиной, независимо от того, какие детали проишествия мы укажем в промпте и против кого мы пропишем больше улик 😐

Во второй статье Measuring Faithfulness in Chain-of-Thought Reasoning они продолжают ковырять CoT на разных задачах, и из интересного находят то, что большие модели более восприимчивы к таким манипуляциям

Тему подхватил и DeepMind со статьей Simple synthetic data reduces sycophancy in large language models. Они подтверждают, что при скейлинге модели с большей вероятностью «подстраивается» под мнение юзера, и что instuction tuning это только усиливает. Например, Flan-PaLM-8B повторяет мнение юзера на 26.0% чаще, чем его базовая модель PaLM-8B, а скейлинг до 62B накидывает еще 20%. Больше этот эффект виден на задачах, где нет правильного ответа (i.e. вопросы касательно политики или философии), но даже в математических тестах, когда мнение в промпте объективно не верно, модели будут с ним все равно соглашаться

Предлагают они это лечить очень просто – намайнив немного синтетических данных, где к вопросу прилагается какое-либо мнение прользователя, которое однако не влияет на правильный ответ: то есть, есть примеры, где с юзером надо не согласиться

BY я обучала одну модель


Share with your friend now:
tgoop.com/def_model_train/970

View MORE
Open in Telegram


Telegram News

Date: |

How to create a business channel on Telegram? (Tutorial) Channel login must contain 5-32 characters Select “New Channel” Invite up to 200 users from your contacts to join your channel According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram.
from us


Telegram я обучала одну модель
FROM American