DEF_MODEL_TRAIN Telegram 954
И еще небольшая статья – Large Language Models are not Fair Evaluators
https://arxiv.org/abs/2305.17926

Авторы тут нашли, что если попросить GPT4 / ChatGPT выбрать лучший ответ вслепую, и даже если написать в промте, что не нужно обращать внимание на порядок ответов, все равно у модели будет существенный баес тупо в зависимости от очередности вариантов.

GPT-4 очень предпочитает ответы, стоящие на первом месте, а ChatGPT – на втором. Например, при оценке GPT-4, когда сравнивали Vicuna 13B и ChatGPT, Vicuna выиграла в 66 случаях из 80, просто потому, что ее ответы шли первыми в промте. Что интересно, такого баеса не прослеживается, когда сравнивают модели одного размера – тут Vicuna и Alpaca

Чтобы с этим бороться, авторы предлагают (и показывают улучшения) две простые техники: 1) просить модель-эвалюатора генерить объяснения, почему какой-то ответ лучше, и присваивать ответам какие-нибудь скоры качества. 2) просто менять ответы местами и брать среднее по этим скорам
🔥11



tgoop.com/def_model_train/954
Create:
Last Update:

И еще небольшая статья – Large Language Models are not Fair Evaluators
https://arxiv.org/abs/2305.17926

Авторы тут нашли, что если попросить GPT4 / ChatGPT выбрать лучший ответ вслепую, и даже если написать в промте, что не нужно обращать внимание на порядок ответов, все равно у модели будет существенный баес тупо в зависимости от очередности вариантов.

GPT-4 очень предпочитает ответы, стоящие на первом месте, а ChatGPT – на втором. Например, при оценке GPT-4, когда сравнивали Vicuna 13B и ChatGPT, Vicuna выиграла в 66 случаях из 80, просто потому, что ее ответы шли первыми в промте. Что интересно, такого баеса не прослеживается, когда сравнивают модели одного размера – тут Vicuna и Alpaca

Чтобы с этим бороться, авторы предлагают (и показывают улучшения) две простые техники: 1) просить модель-эвалюатора генерить объяснения, почему какой-то ответ лучше, и присваивать ответам какие-нибудь скоры качества. 2) просто менять ответы местами и брать среднее по этим скорам

BY я обучала одну модель




Share with your friend now:
tgoop.com/def_model_train/954

View MORE
Open in Telegram


Telegram News

Date: |

The main design elements of your Telegram channel include a name, bio (brief description), and avatar. Your bio should be: Avoid compound hashtags that consist of several words. If you have a hashtag like #marketingnewsinusa, split it into smaller hashtags: “#marketing, #news, #usa. Select “New Channel” In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist. Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members.
from us


Telegram я обучала одну модель
FROM American