я обучала одну модель@def_model_train P.954

DEF_MODEL_TRAIN Telegram 954

я обучала одну модель

И еще небольшая статья – Large Language Models are not Fair Evaluators
https://arxiv.org/abs/2305.17926

Авторы тут нашли, что если попросить GPT4 / ChatGPT выбрать лучший ответ вслепую, и даже если написать в промте, что не нужно обращать внимание на порядок ответов, все равно у модели будет существенный баес тупо в зависимости от очередности вариантов.

GPT-4 очень предпочитает ответы, стоящие на первом месте, а ChatGPT – на втором. Например, при оценке GPT-4, когда сравнивали Vicuna 13B и ChatGPT, Vicuna выиграла в 66 случаях из 80, просто потому, что ее ответы шли первыми в промте. Что интересно, такого баеса не прослеживается, когда сравнивают модели одного размера – тут Vicuna и Alpaca

Чтобы с этим бороться, авторы предлагают (и показывают улучшения) две простые техники: 1) просить модель-эвалюатора генерить объяснения, почему какой-то ответ лучше, и присваивать ответам какие-нибудь скоры качества. 2) просто менять ответы местами и брать среднее по этим скорам

🔥11

www.tgoop.com/def_model_train/954

2.1K viewsJun 13, 2023 at 12:43

tgoop.com/def_model_train/954

Create: 2023-06-13
Last Update: 2025-12-05 05:12:29

И еще небольшая статья – Large Language Models are not Fair Evaluators
https://arxiv.org/abs/2305.17926

Авторы тут нашли, что если попросить GPT4 / ChatGPT выбрать лучший ответ вслепую, и даже если написать в промте, что не нужно обращать внимание на порядок ответов, все равно у модели будет существенный баес тупо в зависимости от очередности вариантов.

GPT-4 очень предпочитает ответы, стоящие на первом месте, а ChatGPT – на втором. Например, при оценке GPT-4, когда сравнивали Vicuna 13B и ChatGPT, Vicuna выиграла в 66 случаях из 80, просто потому, что ее ответы шли первыми в промте. Что интересно, такого баеса не прослеживается, когда сравнивают модели одного размера – тут Vicuna и Alpaca

Чтобы с этим бороться, авторы предлагают (и показывают улучшения) две простые техники: 1) просить модель-эвалюатора генерить объяснения, почему какой-то ответ лучше, и присваивать ответам какие-нибудь скоры качества. 2) просто менять ответы местами и брать среднее по этим скорам

BY я обучала одну модель

Share with your friend now:
tgoop.com/def_model_train/954

Open in Telegram

Telegram News

Date: 2025-12-05|

The main design elements of your Telegram channel include a name, bio (brief description), and avatar. Your bio should be: Avoid compound hashtags that consist of several words. If you have a hashtag like #marketingnewsinusa, split it into smaller hashtags: “#marketing, #news, #usa. Select “New Channel” In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist. Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members.
from us

Telegram я обучала одну модель
FROM American