tgoop.com/def_model_train/954
Last Update:
И еще небольшая статья – Large Language Models are not Fair Evaluators
https://arxiv.org/abs/2305.17926
Авторы тут нашли, что если попросить GPT4 / ChatGPT выбрать лучший ответ вслепую, и даже если написать в промте, что не нужно обращать внимание на порядок ответов, все равно у модели будет существенный баес тупо в зависимости от очередности вариантов.
GPT-4 очень предпочитает ответы, стоящие на первом месте, а ChatGPT – на втором. Например, при оценке GPT-4, когда сравнивали Vicuna 13B и ChatGPT, Vicuna выиграла в 66 случаях из 80, просто потому, что ее ответы шли первыми в промте. Что интересно, такого баеса не прослеживается, когда сравнивают модели одного размера – тут Vicuna и Alpaca
Чтобы с этим бороться, авторы предлагают (и показывают улучшения) две простые техники: 1) просить модель-эвалюатора генерить объяснения, почему какой-то ответ лучше, и присваивать ответам какие-нибудь скоры качества. 2) просто менять ответы местами и брать среднее по этим скорам
BY я обучала одну модель

Share with your friend now:
tgoop.com/def_model_train/954
