я обучала одну модель@def_model

я обучала одну модель

Разгребаю завалы статей, про которые хотела тут написать – Chain of Hindsight Aligns Language Models with Feedback
https://arxiv.org/abs/2302.02676

Очень простая и изящная идея: в RLHF парадигме мы сначала генрируем ответы модели, потом их ранжируют люди, потом на этом учится reward модель, и потом сама LM (например, через PPO). Авторы разумно предполагают, что можно скипнуть часть с reward моделью, и использовать ранжирование напрямую для тюна модели

То есть, если у нас есть два ответа модели на какой-то промпт, A и B, и разметка, что ответ A лучше ответа B, то тренировочный семпл будет: промпт, «bad answer»: B, «good answer»: A. Понятно, что так отранжировать можно больше двух ответов, и не только как плохой/хороший, но и по более информативным качествам. Например, что ответ А более helpful, interesting, accurate, etc. На инференсе модель просят, соответственно, сгенерировать a good/helpful/interesting answer (идея очень похожа на Quark)

Авторы потом показывают, что этот метод ощутимо обходит RLHF и обычный supervised learning на задачах суммаризации и диалога. И что Chain of Hindsight лучше может в итеративное улучшение, когда например в диалоге пользователь просит улучшить или сконкретизировать ответ. Еще приводят данные, что на куче других задач CoH не хуже supervised learning, но с RLHF не сравнивают (that’s sus)

В целом я думаю это может быть хорошим вариантов RLHF бедного человека, так как к PPO в известной степени сложно нормально подобрать гиперпараметры и что-то на нем обучить. Плюс меньше траты на компьют

👍11🤡1

www.tgoop.com/def_model_train/926

3.12K viewsApr 4, 2023 at 08:48

tgoop.com/def_model_train/926

Create: 2023-04-04
Last Update: 2025-12-01 05:26:35

BY я обучала одну модель

Share with your friend now:
tgoop.com/def_model_train/926

Telegram News

Разгребаю завалы статей