Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/def_model_train/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
я обучала одну модель@def_model_train P.926
DEF_MODEL_TRAIN Telegram 926
Разгребаю завалы статей, про которые хотела тут написать – Chain of Hindsight Aligns Language Models with Feedback
https://arxiv.org/abs/2302.02676

Очень простая и изящная идея: в RLHF парадигме мы сначала генрируем ответы модели, потом их ранжируют люди, потом на этом учится reward модель, и потом сама LM (например, через PPO). Авторы разумно предполагают, что можно скипнуть часть с reward моделью, и использовать ранжирование напрямую для тюна модели

То есть, если у нас есть два ответа модели на какой-то промпт, A и B, и разметка, что ответ A лучше ответа B, то тренировочный семпл будет: промпт, «bad answer»: B, «good answer»: A. Понятно, что так отранжировать можно больше двух ответов, и не только как плохой/хороший, но и по более информативным качествам. Например, что ответ А более helpful, interesting, accurate, etc. На инференсе модель просят, соответственно, сгенерировать a good/helpful/interesting answer (идея очень похожа на Quark)

Авторы потом показывают, что этот метод ощутимо обходит RLHF и обычный supervised learning на задачах суммаризации и диалога. И что Chain of Hindsight лучше может в итеративное улучшение, когда например в диалоге пользователь просит улучшить или сконкретизировать ответ. Еще приводят данные, что на куче других задач CoH не хуже supervised learning, но с RLHF не сравнивают (that’s sus)

В целом я думаю это может быть хорошим вариантов RLHF бедного человека, так как к PPO в известной степени сложно нормально подобрать гиперпараметры и что-то на нем обучить. Плюс меньше траты на компьют
👍11🤡1



tgoop.com/def_model_train/926
Create:
Last Update:

Разгребаю завалы статей, про которые хотела тут написать – Chain of Hindsight Aligns Language Models with Feedback
https://arxiv.org/abs/2302.02676

Очень простая и изящная идея: в RLHF парадигме мы сначала генрируем ответы модели, потом их ранжируют люди, потом на этом учится reward модель, и потом сама LM (например, через PPO). Авторы разумно предполагают, что можно скипнуть часть с reward моделью, и использовать ранжирование напрямую для тюна модели

То есть, если у нас есть два ответа модели на какой-то промпт, A и B, и разметка, что ответ A лучше ответа B, то тренировочный семпл будет: промпт, «bad answer»: B, «good answer»: A. Понятно, что так отранжировать можно больше двух ответов, и не только как плохой/хороший, но и по более информативным качествам. Например, что ответ А более helpful, interesting, accurate, etc. На инференсе модель просят, соответственно, сгенерировать a good/helpful/interesting answer (идея очень похожа на Quark)

Авторы потом показывают, что этот метод ощутимо обходит RLHF и обычный supervised learning на задачах суммаризации и диалога. И что Chain of Hindsight лучше может в итеративное улучшение, когда например в диалоге пользователь просит улучшить или сконкретизировать ответ. Еще приводят данные, что на куче других задач CoH не хуже supervised learning, но с RLHF не сравнивают (that’s sus)

В целом я думаю это может быть хорошим вариантов RLHF бедного человека, так как к PPO в известной степени сложно нормально подобрать гиперпараметры и что-то на нем обучить. Плюс меньше траты на компьют

BY я обучала одну модель




Share with your friend now:
tgoop.com/def_model_train/926

View MORE
Open in Telegram


Telegram News

Date: |

Channel login must contain 5-32 characters A new window will come up. Enter your channel name and bio. (See the character limits above.) Click “Create.” How to Create a Private or Public Channel on Telegram? Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. The court said the defendant had also incited people to commit public nuisance, with messages calling on them to take part in rallies and demonstrations including at Hong Kong International Airport, to block roads and to paralyse the public transportation system. Various forms of protest promoted on the messaging platform included general strikes, lunchtime protests and silent sit-ins.
from us


Telegram я обучала одну модель
FROM American