tgoop.com/dlinnlp/1710
Last Update:
AIF + DPO: Distilling Zephyr and friends
youtube.com/watch?v=cuObPxCOBCw&si
Отличный видос от Sasha Rush о сегодняшних подходах к LM Alignment, конкретно к тому как сделать обычную LM чатботом который хорошо решает ваши задачи.
И что особенно классно, обсуждается то как сделать это в текущих ограничениях opensource без большой команды разметки и с минимизацией требуемых вычислительных ресурсов (спойлер: конечно же это все ещё дорого, неплохо бы иметь пачку GPU)
Короткий пересказ:
1. Маленький seed датасет качественных диалогов
2. Используйте вашу модель (или API) чтобы нагенерить больше диалогов
3. Используйте вашу модель вместо человеков для создания и разметки датасета предпочтений
4. Никакого RL, используйте DPO
Думаю этот рецепт ещё будет меняться в следующем году, но пока что звучит как хороший пересказ текущих best practices
BY DL in NLP
Share with your friend now:
tgoop.com/dlinnlp/1710