tgoop.com/def_model_train/932
Last Update:
Статья с немного underwhelming названием LongForm: Optimizing Instruction Tuning for Long Text Generation with Corpus Extraction
https://arxiv.org/pdf/2304.08460.pdf
По сути тут реализовали идею, которая давно витала в воздухе – зачем собирать human instructions, если можно брать из корпусов куски текста и просить LLM (тут GPT-3 обычная) к этому куску текста сгенерировать инструкцию. То есть, если у вас есть кусок текста про развитие LLM, к нему сама LLM генерит инструкцию «опиши развитие LLM за последнее время» и ответом на инструкцию будет сам изначальный кусок текста
При чем, в статье три «стиля» инструкций генерят: обычные инструкции в повелительном наклонениии (опиши/расскажи/объясни/etc), инструкции как какой-то вопрос в чатботе и запросы как в поисковик
Тут конкретно авторы решили не просто куски корпусов брать (С4 и Wiki в основном), но и обязательно большие куски, чтобы модель генерила также довольно развернутые ответы. Имхо длина генерации тут вообще не главый поинт, и тут важнее, что их модели, обученные на таких синтетических инструкциях, вполне побили на бенчмарках предыдущие instruct-модели типа FLAN и Alpaca, даже с большим числом параметров
В общем это хороший proof of concept, как похожая статья ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks
А еще все модели обученные (кроме LLaMA) и сам датасет выложили на HF и гит
BY я обучала одну модель

Share with your friend now:
tgoop.com/def_model_train/932
