tgoop.com/dlinnlp/1649
Last Update:
Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length
blog.salesforceairesearch.com/xgen/
Команда Salesforce выпустила новую серию опенсорсных моделей модель: XGen.
XGen-7B-4K-base натренирована на 800B токенах с длинной текста 2К, после чего ещё на 400B токенах с длинной 4К
XGen-7B-8K-base — дополнительно натренирована на 300B токенах при длине 8К.
В блогпосте также описывают data mixture: Redpajama (включая статьи с Arxiv) + Wikipedia (оверсемпл x4) + C4 (undersample x0.2) + The Pile (mathematics) + StarCoder.
Другие оперсорсные модели тоже могут обрабатывать последовательности длины 8К, но они никогда не были тренированы на таких длинных текстах. Обычно модельки тренируются на 1К-2К и дальше просто экстраполируют. Но из-за этого страдает качество моделей на текстах длиннее 2К. На проприетарных моделях хорошо видеть этот эффект в ChatGPT-16К, который почти гарантированно забывает все после 8К токенов.
В результате XGen-7B-8K на MMLU обходит LLaMA, OpenLLaMA, Falcon, Redpajama того же размера и Cerebras-13B, Dolly-12B, OPT-13b. Посмотрев на лидербоард MMLU добавлю что также обходит OPT-175B и Bloom, но заметно хуже оригинального GPT-3, CohereCommand-52B и CohereCommand-6B. Хорошо было бы ещё сравниться с недавней MPT-30B которая может быть одной из лучших опенсорсных моделей доступных сейчас.
Но самые интересные результаты конечно на более длинных задачах: на SCROLLS (суммаризация) разрыв между XGen и другими 8B моделями становится очень большим: 5+ поинтов.
Модели доступны на 🤗
BY DL in NLP
Share with your friend now:
tgoop.com/dlinnlp/1649