DL in NLP@dlinnlp P.1649

DL in NLP

Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length
blog.salesforceairesearch.com/xgen/

Команда Salesforce выпустила новую серию опенсорсных моделей модель: XGen.

XGen-7B-4K-base натренирована на 800B токенах с длинной текста 2К, после чего ещё на 400B токенах с длинной 4К

XGen-7B-8K-base — дополнительно натренирована на 300B токенах при длине 8К.

В блогпосте также описывают data mixture: Redpajama (включая статьи с Arxiv) + Wikipedia (оверсемпл x4) + C4 (undersample x0.2) + The Pile (mathematics) + StarCoder.

Другие оперсорсные модели тоже могут обрабатывать последовательности длины 8К, но они никогда не были тренированы на таких длинных текстах. Обычно модельки тренируются на 1К-2К и дальше просто экстраполируют. Но из-за этого страдает качество моделей на текстах длиннее 2К. На проприетарных моделях хорошо видеть этот эффект в ChatGPT-16К, который почти гарантированно забывает все после 8К токенов.

В результате XGen-7B-8K на MMLU обходит LLaMA, OpenLLaMA, Falcon, Redpajama того же размера и Cerebras-13B, Dolly-12B, OPT-13b. Посмотрев на лидербоард MMLU добавлю что также обходит OPT-175B и Bloom, но заметно хуже оригинального GPT-3, CohereCommand-52B и CohereCommand-6B. Хорошо было бы ещё сравниться с недавней MPT-30B которая может быть одной из лучших опенсорсных моделей доступных сейчас.

Но самые интересные результаты конечно на более длинных задачах: на SCROLLS (суммаризация) разрыв между XGen и другими 8B моделями становится очень большим: 5+ поинтов.

Модели доступны на 🤗

Salesforce AI

Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length

TLDR

We trained a series of 7B LLMs named XGen-7B with standard dense attention on up to 8K sequence length for up to 1.5T tokens. We also fine tune the models on public-domain instructional data. The main take-aways are:

* On standard NLP benchmarks,…

👍23❤8

www.tgoop.com/dlinnlp/1649

6.27K viewsVlad Lialin, Jun 29, 2023 at 14:15

tgoop.com/dlinnlp/1649

Create: 2023-06-29
Last Update: 2025-08-19 20:09:18

BY DL in NLP

Share with your friend now:
tgoop.com/dlinnlp/1649

Telegram News

Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length