Notice: file_put_contents(): Write of 10036 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 8192 of 18228 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
DL in NLP@dlinnlp P.1649
DLINNLP Telegram 1649
Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length
blog.salesforceairesearch.com/xgen/

Команда Salesforce выпустила новую серию опенсорсных моделей модель: XGen.

XGen-7B-4K-base натренирована на 800B токенах с длинной текста 2К, после чего ещё на 400B токенах с длинной 4К

XGen-7B-8K-base — дополнительно натренирована на 300B токенах при длине 8К.

В блогпосте также описывают data mixture: Redpajama (включая статьи с Arxiv) + Wikipedia (оверсемпл x4) + C4 (undersample x0.2) + The Pile (mathematics) + StarCoder.

Другие оперсорсные модели тоже могут обрабатывать последовательности длины 8К, но они никогда не были тренированы на таких длинных текстах. Обычно модельки тренируются на 1К-2К и дальше просто экстраполируют. Но из-за этого страдает качество моделей на текстах длиннее 2К. На проприетарных моделях хорошо видеть этот эффект в ChatGPT-16К, который почти гарантированно забывает все после 8К токенов.

В результате XGen-7B-8K на MMLU обходит LLaMA, OpenLLaMA, Falcon, Redpajama того же размера и Cerebras-13B, Dolly-12B, OPT-13b. Посмотрев на лидербоард MMLU добавлю что также обходит OPT-175B и Bloom, но заметно хуже оригинального GPT-3, CohereCommand-52B и CohereCommand-6B. Хорошо было бы ещё сравниться с недавней MPT-30B которая может быть одной из лучших опенсорсных моделей доступных сейчас.

Но самые интересные результаты конечно на более длинных задачах: на SCROLLS (суммаризация) разрыв между XGen и другими 8B моделями становится очень большим: 5+ поинтов.

Модели доступны на 🤗
👍238



tgoop.com/dlinnlp/1649
Create:
Last Update:

Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length
blog.salesforceairesearch.com/xgen/

Команда Salesforce выпустила новую серию опенсорсных моделей модель: XGen.

XGen-7B-4K-base натренирована на 800B токенах с длинной текста 2К, после чего ещё на 400B токенах с длинной 4К

XGen-7B-8K-base — дополнительно натренирована на 300B токенах при длине 8К.

В блогпосте также описывают data mixture: Redpajama (включая статьи с Arxiv) + Wikipedia (оверсемпл x4) + C4 (undersample x0.2) + The Pile (mathematics) + StarCoder.

Другие оперсорсные модели тоже могут обрабатывать последовательности длины 8К, но они никогда не были тренированы на таких длинных текстах. Обычно модельки тренируются на 1К-2К и дальше просто экстраполируют. Но из-за этого страдает качество моделей на текстах длиннее 2К. На проприетарных моделях хорошо видеть этот эффект в ChatGPT-16К, который почти гарантированно забывает все после 8К токенов.

В результате XGen-7B-8K на MMLU обходит LLaMA, OpenLLaMA, Falcon, Redpajama того же размера и Cerebras-13B, Dolly-12B, OPT-13b. Посмотрев на лидербоард MMLU добавлю что также обходит OPT-175B и Bloom, но заметно хуже оригинального GPT-3, CohereCommand-52B и CohereCommand-6B. Хорошо было бы ещё сравниться с недавней MPT-30B которая может быть одной из лучших опенсорсных моделей доступных сейчас.

Но самые интересные результаты конечно на более длинных задачах: на SCROLLS (суммаризация) разрыв между XGen и другими 8B моделями становится очень большим: 5+ поинтов.

Модели доступны на 🤗

BY DL in NLP


Share with your friend now:
tgoop.com/dlinnlp/1649

View MORE
Open in Telegram


Telegram News

Date: |

To view your bio, click the Menu icon and select “View channel info.” End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. Activate up to 20 bots While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. Just as the Bitcoin turmoil continues, crypto traders have taken to Telegram to voice their feelings. Crypto investors can reduce their anxiety about losses by joining the “Bear Market Screaming Therapy Group” on Telegram.
from us


Telegram DL in NLP
FROM American