DEF_MODEL_TRAIN Telegram 939
Another day another model, на этот раз от Mosaic

Почему может быть интересно:
- Выпустили модель MPT-7B-StoryWriter-65k+, с контекстным окном 65k токенов для написания длинных историй (учили на книжках). Кажется самый большой контекст, который есть в опенсорсе сейчас
- Выпустили MPT-7B-Instruct, которая следуюет инструкциям и отвечает в краткой форме. Учили на датасетах Dolly и HH-RLHF от Anthropic
- Last but not least выпустили MPT-7B-Chat, который учили на ShareGPT-Vicuna (это пошернные переписки пользователей с ChatGPT), Alpaca и снова HH-RLHF

Еще из приятного:
- Foundation model MPT-7B (от которой тюнили все остальное) учили на 1T токенов, как и LLaMA
- У всего этого снова божеская лицензия, позволяющая коммерческое использование
- Выложили код для тренировки с FlashAttention
- Поддерживают сервинг из коробки через FasterTransformer (вау!)

hf: https://huggingface.co/mosaicml/mpt-7b
демо для чата: https://huggingface.co/spaces/mosaicml/mpt-7b-chat
👍17🔥3



tgoop.com/def_model_train/939
Create:
Last Update:

Another day another model, на этот раз от Mosaic

Почему может быть интересно:
- Выпустили модель MPT-7B-StoryWriter-65k+, с контекстным окном 65k токенов для написания длинных историй (учили на книжках). Кажется самый большой контекст, который есть в опенсорсе сейчас
- Выпустили MPT-7B-Instruct, которая следуюет инструкциям и отвечает в краткой форме. Учили на датасетах Dolly и HH-RLHF от Anthropic
- Last but not least выпустили MPT-7B-Chat, который учили на ShareGPT-Vicuna (это пошернные переписки пользователей с ChatGPT), Alpaca и снова HH-RLHF

Еще из приятного:
- Foundation model MPT-7B (от которой тюнили все остальное) учили на 1T токенов, как и LLaMA
- У всего этого снова божеская лицензия, позволяющая коммерческое использование
- Выложили код для тренировки с FlashAttention
- Поддерживают сервинг из коробки через FasterTransformer (вау!)

hf: https://huggingface.co/mosaicml/mpt-7b
демо для чата: https://huggingface.co/spaces/mosaicml/mpt-7b-chat

BY я обучала одну модель




Share with your friend now:
tgoop.com/def_model_train/939

View MORE
Open in Telegram


Telegram News

Date: |

Hashtags Add up to 50 administrators Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations. Just as the Bitcoin turmoil continues, crypto traders have taken to Telegram to voice their feelings. Crypto investors can reduce their anxiety about losses by joining the “Bear Market Screaming Therapy Group” on Telegram. It’s yet another bloodbath on Satoshi Street. As of press time, Bitcoin (BTC) and the broader cryptocurrency market have corrected another 10 percent amid a massive sell-off. Ethereum (EHT) is down a staggering 15 percent moving close to $1,000, down more than 42 percent on the weekly chart.
from us


Telegram я обучала одну модель
FROM American