QUANT_PRUNE_DISTILL Telegram 249
Релиз 🦙3 таки не оказался 18-апрельской шуткой. Выпустили ровно спустя 8 месяцев после 2-ой версии.

Что известно на данный момент.

Обучение
1️⃣ 15 T токенов на обучении (в 7 раз больше, чем у Llama-2)
2️⃣ 8к контекстное окно
3️⃣ 95% обучающей выборки на английском, и остальные 5% - на других 30 языцех
4️⃣ Instruction-finetuning включает SFT, DPO, PPO

Модель
1️⃣ Архитектура не поменялась (не MoE)
2️⃣ 8B - тоже GQA
3️⃣ Размер токенизатора увеличили до 128к

Метрики
1️⃣ 8B модель бьет модели аналогичного размера (Mistral, Gemma) на бенчах
2️⃣ 70B модель бьет Gemini-Pro-1, 1.5, Mixtral 8x22B и Claude 3 Sonnet

В ходе разработки собрали свой датасет из 1800 разнообразны инструкций на котором замерялись.

Что еще обещают
1️⃣ 400B модель, которая еще учится. Предьявили метрики на чекпоинте от 15 апреля.
2️⃣ Будет техрепорт.
3️⃣ Накатят еще более длинный контекст.

[Блог]
[Коллекция на хабе]
🔥13👍3🕊2



tgoop.com/quant_prune_distill/249
Create:
Last Update:

Релиз 🦙3 таки не оказался 18-апрельской шуткой. Выпустили ровно спустя 8 месяцев после 2-ой версии.

Что известно на данный момент.

Обучение
1️⃣ 15 T токенов на обучении (в 7 раз больше, чем у Llama-2)
2️⃣ 8к контекстное окно
3️⃣ 95% обучающей выборки на английском, и остальные 5% - на других 30 языцех
4️⃣ Instruction-finetuning включает SFT, DPO, PPO

Модель
1️⃣ Архитектура не поменялась (не MoE)
2️⃣ 8B - тоже GQA
3️⃣ Размер токенизатора увеличили до 128к

Метрики
1️⃣ 8B модель бьет модели аналогичного размера (Mistral, Gemma) на бенчах
2️⃣ 70B модель бьет Gemini-Pro-1, 1.5, Mixtral 8x22B и Claude 3 Sonnet

В ходе разработки собрали свой датасет из 1800 разнообразны инструкций на котором замерялись.

Что еще обещают
1️⃣ 400B модель, которая еще учится. Предьявили метрики на чекпоинте от 15 апреля.
2️⃣ Будет техрепорт.
3️⃣ Накатят еще более длинный контекст.

[Блог]
[Коллекция на хабе]

BY КПД




Share with your friend now:
tgoop.com/quant_prune_distill/249

View MORE
Open in Telegram


Telegram News

Date: |

The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said. Joined by Telegram's representative in Brazil, Alan Campos, Perekopsky noted the platform was unable to cater to some of the TSE requests due to the company's operational setup. But Perekopsky added that these requests could be studied for future implementation. A new window will come up. Enter your channel name and bio. (See the character limits above.) Click “Create.” How to build a private or public channel on Telegram? Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day.
from us


Telegram КПД
FROM American