QUANT_PRUNE_DISTILL Telegram 149
Mixtral of experts
[Блог]

Прогресс в языковых моделях идет насколько быстро, что ни день, то новая SOTA-lm.

Mistral.AI, которые некоторое время назад выкатили LM Mistral, которая несмотря на скромные размеры опередила более крупные версии Llama-2, теперь выкатили уже смесь экспертов, где поменяли одну букву в названии (Mistral / Mixture).

В модели 45B параметров, и на прямом проходе активируются 2 из 8 экспертов (attention блоки задейсвтуются все). И в итоге для каждого сэмпла задействуются 12B параметров - чуть более одной четверти от общего количества.

Модель обладает следующими фичами:
1) хорошо умеет в 🏴󠁧󠁢󠁥󠁮󠁧󠁿, 🇫🇷, 🇮🇹, 🇩🇪, 🇪🇸 языки.
2) обрабатывает контекст до 32k
3) могет неплохо в код и математику

Слой распределяющий по экспертам (обычная линейная проекция) учится вместе с моделью.

Детали обучения - на каких данных, сколько токенов, неизвестны.

Mixtral 8x7B на бенчмарках в основном бьет Llama-2-70b, GPT-3.5. Хоть и в нынешнее время стоит относиться с некоторой осторожностью к подобным заявлениям, ибо неизвестно, какова вероятность, что данные из бенчмарков, или похожие на них, не попадали в pretrain.

Время инференса у модели, как у Llama-2-13b, при этом перформанс на порядок выше на ряде разных доменов.
И вроде бы меньше подвержена biasам и галлюнам.

Похоже, за смесями экспертов и правда будущее, во всяком случае, настолько насколько это обозримо в мире DL, где революции случаются постоянно.
👍6



tgoop.com/quant_prune_distill/149
Create:
Last Update:

Mixtral of experts
[Блог]

Прогресс в языковых моделях идет насколько быстро, что ни день, то новая SOTA-lm.

Mistral.AI, которые некоторое время назад выкатили LM Mistral, которая несмотря на скромные размеры опередила более крупные версии Llama-2, теперь выкатили уже смесь экспертов, где поменяли одну букву в названии (Mistral / Mixture).

В модели 45B параметров, и на прямом проходе активируются 2 из 8 экспертов (attention блоки задейсвтуются все). И в итоге для каждого сэмпла задействуются 12B параметров - чуть более одной четверти от общего количества.

Модель обладает следующими фичами:
1) хорошо умеет в 🏴󠁧󠁢󠁥󠁮󠁧󠁿, 🇫🇷, 🇮🇹, 🇩🇪, 🇪🇸 языки.
2) обрабатывает контекст до 32k
3) могет неплохо в код и математику

Слой распределяющий по экспертам (обычная линейная проекция) учится вместе с моделью.

Детали обучения - на каких данных, сколько токенов, неизвестны.

Mixtral 8x7B на бенчмарках в основном бьет Llama-2-70b, GPT-3.5. Хоть и в нынешнее время стоит относиться с некоторой осторожностью к подобным заявлениям, ибо неизвестно, какова вероятность, что данные из бенчмарков, или похожие на них, не попадали в pretrain.

Время инференса у модели, как у Llama-2-13b, при этом перформанс на порядок выше на ряде разных доменов.
И вроде бы меньше подвержена biasам и галлюнам.

Похоже, за смесями экспертов и правда будущее, во всяком случае, настолько насколько это обозримо в мире DL, где революции случаются постоянно.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/149

View MORE
Open in Telegram


Telegram News

Date: |

3How to create a Telegram channel? Matt Hussey, editorial director at NEAR Protocol also responded to this news with “#meIRL”. Just as you search “Bear Market Screaming” in Telegram, you will see a Pepe frog yelling as the group’s featured image. Each account can create up to 10 public channels 5Telegram Channel avatar size/dimensions How to Create a Private or Public Channel on Telegram?
from us


Telegram КПД
FROM American