КПД@quant_prune_distill P.149

КПД

Mixtral of experts
[Блог]

Прогресс в языковых моделях идет насколько быстро, что ни день, то новая SOTA-lm.

Mistral.AI, которые некоторое время назад выкатили LM Mistral, которая несмотря на скромные размеры опередила более крупные версии Llama-2, теперь выкатили уже смесь экспертов, где поменяли одну букву в названии (Mistral / Mixture).

В модели 45B параметров, и на прямом проходе активируются 2 из 8 экспертов (attention блоки задейсвтуются все). И в итоге для каждого сэмпла задействуются 12B параметров - чуть более одной четверти от общего количества.

Модель обладает следующими фичами:
1) хорошо умеет в 🏴󠁧󠁢󠁥󠁮󠁧󠁿, 🇫🇷, 🇮🇹, 🇩🇪, 🇪🇸 языки.
2) обрабатывает контекст до 32k
3) могет неплохо в код и математику

Слой распределяющий по экспертам (обычная линейная проекция) учится вместе с моделью.

Детали обучения - на каких данных, сколько токенов, неизвестны.

Mixtral 8x7B на бенчмарках в основном бьет Llama-2-70b, GPT-3.5. Хоть и в нынешнее время стоит относиться с некоторой осторожностью к подобным заявлениям, ибо неизвестно, какова вероятность, что данные из бенчмарков, или похожие на них, не попадали в pretrain.

Время инференса у модели, как у Llama-2-13b, при этом перформанс на порядок выше на ряде разных доменов.
И вроде бы меньше подвержена biasам и галлюнам.

Похоже, за смесями экспертов и правда будущее, во всяком случае, настолько насколько это обозримо в мире DL, где революции случаются постоянно.

👍6

www.tgoop.com/quant_prune_distill/149

492 viewsedited Dec 11, 2023 at 09:30

tgoop.com/quant_prune_distill/149

Create: 2023-12-11
Last Update: 2025-08-27 08:57:21

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/149

Telegram News

Mixtral of experts