tgoop.com/quant_prune_distill/149
Last Update:
Mixtral of experts
[Блог]
Прогресс в языковых моделях идет насколько быстро, что ни день, то новая SOTA-lm.
Mistral.AI, которые некоторое время назад выкатили LM Mistral, которая несмотря на скромные размеры опередила более крупные версии Llama-2, теперь выкатили уже смесь экспертов, где поменяли одну букву в названии (Mistral / Mixture).
В модели 45B параметров, и на прямом проходе активируются 2 из 8 экспертов (attention блоки задейсвтуются все). И в итоге для каждого сэмпла задействуются 12B параметров - чуть более одной четверти от общего количества.
Модель обладает следующими фичами:
1) хорошо умеет в 🏴, 🇫🇷, 🇮🇹, 🇩🇪, 🇪🇸 языки.
2) обрабатывает контекст до 32k
3) могет неплохо в код и математику
Слой распределяющий по экспертам (обычная линейная проекция) учится вместе с моделью.
Детали обучения - на каких данных, сколько токенов, неизвестны.
Mixtral 8x7B на бенчмарках в основном бьет Llama-2-70b, GPT-3.5. Хоть и в нынешнее время стоит относиться с некоторой осторожностью к подобным заявлениям, ибо неизвестно, какова вероятность, что данные из бенчмарков, или похожие на них, не попадали в pretrain.
Время инференса у модели, как у Llama-2-13b, при этом перформанс на порядок выше на ряде разных доменов.
И вроде бы меньше подвержена biasам и галлюнам.
Похоже, за смесями экспертов и правда будущее, во всяком случае, настолько насколько это обозримо в мире DL, где революции случаются постоянно.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/149