tgoop.com/quant_prune_distill/184
Last Update:
Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks (спасибо @milana_shhanukova)
[Статья] [Код]
Введение
Как известно, дообучение на грамотным образом собранных инструкциях позволяет заметно повысить полезность LLM-ок. Для создания широкопрофильного ассистента требуется обучение на широком и разнообразном наборе инструкций. К сожалению, не все модели обладают достаточной емкостью, чтобы впитывать все подаваемое знание через трубочку и на практике происходит catastrophic forgetting при переходе от одного типа инструкций к другому.
Естественным решением проблемы являются смеси экспертов (MoE). Каждый эксперт условно соответствует некоторому домену. В работе Sparse Upcycling наделали реплик FFN слоев, и дообучили, но такой подход, довольно дорогостоящий по памяти для больших моделей.
Метод
Суть метода проста как пробка - раз полноценные FFN слои дорогие - даешь смесь bottleneck экспертов (а-ля LoRA c активацией посередине). И чтобы необучаемые параметры было еще проще уместить на GPU - заквантовать необучаемые параметры в 4 бита как в QLoRA.
Эксперименты
Обучают все хозяйство на смеси SlimORCA, Magicoder, MetaMathQA (520к инструкций в сумме). Обучение длится одну эпоху. В качестве основных моделей берут - Llama-2-7b, Llama-2-13b, Yi-34b (потому что Llama-2-33b не выпустили).
Если я правильно понял, модель дообученная на наборе инструкций c QLoRA - называется Camel, а эксперты со смесью LoRA адаптеров - Camelidae 🐪. Как и в Mixtral - создают 8 экспертов, из которых активируются только 2.
Модель валидируют на разнообразных бенмарчках - MMLU (знания в разных предметных областях), Hellaswag (commonsense reasoning), HumanEval (код), GSM8k (элементарная математика) и др.
Camelidae ожидаемо опережает базовую модель по метрикам, и самая большая модель Camelidae-8×34B выглядит якобы даже сильнее большего Mixtral-8×7B-instruct с плотными экспертами и Llama-2-70-b-chat. Однако, если присмотреться, кажется что разница между Camel и Camelidae не очень-то велика, и вероятно основной прирост от удачного выбора смеси инструкций. Вероятно, в Camelidae больше обучаемых параметров.
Вывод
Смеси экспертов в исходной формулировке или как адаптеры выглядят логичным решением для модели, ориентированной на решение широкого круга задач. Однако в данном случае не очевидно, насколько эффективен новый адаптер, а не данные и постановка эксперимента благоприятствуют хорошим результатам.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/184