QUANT_PRUNE_DISTILL Telegram 184
Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks (спасибо @milana_shhanukova)
[Статья] [Код]

Введение

Как известно, дообучение на грамотным образом собранных инструкциях позволяет заметно повысить полезность LLM-ок. Для создания широкопрофильного ассистента требуется обучение на широком и разнообразном наборе инструкций. К сожалению, не все модели обладают достаточной емкостью, чтобы впитывать все подаваемое знание через трубочку и на практике происходит catastrophic forgetting при переходе от одного типа инструкций к другому.

Естественным решением проблемы являются смеси экспертов (MoE). Каждый эксперт условно соответствует некоторому домену. В работе Sparse Upcycling наделали реплик FFN слоев, и дообучили, но такой подход, довольно дорогостоящий по памяти для больших моделей.

Метод

Суть метода проста как пробка - раз полноценные FFN слои дорогие - даешь смесь bottleneck экспертов (а-ля LoRA c активацией посередине). И чтобы необучаемые параметры было еще проще уместить на GPU - заквантовать необучаемые параметры в 4 бита как в QLoRA.

Эксперименты

Обучают все хозяйство на смеси SlimORCA, Magicoder, MetaMathQA (520к инструкций в сумме). Обучение длится одну эпоху. В качестве основных моделей берут - Llama-2-7b, Llama-2-13b, Yi-34b (потому что Llama-2-33b не выпустили).

Если я правильно понял, модель дообученная на наборе инструкций c QLoRA - называется Camel, а эксперты со смесью LoRA адаптеров - Camelidae 🐪. Как и в Mixtral - создают 8 экспертов, из которых активируются только 2.

Модель валидируют на разнообразных бенмарчках - MMLU (знания в разных предметных областях), Hellaswag (commonsense reasoning), HumanEval (код), GSM8k (элементарная математика) и др.

Camelidae ожидаемо опережает базовую модель по метрикам, и самая большая модель Camelidae-8×34B выглядит якобы даже сильнее большего Mixtral-8×7B-instruct с плотными экспертами и Llama-2-70-b-chat. Однако, если присмотреться, кажется что разница между Camel и Camelidae не очень-то велика, и вероятно основной прирост от удачного выбора смеси инструкций. Вероятно, в Camelidae больше обучаемых параметров.

Вывод

Смеси экспертов в исходной формулировке или как адаптеры выглядят логичным решением для модели, ориентированной на решение широкого круга задач. Однако в данном случае не очевидно, насколько эффективен новый адаптер, а не данные и постановка эксперимента благоприятствуют хорошим результатам.
🔥7



tgoop.com/quant_prune_distill/184
Create:
Last Update:

Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks (спасибо @milana_shhanukova)
[Статья] [Код]

Введение

Как известно, дообучение на грамотным образом собранных инструкциях позволяет заметно повысить полезность LLM-ок. Для создания широкопрофильного ассистента требуется обучение на широком и разнообразном наборе инструкций. К сожалению, не все модели обладают достаточной емкостью, чтобы впитывать все подаваемое знание через трубочку и на практике происходит catastrophic forgetting при переходе от одного типа инструкций к другому.

Естественным решением проблемы являются смеси экспертов (MoE). Каждый эксперт условно соответствует некоторому домену. В работе Sparse Upcycling наделали реплик FFN слоев, и дообучили, но такой подход, довольно дорогостоящий по памяти для больших моделей.

Метод

Суть метода проста как пробка - раз полноценные FFN слои дорогие - даешь смесь bottleneck экспертов (а-ля LoRA c активацией посередине). И чтобы необучаемые параметры было еще проще уместить на GPU - заквантовать необучаемые параметры в 4 бита как в QLoRA.

Эксперименты

Обучают все хозяйство на смеси SlimORCA, Magicoder, MetaMathQA (520к инструкций в сумме). Обучение длится одну эпоху. В качестве основных моделей берут - Llama-2-7b, Llama-2-13b, Yi-34b (потому что Llama-2-33b не выпустили).

Если я правильно понял, модель дообученная на наборе инструкций c QLoRA - называется Camel, а эксперты со смесью LoRA адаптеров - Camelidae 🐪. Как и в Mixtral - создают 8 экспертов, из которых активируются только 2.

Модель валидируют на разнообразных бенмарчках - MMLU (знания в разных предметных областях), Hellaswag (commonsense reasoning), HumanEval (код), GSM8k (элементарная математика) и др.

Camelidae ожидаемо опережает базовую модель по метрикам, и самая большая модель Camelidae-8×34B выглядит якобы даже сильнее большего Mixtral-8×7B-instruct с плотными экспертами и Llama-2-70-b-chat. Однако, если присмотреться, кажется что разница между Camel и Camelidae не очень-то велика, и вероятно основной прирост от удачного выбора смеси инструкций. Вероятно, в Camelidae больше обучаемых параметров.

Вывод

Смеси экспертов в исходной формулировке или как адаптеры выглядят логичным решением для модели, ориентированной на решение широкого круга задач. Однако в данном случае не очевидно, насколько эффективен новый адаптер, а не данные и постановка эксперимента благоприятствуют хорошим результатам.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/184

View MORE
Open in Telegram


Telegram News

Date: |

1What is Telegram Channels? More>> Telegram Android app: Open the chats list, click the menu icon and select “New Channel.” How to Create a Private or Public Channel on Telegram? Developing social channels based on exchanging a single message isn’t exactly new, of course. Back in 2014, the “Yo” app was launched with the sole purpose of enabling users to send each other the greeting “Yo.”
from us


Telegram КПД
FROM American