tgoop.com/quant_prune_distill/217
Last Update:
Эксперименты
Рассматривают две постановки
1️⃣ Предобучение на С4
2️⃣ Дообучение на GLUE
Обучают на C4 на бюджетах порядка 1-10B токенов, ибо авторы не слишком богатые 💸.
На предобучении GaLore лишь немного уступает стандартному обучению всей модели целиком и заметно опережает ReLoRA. Просто низкоранговые веса работают ожидаемо плохо.
GaLore хорошо совмещается с Adam8bit, давая значительную экономию в памяти и не просаживая качество. Экономия по памяти 63.3% по сравнению с bf16 Adam и 52.3% c 8bit Adam, соответственно.
Основные два параметра у алгоритма - 1️⃣ размерность низкорангового пространства и 2️⃣ частота обновления. Чем больше размерность - тем ближе алгоритм к Adam, но и прожорливее по памяти. Слишком часто обновлять матрицы проекции - вычислительно накладно и не очень хорошо по качеству, слишком редко - дешево, но плохо по качеству. Лучше всего работает обновление раз в ~100 шагов обучения (полагаю оптимум зависит от размера батча) и не увеличивает среднее время на шаг обучения.
Дообучение на GLUE дает примерно то же качество, что и LoRA при том же ранге.
Вывод
По ощущениям, хороший и полезный результат, с серьезными перспективами на практике. Интересно, насколько хорошо предложенный метод сработает на large-scale обучении порядка триллиона токенов. Правда, те, кто могут себе позволить себе обучать на триллионах токенов, имеют в распоряжении не один хост с high-end GPU…
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/217