QUANT_PRUNE_DISTILL Telegram 217
Эксперименты

Рассматривают две постановки
1️⃣ Предобучение на С4
2️⃣ Дообучение на GLUE

Обучают на C4 на бюджетах порядка 1-10B токенов, ибо авторы не слишком богатые 💸.

На предобучении GaLore лишь немного уступает стандартному обучению всей модели целиком и заметно опережает ReLoRA. Просто низкоранговые веса работают ожидаемо плохо.

GaLore хорошо совмещается с Adam8bit, давая значительную экономию в памяти и не просаживая качество. Экономия по памяти 63.3% по сравнению с bf16 Adam и 52.3% c 8bit Adam, соответственно.

Основные два параметра у алгоритма - 1️⃣ размерность низкорангового пространства и 2️⃣ частота обновления. Чем больше размерность - тем ближе алгоритм к Adam, но и прожорливее по памяти. Слишком часто обновлять матрицы проекции - вычислительно накладно и не очень хорошо по качеству, слишком редко - дешево, но плохо по качеству. Лучше всего работает обновление раз в ~100 шагов обучения (полагаю оптимум зависит от размера батча) и не увеличивает среднее время на шаг обучения.

Дообучение на GLUE дает примерно то же качество, что и LoRA при том же ранге.

Вывод

По ощущениям, хороший и полезный результат, с серьезными перспективами на практике. Интересно, насколько хорошо предложенный метод сработает на large-scale обучении порядка триллиона токенов. Правда, те, кто могут себе позволить себе обучать на триллионах токенов, имеют в распоряжении не один хост с high-end GPU…
🤔7



tgoop.com/quant_prune_distill/217
Create:
Last Update:

Эксперименты

Рассматривают две постановки
1️⃣ Предобучение на С4
2️⃣ Дообучение на GLUE

Обучают на C4 на бюджетах порядка 1-10B токенов, ибо авторы не слишком богатые 💸.

На предобучении GaLore лишь немного уступает стандартному обучению всей модели целиком и заметно опережает ReLoRA. Просто низкоранговые веса работают ожидаемо плохо.

GaLore хорошо совмещается с Adam8bit, давая значительную экономию в памяти и не просаживая качество. Экономия по памяти 63.3% по сравнению с bf16 Adam и 52.3% c 8bit Adam, соответственно.

Основные два параметра у алгоритма - 1️⃣ размерность низкорангового пространства и 2️⃣ частота обновления. Чем больше размерность - тем ближе алгоритм к Adam, но и прожорливее по памяти. Слишком часто обновлять матрицы проекции - вычислительно накладно и не очень хорошо по качеству, слишком редко - дешево, но плохо по качеству. Лучше всего работает обновление раз в ~100 шагов обучения (полагаю оптимум зависит от размера батча) и не увеличивает среднее время на шаг обучения.

Дообучение на GLUE дает примерно то же качество, что и LoRA при том же ранге.

Вывод

По ощущениям, хороший и полезный результат, с серьезными перспективами на практике. Интересно, насколько хорошо предложенный метод сработает на large-scale обучении порядка триллиона токенов. Правда, те, кто могут себе позволить себе обучать на триллионах токенов, имеют в распоряжении не один хост с high-end GPU…

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/217

View MORE
Open in Telegram


Telegram News

Date: |

The group’s featured image is of a Pepe frog yelling, often referred to as the “REEEEEEE” meme. Pepe the Frog was created back in 2005 by Matt Furie and has since become an internet symbol for meme culture and “degen” culture. How to Create a Private or Public Channel on Telegram? “Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group. Choose quality over quantity. Remember that one high-quality post is better than five short publications of questionable value. During the meeting with TSE Minister Edson Fachin, Perekopsky also mentioned the TSE channel on the platform as one of the firm's key success stories. Launched as part of the company's commitments to tackle the spread of fake news in Brazil, the verified channel has attracted more than 184,000 members in less than a month.
from us


Telegram КПД
FROM American