AI для Всех@nn_for

AI для Всех

SingLoRA — следующий шаг на пути к дешевому Файн-тюнингу

Исследователи из Техниона придумали как удешевить LoRA в ~2 раза

⏪ 2021: первый «выстрел» LoRA

Когда GPT-3 только научилась писать стихи, выяснилось, что полное дообучение 175-миллиардной сети — удовольствие для дата-центров, а не для энтузиастов. Статья LoRA показала: можно заморозить исходные веса и подкинуть к ним пару маленьких матриц A и B. Так мы адаптируем модель, меняя 0.05 % параметров, что позволяет дообучать большие модели на маленьких карточках.

⏩ 2023: QLoRA и гонка за VRAM

Следующий шаг — QLoRA. Авторы сжали саму LLM до 4-бит, а поверх добавили всё те же LoRA-адаптеры. Результат: Guanaco-65B дообучается на одной 48 GB A100 и почти догоняет ChatGPT по бенчмаркам.

⛔️ Но всплыла проблема «двух матриц»

Практики заметили: A и B любят «разбегаться» по масштабу. Приходится подбирать два learning-rate или прописывать специальные нормировки; иначе градиенты скачут и метрика пляшет. Об этой же нестабильности предупреждает и сам оригинальный абстракт LoRA.

🎉 2025: выходит SingLoRA

Новая работа “SingLoRA: Low-Rank Adaptation Using a Single Matrix ” предлагает радикальное (и теперь кажущееся очевидным) решение: оставить только одну матрицу A и прибавлять к весам симметричное A*A^T. Половина параметров — половина забот.
• Нестабильность убрана: один learning-rate;
• Больше качества: LLaMA-7B на MNLI даёт 91 % против 89 % у классической LoRA;
• Меньше памяти: адаптер занимает вдвое меньше, значит, в карточку влезает вдвое больше.

Что происходит под капотом

1. Симметрия не мешает. В self-attention матрица для queries и для keys разная, поэтому итоговое QK^T остаётся полноценным, а не «зеркальным».
2. Теория бесконечной ширины доказывает: при обычном LR градиенты не взорваются.

🚀 Как попробовать за вечер

Шаг 1. В коде LoRA замените delta_W = B @ A на
delta_W = (alpha / r) * (A @ A.T)
Шаг 2. Оставьте один LR; warm-up по желанию (авторы берут 1 % шагов).
Шаг 3. При сохранении модели кладите в чек-пойнт только A — всё, адаптер готов.

Итоги

LoRA в 2021-м экономила память, QLoRA в 2023-м экономила ещё больше, а SingLoRA в 2025-м внезапно делает то же самое, убрав половину параметров. Если вы уже привыкли добавлять Adapter-блоки повсюду, самое время протестировать версию «sing».

❤22🔥16👍8

www.tgoop.com/nn_for_science/2481

6.24K viewsedited Jul 10 at 06:03

tgoop.com/nn_for_science/2481

Create: 2025-07-10
Last Update: 2025-10-15 16:35:09

BY AI для Всех

Share with your friend now:
tgoop.com/nn_for_science/2481

Telegram News

SingLoRA — следующий шаг на пути к дешевому Файн-тюнингу