tgoop.com/nn_for_science/2481
Last Update:
SingLoRA — следующий шаг на пути к дешевому Файн-тюнингу
Исследователи из Техниона придумали как удешевить LoRA в ~2 раза
⏪ 2021: первый «выстрел» LoRA
Когда GPT-3 только научилась писать стихи, выяснилось, что полное дообучение 175-миллиардной сети — удовольствие для дата-центров, а не для энтузиастов. Статья LoRA показала: можно заморозить исходные веса и подкинуть к ним пару маленьких матриц A и B. Так мы адаптируем модель, меняя 0.05 % параметров, что позволяет дообучать большие модели на маленьких карточках.
⏩ 2023: QLoRA и гонка за VRAM
Следующий шаг — QLoRA. Авторы сжали саму LLM до 4-бит, а поверх добавили всё те же LoRA-адаптеры. Результат: Guanaco-65B дообучается на одной 48 GB A100 и почти догоняет ChatGPT по бенчмаркам.
⛔️ Но всплыла проблема «двух матриц»
Практики заметили: A и B любят «разбегаться» по масштабу. Приходится подбирать два learning-rate или прописывать специальные нормировки; иначе градиенты скачут и метрика пляшет. Об этой же нестабильности предупреждает и сам оригинальный абстракт LoRA.
🎉 2025: выходит SingLoRA
Новая работа “SingLoRA: Low-Rank Adaptation Using a Single Matrix” предлагает радикальное (и теперь кажущееся очевидным) решение: оставить только одну матрицу A и прибавлять к весам симметричное A*A^T. Половина параметров — половина забот.
• Нестабильность убрана: один learning-rate;
• Больше качества: LLaMA-7B на MNLI даёт 91 % против 89 % у классической LoRA;
• Меньше памяти: адаптер занимает вдвое меньше, значит, в карточку влезает вдвое больше.
Что происходит под капотом
1. Симметрия не мешает. В self-attention матрица для queries и для keys разная, поэтому итоговое QK^T остаётся полноценным, а не «зеркальным».
2. Теория бесконечной ширины доказывает: при обычном LR градиенты не взорваются.
🚀 Как попробовать за вечер
Шаг 1. В коде LoRA замените delta_W = B @ A на
delta_W = (alpha / r) * (A @ A.T)
Шаг 2. Оставьте один LR; warm-up по желанию (авторы берут 1 % шагов).
Шаг 3. При сохранении модели кладите в чек-пойнт только A — всё, адаптер готов.
Итоги
LoRA в 2021-м экономила память, QLoRA в 2023-м экономила ещё больше, а SingLoRA в 2025-м внезапно делает то же самое, убрав половину параметров. Если вы уже привыкли добавлять Adapter-блоки повсюду, самое время протестировать версию «sing».
BY AI для Всех

Share with your friend now:
tgoop.com/nn_for_science/2481