NN_FOR_SCIENCE Telegram 2481
SingLoRA — следующий шаг на пути к дешевому Файн-тюнингу

Исследователи из Техниона придумали как удешевить LoRA в ~2 раза

2021: первый «выстрел» LoRA

Когда GPT-3 только научилась писать стихи, выяснилось, что полное дообучение 175-миллиардной сети — удовольствие для дата-центров, а не для энтузиастов. Статья LoRA показала: можно заморозить исходные веса и подкинуть к ним пару маленьких матриц A и B. Так мы адаптируем модель, меняя 0.05 % параметров, что позволяет дообучать большие модели на маленьких карточках.

2023: QLoRA и гонка за VRAM

Следующий шаг — QLoRA. Авторы сжали саму LLM до 4-бит, а поверх добавили всё те же LoRA-адаптеры. Результат: Guanaco-65B дообучается на одной 48 GB A100 и почти догоняет ChatGPT по бенчмаркам.

⛔️ Но всплыла проблема «двух матриц»

Практики заметили: A и B любят «разбегаться» по масштабу. Приходится подбирать два learning-rate или прописывать специальные нормировки; иначе градиенты скачут и метрика пляшет. Об этой же нестабильности предупреждает и сам оригинальный абстракт LoRA.

🎉 2025: выходит SingLoRA

Новая работа SingLoRA: Low-Rank Adaptation Using a Single Matrix предлагает радикальное (и теперь кажущееся очевидным) решение: оставить только одну матрицу A и прибавлять к весам симметричное A*A^T. Половина параметров — половина забот.
Нестабильность убрана: один learning-rate;
Больше качества: LLaMA-7B на MNLI даёт 91 % против 89 % у классической LoRA;
Меньше памяти: адаптер занимает вдвое меньше, значит, в карточку влезает вдвое больше.

Что происходит под капотом

1. Симметрия не мешает. В self-attention матрица для queries и для keys разная, поэтому итоговое QK^T остаётся полноценным, а не «зеркальным».
2. Теория бесконечной ширины доказывает: при обычном LR градиенты не взорваются.

🚀 Как попробовать за вечер

Шаг 1. В коде LoRA замените delta_W = B @ A на
delta_W = (alpha / r) * (A @ A.T)
Шаг 2. Оставьте один LR; warm-up по желанию (авторы берут 1 % шагов).
Шаг 3. При сохранении модели кладите в чек-пойнт только A — всё, адаптер готов.

Итоги

LoRA в 2021-м экономила память, QLoRA в 2023-м экономила ещё больше, а SingLoRA в 2025-м внезапно делает то же самое, убрав половину параметров. Если вы уже привыкли добавлять Adapter-блоки повсюду, самое время протестировать версию «sing».
22🔥16👍8



tgoop.com/nn_for_science/2481
Create:
Last Update:

SingLoRA — следующий шаг на пути к дешевому Файн-тюнингу

Исследователи из Техниона придумали как удешевить LoRA в ~2 раза

2021: первый «выстрел» LoRA

Когда GPT-3 только научилась писать стихи, выяснилось, что полное дообучение 175-миллиардной сети — удовольствие для дата-центров, а не для энтузиастов. Статья LoRA показала: можно заморозить исходные веса и подкинуть к ним пару маленьких матриц A и B. Так мы адаптируем модель, меняя 0.05 % параметров, что позволяет дообучать большие модели на маленьких карточках.

2023: QLoRA и гонка за VRAM

Следующий шаг — QLoRA. Авторы сжали саму LLM до 4-бит, а поверх добавили всё те же LoRA-адаптеры. Результат: Guanaco-65B дообучается на одной 48 GB A100 и почти догоняет ChatGPT по бенчмаркам.

⛔️ Но всплыла проблема «двух матриц»

Практики заметили: A и B любят «разбегаться» по масштабу. Приходится подбирать два learning-rate или прописывать специальные нормировки; иначе градиенты скачут и метрика пляшет. Об этой же нестабильности предупреждает и сам оригинальный абстракт LoRA.

🎉 2025: выходит SingLoRA

Новая работа SingLoRA: Low-Rank Adaptation Using a Single Matrix предлагает радикальное (и теперь кажущееся очевидным) решение: оставить только одну матрицу A и прибавлять к весам симметричное A*A^T. Половина параметров — половина забот.
Нестабильность убрана: один learning-rate;
Больше качества: LLaMA-7B на MNLI даёт 91 % против 89 % у классической LoRA;
Меньше памяти: адаптер занимает вдвое меньше, значит, в карточку влезает вдвое больше.

Что происходит под капотом

1. Симметрия не мешает. В self-attention матрица для queries и для keys разная, поэтому итоговое QK^T остаётся полноценным, а не «зеркальным».
2. Теория бесконечной ширины доказывает: при обычном LR градиенты не взорваются.

🚀 Как попробовать за вечер

Шаг 1. В коде LoRA замените delta_W = B @ A на
delta_W = (alpha / r) * (A @ A.T)
Шаг 2. Оставьте один LR; warm-up по желанию (авторы берут 1 % шагов).
Шаг 3. При сохранении модели кладите в чек-пойнт только A — всё, адаптер готов.

Итоги

LoRA в 2021-м экономила память, QLoRA в 2023-м экономила ещё больше, а SingLoRA в 2025-м внезапно делает то же самое, убрав половину параметров. Если вы уже привыкли добавлять Adapter-блоки повсюду, самое время протестировать версию «sing».

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2481

View MORE
Open in Telegram


Telegram News

Date: |

To view your bio, click the Menu icon and select “View channel info.” Your posting frequency depends on the topic of your channel. If you have a news channel, it’s OK to publish new content every day (or even every hour). For other industries, stick with 2-3 large posts a week. Telegram users themselves will be able to flag and report potentially false content. 3How to create a Telegram channel? But a Telegram statement also said: "Any requests related to political censorship or limiting human rights such as the rights to free speech or assembly are not and will not be considered."
from us


Telegram AI для Всех
FROM American