Notice: file_put_contents(): Write of 16423 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 4096 of 20519 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
AI для Всех@nn_for_science P.2481
NN_FOR_SCIENCE Telegram 2481
SingLoRA — следующий шаг на пути к дешевому Файн-тюнингу

Исследователи из Техниона придумали как удешевить LoRA в ~2 раза

2021: первый «выстрел» LoRA

Когда GPT-3 только научилась писать стихи, выяснилось, что полное дообучение 175-миллиардной сети — удовольствие для дата-центров, а не для энтузиастов. Статья LoRA показала: можно заморозить исходные веса и подкинуть к ним пару маленьких матриц A и B. Так мы адаптируем модель, меняя 0.05 % параметров, что позволяет дообучать большие модели на маленьких карточках.

2023: QLoRA и гонка за VRAM

Следующий шаг — QLoRA. Авторы сжали саму LLM до 4-бит, а поверх добавили всё те же LoRA-адаптеры. Результат: Guanaco-65B дообучается на одной 48 GB A100 и почти догоняет ChatGPT по бенчмаркам.

⛔️ Но всплыла проблема «двух матриц»

Практики заметили: A и B любят «разбегаться» по масштабу. Приходится подбирать два learning-rate или прописывать специальные нормировки; иначе градиенты скачут и метрика пляшет. Об этой же нестабильности предупреждает и сам оригинальный абстракт LoRA.

🎉 2025: выходит SingLoRA

Новая работа SingLoRA: Low-Rank Adaptation Using a Single Matrix предлагает радикальное (и теперь кажущееся очевидным) решение: оставить только одну матрицу A и прибавлять к весам симметричное A*A^T. Половина параметров — половина забот.
Нестабильность убрана: один learning-rate;
Больше качества: LLaMA-7B на MNLI даёт 91 % против 89 % у классической LoRA;
Меньше памяти: адаптер занимает вдвое меньше, значит, в карточку влезает вдвое больше.

Что происходит под капотом

1. Симметрия не мешает. В self-attention матрица для queries и для keys разная, поэтому итоговое QK^T остаётся полноценным, а не «зеркальным».
2. Теория бесконечной ширины доказывает: при обычном LR градиенты не взорваются.

🚀 Как попробовать за вечер

Шаг 1. В коде LoRA замените delta_W = B @ A на
delta_W = (alpha / r) * (A @ A.T)
Шаг 2. Оставьте один LR; warm-up по желанию (авторы берут 1 % шагов).
Шаг 3. При сохранении модели кладите в чек-пойнт только A — всё, адаптер готов.

Итоги

LoRA в 2021-м экономила память, QLoRA в 2023-м экономила ещё больше, а SingLoRA в 2025-м внезапно делает то же самое, убрав половину параметров. Если вы уже привыкли добавлять Adapter-блоки повсюду, самое время протестировать версию «sing».
21🔥13👍8



tgoop.com/nn_for_science/2481
Create:
Last Update:

SingLoRA — следующий шаг на пути к дешевому Файн-тюнингу

Исследователи из Техниона придумали как удешевить LoRA в ~2 раза

2021: первый «выстрел» LoRA

Когда GPT-3 только научилась писать стихи, выяснилось, что полное дообучение 175-миллиардной сети — удовольствие для дата-центров, а не для энтузиастов. Статья LoRA показала: можно заморозить исходные веса и подкинуть к ним пару маленьких матриц A и B. Так мы адаптируем модель, меняя 0.05 % параметров, что позволяет дообучать большие модели на маленьких карточках.

2023: QLoRA и гонка за VRAM

Следующий шаг — QLoRA. Авторы сжали саму LLM до 4-бит, а поверх добавили всё те же LoRA-адаптеры. Результат: Guanaco-65B дообучается на одной 48 GB A100 и почти догоняет ChatGPT по бенчмаркам.

⛔️ Но всплыла проблема «двух матриц»

Практики заметили: A и B любят «разбегаться» по масштабу. Приходится подбирать два learning-rate или прописывать специальные нормировки; иначе градиенты скачут и метрика пляшет. Об этой же нестабильности предупреждает и сам оригинальный абстракт LoRA.

🎉 2025: выходит SingLoRA

Новая работа SingLoRA: Low-Rank Adaptation Using a Single Matrix предлагает радикальное (и теперь кажущееся очевидным) решение: оставить только одну матрицу A и прибавлять к весам симметричное A*A^T. Половина параметров — половина забот.
Нестабильность убрана: один learning-rate;
Больше качества: LLaMA-7B на MNLI даёт 91 % против 89 % у классической LoRA;
Меньше памяти: адаптер занимает вдвое меньше, значит, в карточку влезает вдвое больше.

Что происходит под капотом

1. Симметрия не мешает. В self-attention матрица для queries и для keys разная, поэтому итоговое QK^T остаётся полноценным, а не «зеркальным».
2. Теория бесконечной ширины доказывает: при обычном LR градиенты не взорваются.

🚀 Как попробовать за вечер

Шаг 1. В коде LoRA замените delta_W = B @ A на
delta_W = (alpha / r) * (A @ A.T)
Шаг 2. Оставьте один LR; warm-up по желанию (авторы берут 1 % шагов).
Шаг 3. При сохранении модели кладите в чек-пойнт только A — всё, адаптер готов.

Итоги

LoRA в 2021-м экономила память, QLoRA в 2023-м экономила ещё больше, а SingLoRA в 2025-м внезапно делает то же самое, убрав половину параметров. Если вы уже привыкли добавлять Adapter-блоки повсюду, самое время протестировать версию «sing».

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2481

View MORE
Open in Telegram


Telegram News

Date: |

Avoid compound hashtags that consist of several words. If you have a hashtag like #marketingnewsinusa, split it into smaller hashtags: “#marketing, #news, #usa. Informative Hui said the time period and nature of some offences “overlapped” and thus their prison terms could be served concurrently. The judge ordered Ng to be jailed for a total of six years and six months. According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram. Select “New Channel”
from us


Telegram AI для Всех
FROM American