Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/eboutdatascience/-72-73-): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
Ebout Data Science | Дима Савелко@eboutdatascience P.73

EBOUTDATASCIENCE Telegram 73

Ebout Data Science | Дима Савелко

Как обучить свой GPT даже на калькуляторе ?

Модели становятся всё больше и больше, поэтому стоит вопрос ребром про их оптимизацию. Тут на сцену выходит LoRA, делая грязь 💣

Смысл метода состоит в том, что она "исправляет ошибки" уже обученной модели, то есть мы импортируем предобученный трансформер, замораживаем его и делаем файн-тюнинг с помощью LoRA 🤖

И весь сок состоит в том, что LoRA состоит из двух матриц: A и B, размерности которых довольны малы по сравнению с матрицами трансформеров. A и B матрицы имеют размеренность (1, 8) на (длина входного вектора), вот почему LoRA - Low Rank ⚡️
Мы теряем в общности, но и не страшно, по мнению авторов статьи, большинство параметров в моделях "не работают", являются около нулевыми 🤫

Также для обучения требуется малое количество обучаемых параметров, около 3% от замороженной модели, также веса занимают меньше места на диске 💽

Статья на хабре , arxiv , лекция на ютубе , практика на ютубе

🔥10❤2👍1🌭1

www.tgoop.com/eboutdatascience/73

1.41K viewsSep 11, 2023 at 10:54

tgoop.com/eboutdatascience/73

Create: 2023-09-11
Last Update: 2025-07-27 23:01:27

Как обучить свой GPT даже на калькуляторе ?

Модели становятся всё больше и больше, поэтому стоит вопрос ребром про их оптимизацию. Тут на сцену выходит LoRA, делая грязь 💣

Смысл метода состоит в том, что она "исправляет ошибки" уже обученной модели, то есть мы импортируем предобученный трансформер, замораживаем его и делаем файн-тюнинг с помощью LoRA 🤖

И весь сок состоит в том, что LoRA состоит из двух матриц: A и B, размерности которых довольны малы по сравнению с матрицами трансформеров. A и B матрицы имеют размеренность (1, 8) на (длина входного вектора), вот почему LoRA - Low Rank ⚡️
Мы теряем в общности, но и не страшно, по мнению авторов статьи, большинство параметров в моделях "не работают", являются около нулевыми 🤫

Также для обучения требуется малое количество обучаемых параметров, около 3% от замороженной модели, также веса занимают меньше места на диске 💽

Статья на хабре , arxiv , лекция на ютубе , практика на ютубе

BY Ebout Data Science | Дима Савелко

Share with your friend now:
tgoop.com/eboutdatascience/73

Open in Telegram

Telegram News

Date: 2025-07-27|

In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. Joined by Telegram's representative in Brazil, Alan Campos, Perekopsky noted the platform was unable to cater to some of the TSE requests due to the company's operational setup. But Perekopsky added that these requests could be studied for future implementation. Content is editable within two days of publishing Hashtags Click “Save” ;
from us

Warning: filemtime(): stat failed for aCache/aDaily/post/eboutdatascience/-72-73- in /var/www/tgoop/post.php on line 323

Warning: filemtime(): stat failed for aCache/aDaily/post/eboutdatascience/-72-73- in /var/www/tgoop/post.php on line 324

Как обучить свой GPT даже на калькуляторе ?

Ebout Data Science | Дима Савелко TG
web: 73
Ebout Data Science | Дима Савелко.Telegram web
Ebout Data Science | Дима Савелко Telegram TG Channel
Telegram Updated: 1970-01-01 00:00:00

Telegram Ebout Data Science | Дима Савелко
FROM American