QUANT_PRUNE_DISTILL Telegram 315
Fun with sparsity in PyTorch via Hadamard product parametrization
[Блог]

Занятный бложек про то, как можно сделать sparsity-inducing regularization.
Увидев слово Hadamard я триггернулся на Адамаровы матрицы, но нет, это Адамарово произведение.

Идея в следующем:
L1-регуляризацию можно представить как L2, c добавлением вспомогательных параметров u, так что исходный вес w параметризуется как w = u ⊙ v
для пар тензоров u и v.

Коэффициент регуляризации определяет степень разреженности получившейся матрицы.

Подход валидируют на табличной задаче с 500 признаками и двумя классами.

Сначала рассматривают логистическую регрессию реализованную в cvxpy, затем в торче.

Потом рассматривают групповую регуляризацию применительно к нейронным сетям. Групповая регуляризация зануляет целые каналы и имеет меньше дополнительных параметров (для неструктурированной маски число параметров удваивается, что может быть накладно).

В эксперименте берется небольшая MLP обучается на california_housing (известном всем табличникам) с некоторым коэффициентом регуляризации. Исходно было ~4500 весов, в полученной сетке остается около 600 ненулевых коэффициентов. Большинство каналов можно взять и вырубить.

Вся кухня имеет довольно прикольную реализацию через модуль torch.nn.utils.parametrize (см туториал). После задания такой параметризации, сети можно обучать не задумываясь вашим любимым оптимизатором с weight decay. Разве что в данном случае логичнее было брать AdamW, а не Adam.

В общем, прикольно. Но интересует масштабируемость.
6🔥3👍1



tgoop.com/quant_prune_distill/315
Create:
Last Update:

Fun with sparsity in PyTorch via Hadamard product parametrization
[Блог]

Занятный бложек про то, как можно сделать sparsity-inducing regularization.
Увидев слово Hadamard я триггернулся на Адамаровы матрицы, но нет, это Адамарово произведение.

Идея в следующем:

L1-регуляризацию можно представить как L2, c добавлением вспомогательных параметров u, так что исходный вес w параметризуется как w = u ⊙ v
для пар тензоров u и v.

Коэффициент регуляризации определяет степень разреженности получившейся матрицы.

Подход валидируют на табличной задаче с 500 признаками и двумя классами.

Сначала рассматривают логистическую регрессию реализованную в cvxpy, затем в торче.

Потом рассматривают групповую регуляризацию применительно к нейронным сетям. Групповая регуляризация зануляет целые каналы и имеет меньше дополнительных параметров (для неструктурированной маски число параметров удваивается, что может быть накладно).

В эксперименте берется небольшая MLP обучается на california_housing (известном всем табличникам) с некоторым коэффициентом регуляризации. Исходно было ~4500 весов, в полученной сетке остается около 600 ненулевых коэффициентов. Большинство каналов можно взять и вырубить.

Вся кухня имеет довольно прикольную реализацию через модуль torch.nn.utils.parametrize (см туториал). После задания такой параметризации, сети можно обучать не задумываясь вашим любимым оптимизатором с weight decay. Разве что в данном случае логичнее было брать AdamW, а не Adam.

В общем, прикольно. Но интересует масштабируемость.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/315

View MORE
Open in Telegram


Telegram News

Date: |

It’s easy to create a Telegram channel via desktop app or mobile app (for Android and iOS): Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading. The visual aspect of channels is very critical. In fact, design is the first thing that a potential subscriber pays attention to, even though unconsciously. To edit your name or bio, click the Menu icon and select “Manage Channel.” ZDNET RECOMMENDS
from us


Telegram КПД
FROM American