КПД@quant_prune_distill P.256

КПД

KAN: Kolmogorov-Arnold Networks
[Статья][Код]

Введение

В основе всех (ну почти всех) современных архитектур лежит многослойный перцептрон (MLP) с обучаемыми матрицами, сдвигами и фиксированными активациями и некоторым механизмом агрегации для пространственных входов (свертки, attention, state-spaces, мамба, хуямба).

Теория гласит, что при некоторых предположениях на целевую функцию и функции активации в сети достаточно большой сетью можно приблизить эту самую целевую функцию.

Возникает вопрос 🤔- оптимален ли такой подход по вычислениям / точности и нельзя ли изобрести нечто лучшее?

Метод

В данной статье авторы переосмысляют и в некотором смысле обобщают парадигму построения многослойной сети. В основе идеи лежит знаменитая теорема Колмогорова-Арнольда, что непрерывную многомерную функцию на ограниченной области можно всегда представить в виде композиции функций от одной переменной.

Однако, при этом теорема не дает явного вида этих функций, которые могут оказаться сколько угодно плохими, потому не реализуема на практике.

В данной статье предлагают выучивать сами функции активации, параметризуя их некоторым образом. Каждое ребро между входным и выходным нейроном задается некоторой параметрической функцией довольно общего вида.

Традиционный MLP является одним из частных случаев предлагаемой парадигмы.

В оригинальной теореме перцептрон всего с одним скрытым слоем, но ничто не мешает технически настакать их побольше.

На практике KAN-слой реализуется как B-сплайн с residual connections, домноженный на константу:

\phi(x) = w(b(x) + spline(x)), где b(x) = silu(x) = x / (1 + e^{-x})

Оптимизация такого сплайна довольно нетрививальна, и для улучшения сходимости сплайн инициализирует так, чтобы быть близким к нулю в начальный момент времени, и сетка с узлами сплайна обновляется на лету.

При той же глубине и ширине в KAN-сети больше параметров, чем в классической MLP в G (G - размер сетки) раз, но мотивация работы в том, что KAN требуется меньшая ширина для достижения сопоставимого качества.

Далее авторы обосновывают, что KAN обладает значительно лучшей масштабируемостью в сравнении c MLP и обходит проклятие размерности за счет того, что представляет многомерную функцию в виде композиции одномерных, тем самым переводя задачу эффективно в низкоразмерное пространство и выводят степенной закон убывания функции потерь.

Для KAN в однослойной сети, аппроксимирующие функции могут быть очень плохими, но с ростом глубины, существуют все более гладкие комбинации, способные решать целевую задачу.

По ходу дела, для повышения выразительности сети можно добавлять дополнительные узлы в сплайн.

👍30❤5

www.tgoop.com/quant_prune_distill/256

9.06K viewsedited May 2, 2024 at 05:41

tgoop.com/quant_prune_distill/256

Create: 2024-05-02
Last Update: 2025-09-07 11:28:01

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/256

Telegram News

KAN: Kolmogorov-Arnold Networks