КПД@quant_prune_distill P.257

КПД

Эксперименты

Предлагаемую парадигму валидируют на аппроксимации явно заданных математических функций и еще в ряде физических приложений - решении уравнений в частных производных, исследовании Андерсоновской локализации в разных решеточных системах. При том же числе параметров, KAN сходятся значительно быстрее и достигают лучшего качества по сравнению с традиционными архитектурами. Проблема переобучения , тем не менее, все равно может иметь место.

Кроме того, для повышения интерпретируемости, авторы предлагают накладывать L1 + энтропийную регуляризацию для удаления побочных связей в сети, и полученная спарсифицированная сеть на игрушечных примерах действительно вполне интуитивна.

Вывод

Работа весьма занятная и интересная. Однако, преждевременно утверждать, что предложенный подход тут же возьмет и вытеснит MLP.

Во-первых, требуется валидация на реальных данных. Удивительно, что авторы не показывают эксперименты на том же MNIST или табличных данных, которые должны быть по зубам даже исследователям с ограниченными ресурсами. Возможно, KAN просто имеют хороший inductive bias для решения определенного круга задач.

Кроме того, текущая парадигма построения сетей хороша тем, что удачно ложится на возможности современных GPU, способных параллелизовать эффективно операции с большими тензорами. KAN же не настолько hardware-friendly в этом отношении. Но могут найти свою нишу при инференсе на CPU и FPGA.

Для приложений математики и физики, KAN, безусловно, представляют интерес, но можно ли ими заменить MLP в трансформере? Поживем, увидим 🤷‍♂️.

❤20👍7

www.tgoop.com/quant_prune_distill/257

2.27K viewsedited May 2, 2024 at 05:42

tgoop.com/quant_prune_distill/257

Create: 2024-05-02
Last Update: 2025-09-07 11:28:42

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/257

Telegram News

Эксперименты