QUANT_PRUNE_DISTILL Telegram 257
Эксперименты

Предлагаемую парадигму валидируют на аппроксимации явно заданных математических функций и еще в ряде физических приложений - решении уравнений в частных производных, исследовании Андерсоновской локализации в разных решеточных системах. При том же числе параметров, KAN сходятся значительно быстрее и достигают лучшего качества по сравнению с традиционными архитектурами. Проблема переобучения , тем не менее, все равно может иметь место.

Кроме того, для повышения интерпретируемости, авторы предлагают накладывать L1 + энтропийную регуляризацию для удаления побочных связей в сети, и полученная спарсифицированная сеть на игрушечных примерах действительно вполне интуитивна.

Вывод

Работа весьма занятная и интересная. Однако, преждевременно утверждать, что предложенный подход тут же возьмет и вытеснит MLP.

Во-первых, требуется валидация на реальных данных. Удивительно, что авторы не показывают эксперименты на том же MNIST или табличных данных, которые должны быть по зубам даже исследователям с ограниченными ресурсами. Возможно, KAN просто имеют хороший inductive bias для решения определенного круга задач.

Кроме того, текущая парадигма построения сетей хороша тем, что удачно ложится на возможности современных GPU, способных параллелизовать эффективно операции с большими тензорами. KAN же не настолько hardware-friendly в этом отношении. Но могут найти свою нишу при инференсе на CPU и FPGA.

Для приложений математики и физики, KAN, безусловно, представляют интерес, но можно ли ими заменить MLP в трансформере? Поживем, увидим 🤷‍♂️.
20👍7



tgoop.com/quant_prune_distill/257
Create:
Last Update:

Эксперименты

Предлагаемую парадигму валидируют на аппроксимации явно заданных математических функций и еще в ряде физических приложений - решении уравнений в частных производных, исследовании Андерсоновской локализации в разных решеточных системах. При том же числе параметров, KAN сходятся значительно быстрее и достигают лучшего качества по сравнению с традиционными архитектурами. Проблема переобучения , тем не менее, все равно может иметь место.

Кроме того, для повышения интерпретируемости, авторы предлагают накладывать L1 + энтропийную регуляризацию для удаления побочных связей в сети, и полученная спарсифицированная сеть на игрушечных примерах действительно вполне интуитивна.

Вывод

Работа весьма занятная и интересная. Однако, преждевременно утверждать, что предложенный подход тут же возьмет и вытеснит MLP.

Во-первых, требуется валидация на реальных данных. Удивительно, что авторы не показывают эксперименты на том же MNIST или табличных данных, которые должны быть по зубам даже исследователям с ограниченными ресурсами. Возможно, KAN просто имеют хороший inductive bias для решения определенного круга задач.

Кроме того, текущая парадигма построения сетей хороша тем, что удачно ложится на возможности современных GPU, способных параллелизовать эффективно операции с большими тензорами. KAN же не настолько hardware-friendly в этом отношении. Но могут найти свою нишу при инференсе на CPU и FPGA.

Для приложений математики и физики, KAN, безусловно, представляют интерес, но можно ли ими заменить MLP в трансформере? Поживем, увидим 🤷‍♂️.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/257

View MORE
Open in Telegram


Telegram News

Date: |

Joined by Telegram's representative in Brazil, Alan Campos, Perekopsky noted the platform was unable to cater to some of the TSE requests due to the company's operational setup. But Perekopsky added that these requests could be studied for future implementation. The Standard Channel Some Telegram Channels content management tips How to Create a Private or Public Channel on Telegram? It’s easy to create a Telegram channel via desktop app or mobile app (for Android and iOS):
from us


Telegram КПД
FROM American