tgoop.com/kitty_bytes/13
Last Update:
xLSTM: Extended Long Short-Term Memory
#rnn
Как и обещал, подготовил для вас подробный разбор статьи xLSTM. Знаю, что за это время вышло уже несколько разборов этой архитектуры, но на русскоязычных ресурсах наиболее детального обзора xLSTM на данный момент я не видел (сам не похвалишь, никто не похвалит
В статье разработано улучшение сети LSTM с помощью двух архитектур - sLSTM и mLSTM. Каждая архитектура, направлена на решение проблем оригинальной сети. Добавлены параллельные вычисления в mLSTM, способность корректировать запоминание информации, а также введено матричное представление данных внутри сети. Эксперименты доказывают, что xLSTM сравнима с GPT моделями, а результаты предсказания лексем SlimPajama превосходят по точности Llama 1.3B.
Читать больше в Teletype
Arxive