tgoop.com/pytorch_howsam/512
Last Update:
خانـــمها و آقایــــان،
شبکه xLSTM تنه به تنه LLM-های ترنسفوری میزند!
شبکه جدیدی به نام xLSTM یا Extended LSTM معرفی شده که توجه زیادی رو به خودش جلب کرده. این مقاله رو آقای Sepp Hochreiter همراه با تیمش ارائه کرده. حالا آقای Sepp Hochreiter کی هستن؟ همون کسی که 30 سال پیش LSTM رو همراه با آقای Jürgen Schmidhuber پیشنهاد کردن. حالا بعد از 30 سال، نسخه امروزی (شاید مدرن!) شبکه LSTM رو همراه با تیمش پیشنهاد کردن.
اونها LSTM رو طوری توسعه دادن که قابلیت Scale شدن پیدا کنه. یعنی شبکههای LSTM بیلیون پارامتری داشته باشیم! مثل LLM-های امروزی...
بهصورت کلی، ساختار شبکه xLSTM در تصویر بالا نشون داده شده. سمت چپ که LSTM رو میبینید. با توسعه همون LSTM اصلی، دو تا Memory Cell با نامهای sLSTM و mLSTM ساخته شده. وقتی sLSTM و mLSTM رو در ساختار Residual Block (همون شورتکاتها) قرار بدیم، xLSTM Block ساخته میشه. نهایتا با Stack کردن بلوکهای xLSTM به معماری یا شبکه xLSTM میرسیم! حالا نسبت این دو بلوک میتونه متفاوت باشه. به عنوان مثال، در تصویر بالا (سمت راست) نسبت 1:1 از sLSTM و mLSTM رو میبینید.
مقاله
.
BY PyTorch Howsam

Share with your friend now:
tgoop.com/pytorch_howsam/512