tgoop.com/biasvariance_ir/217
Last Update:
ترنزفرمرها versus شبکه های بازگشتی - قسمت دوم
در literature برای اینکه تقریبا سعی شود از مشکلات RNN ها عبور کرد، مدل های مبتنی بر Attention ارایه شدند. در این مدلها سعی شده تا با کمک مفهوم weight sharing که در CNN ها قبلا جواب پس داده، در زمینه داده های temporal کار کرد. با همین ایده ساده weight sharing و ضرب داخلی که میزان شباهت را بیان می کند، انقلابی در NLP و تسکهای مربوط به دادگان temporal ایجاد شد.
شاید تا به امروز مقالات مربوط به attention را پیاده سازی کرده باشید، و تعجب کرده باشید که چرا ماتریس وزن را روی قسمت های ورودی به نوعی حرکت می دهیم. اگر با دید MLP ها نگاه کنیم، این کار کمی عجیب است. با این حال، همانطور که ذکر شد، ایده این کار از weight sharing می آید. با کمک weight sharing می توان موازی سازی داشت، و ساختارهای مشابه تکرار شونده در طول سیگنال ورودی را می توان به راحتی پیدا کرد.
(پایان)
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#نکته_آموزشی #یادگیری_عمیق #transformer #ترنزفرمر #LSTM #شبکه_بازگشتی #RNN
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت
BY Bias Variance
Share with your friend now:
tgoop.com/biasvariance_ir/217