tgoop.com/pytorch_howsam/694
Create:
Last Update:
Last Update:
متا، گوگل دیپمایند، دانشگاه کورنل و انویدیا اخیرا مقالهای با موضوع «مدلهای زبانی چقدر حفظ میکنن؟» منتشر کردن. عنوان مقاله:
How much do language models memorize?
این مقاله نشون میده مدلهای GPT-style حدود ۳.۶ بیت به ازای هر پارامتر حافظه دارن. یعنی، یک مدل 1 میلیاردی، حدودا 3.6 گیگابایت حافظه برای ذخیرهسازی داده داره!
تا زمانی که ظرفیت پر بشه، مدلها دادهها رو حفظ میکنن؛ بعد از اون، به سمت تعمیم (generalization) میرن.
پدیده double descent رو یادتون میاد؟ دقیقا زمانی اتفاق میافته که دادهها از ظرفیت مدل بیشتر بشن.
به نظرم مقاله آموزندهای هست. میتونه خیلی از مفاهیم مثل یادگیری، حفظ کردن، تعمیمپذیری و دابل دیسنت رو برامون شفافتر کنه. من هنوز مقاله رو نخوندم، خلاصههاش رو خوندم. امیدوارم، وقت کنم که بخونم. این منابع رو پیدا کردم:
مقاله اصلی | وبلاگ 1 | وبلاگ 2 | رشتو
BY PyTorch Howsam
Share with your friend now:
tgoop.com/pytorch_howsam/694