tgoop.com/AI_DeepMind/4098
Last Update:
این مقاله یه چارچوب جدید یادگیری تو در تو یا Nested Learning رو معرفی میکنه که یه دیدگاه متفاوت از ساختار مدل های یادگیری عمیق ارائه میده. به جای اینکه معماری های یادگیری عمیق رو بهعنوان سلسله مراتبی از لایههای پردازشی ببینیم، یادگیری تو در تو اونارو سیستمی از مسائل بهینهسازی تو در تو تفسیر میکنه که هر کدوم context flow خودشونو دارنو و با فرکانس های مختلف بروز میشن.
این دیدگاه الهامگرفته از نحوهٔ عملکرد مغز ما انسانهاس ، بهویژه تو فرایند تثبیت حافظه که به دو شکل آنلاین ( حین یادگیری) و آفلاین (حین خواب) انجام میشه. مقاله نیگه که مدلهای زبانی بزرگ بعد از تموم شدن آموزش اولیشون، مثل یه فرد مبتلا به فراموشی پیش گستر (Anterograde Amnesia) عمل میکنن؛ یعنی نمیتونن دانش جدید رو تو حافظه بلند مدتشون ذخیره کنن و صرفا به اطلاعات داخل پنجره توجه کوتاه مدت خود متکین.
نویسندگان این مقاله، یادگیری تو در تو رو به عنوان یه راه برای طراحی سیستم های یادگیری پویاتر پیشنهاد میدن. تو این چارچوب، همه مولفه های یه مدل از جمله شبکه های عصبی و بهینهساز ها، بهعنوان ماژولهای حافظه شرکت پذیر یا انجمنی (Associative Memory) دیده میشن که سعی میکنن روابط بین ورودی ها (مثل توکنها یا گرادیان ها) و خروجی ها (مثل سیگنالهای خطا یا مقادیر هدف) رو تو پارامترهای خودشون فشرده کنن.
بهعنوان مثال، بهینهساز هایی مثل اس جی دی با مومنتوم یا آدام هم به عنوان حافظههایی تفسیر میشن که گرادیان های گذشته رو ذخیره میکنن. بر این اساس، نویسنده ها چندین بهبود عملکرد رو ارائه میدن: اول، بهینهساز های عمیق تر که از حافظه های غیرخطی (مثل ام ال پی) و قوانین یادگیری قوی تر (مثل قاعده دلتا) استفاده میکنن؛ دوم، یه مدل توالی جدید به اسم (خودتغییردهنده Titans) که تو زمان تست الگوریتم بروزرسانی خودش رو یاد میگیره؛ و سوم، یه سیستم حافظه پیوسته که دیدگاه سنتی حافظهٔ کوتاه مدت/بلند مدت رو با طیفی از حافظهها با فرکانس های بهروزرسانی مختلف جایگزین میکنه.
با ترکیب این ایدهها، مدل HOPE طراحی میشه که تو اون هر لایه ام ال پی با فرکانس متفاوتی بروز میشه و مدل به طور همزمان از چندین سطح ابسترکت و مقیاس زمانی یاد میگیره. نتایج ارزیابی نشون میده که HOPE در مقایسه با ترنسفورمر و مدلهای مدرن RNN تو وظایف مدل سازی زبان، استدلال و یادگیری مداوم عملکرد رقابتی یا حتی بهتری داره!
#یادگیری_عمیق #یادگیری_ماشین #ماشین_لرنینگ #مقاله #شبکه_عصبی #ایده_جذاب

