Notice: file_put_contents(): Write of 9257 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 12288 of 21545 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
DeepMind AI Expert@AI_DeepMind P.4098
AI_DEEPMIND Telegram 4098
این مقاله یه چارچوب جدید یادگیری تو در تو یا Nested Learning رو معرفی میکنه که یه دیدگاه  متفاوت از ساختار مدل‌ های یادگیری عمیق ارائه میده. به جای اینکه معماری‌ های یادگیری عمیق رو به‌عنوان سلسله‌ مراتبی از لایه‌های پردازشی ببینیم، یادگیری تو در تو اونارو سیستمی از مسائل بهینه‌سازی تو در تو تفسیر میکنه که هر کدوم context flow خودشونو دارنو و با فرکانس‌ های مختلف بروز میشن.

این دیدگاه الهام‌گرفته از نحوهٔ عملکرد مغز ما انسانهاس ، به‌ویژه تو فرایند تثبیت حافظه که به دو شکل آنلاین ( حین یادگیری) و  آفلاین (حین خواب) انجام میشه. مقاله نیگه که مدل‌های زبانی بزرگ بعد از تموم شدن آموزش اولیشون، مثل یه فرد مبتلا به فراموشی پیش گستر (Anterograde Amnesia) عمل میکنن؛ یعنی نمیتونن دانش جدید رو تو حافظه بلند مدتشون ذخیره کنن و صرفا به اطلاعات داخل پنجره توجه کوتاه‌ مدت خود متکین.

نویسندگان  این مقاله، یادگیری تو در تو رو به‌ عنوان یه راه برای طراحی سیستم‌ های یادگیری پویاتر پیشنهاد میدن. تو این چارچوب، همه مولفه‌ های یه مدل از جمله شبکه‌ های عصبی و بهینه‌ساز ها، به‌عنوان ماژول‌های حافظه شرکت پذیر یا انجمنی (Associative Memory) دیده میشن که سعی میکنن روابط بین ورودی‌ ها (مثل توکنها یا گرادیان‌ ها) و خروجی‌ ها (مثل سیگنال‌های خطا یا مقادیر هدف) رو تو پارامترهای خودشون فشرده کنن.

به‌عنوان مثال، بهینه‌ساز هایی مثل اس جی دی با مومنتوم یا آدام هم به‌ عنوان حافظه‌هایی تفسیر میشن که گرادیان‌ های گذشته رو ذخیره میکنن. بر این اساس، نویسنده ها چندین بهبود عملکرد رو ارائه میدن: اول، بهینه‌ساز های عمیق‌ تر که از حافظه‌ های غیرخطی (مثل ام ال پی) و قوانین یادگیری قوی‌ تر (مثل قاعده دلتا) استفاده میکنن؛ دوم، یه مدل توالی جدید به اسم (خودتغییردهنده Titans) که تو زمان تست الگوریتم بروزرسانی خودش رو یاد میگیره؛ و سوم، یه سیستم حافظه پیوسته که دیدگاه سنتی حافظهٔ کوتاه‌ مدت/بلند مدت رو با طیفی از حافظه‌ها با فرکانس‌ های به‌روزرسانی مختلف جایگزین میکنه.

با ترکیب این ایده‌ها، مدل HOPE طراحی میشه که تو اون هر لایه ام ال پی با فرکانس متفاوتی بروز میشه و مدل به‌ طور همزمان از چندین سطح ابسترکت و مقیاس زمانی یاد میگیره. نتایج ارزیابی نشون میده که HOPE در مقایسه با ترنسفورمر و مدل‌های مدرن RNN تو وظایف مدل‌ سازی زبان، استدلال و یادگیری مداوم عملکرد رقابتی یا حتی بهتری داره!
🔔 Nested Learning: The Illusion of Deep Learning Architectures

#یادگیری_عمیق #یادگیری_ماشین #ماشین_لرنینگ #مقاله #شبکه_عصبی #ایده_جذاب

🔹 مطالب بیشتر 👇👇

@AI_DeepMind
@AI_Person
Please open Telegram to view this post
VIEW IN TELEGRAM
👍113🔥1👌1🆒1



tgoop.com/AI_DeepMind/4098
Create:
Last Update:

این مقاله یه چارچوب جدید یادگیری تو در تو یا Nested Learning رو معرفی میکنه که یه دیدگاه  متفاوت از ساختار مدل‌ های یادگیری عمیق ارائه میده. به جای اینکه معماری‌ های یادگیری عمیق رو به‌عنوان سلسله‌ مراتبی از لایه‌های پردازشی ببینیم، یادگیری تو در تو اونارو سیستمی از مسائل بهینه‌سازی تو در تو تفسیر میکنه که هر کدوم context flow خودشونو دارنو و با فرکانس‌ های مختلف بروز میشن.

این دیدگاه الهام‌گرفته از نحوهٔ عملکرد مغز ما انسانهاس ، به‌ویژه تو فرایند تثبیت حافظه که به دو شکل آنلاین ( حین یادگیری) و  آفلاین (حین خواب) انجام میشه. مقاله نیگه که مدل‌های زبانی بزرگ بعد از تموم شدن آموزش اولیشون، مثل یه فرد مبتلا به فراموشی پیش گستر (Anterograde Amnesia) عمل میکنن؛ یعنی نمیتونن دانش جدید رو تو حافظه بلند مدتشون ذخیره کنن و صرفا به اطلاعات داخل پنجره توجه کوتاه‌ مدت خود متکین.

نویسندگان  این مقاله، یادگیری تو در تو رو به‌ عنوان یه راه برای طراحی سیستم‌ های یادگیری پویاتر پیشنهاد میدن. تو این چارچوب، همه مولفه‌ های یه مدل از جمله شبکه‌ های عصبی و بهینه‌ساز ها، به‌عنوان ماژول‌های حافظه شرکت پذیر یا انجمنی (Associative Memory) دیده میشن که سعی میکنن روابط بین ورودی‌ ها (مثل توکنها یا گرادیان‌ ها) و خروجی‌ ها (مثل سیگنال‌های خطا یا مقادیر هدف) رو تو پارامترهای خودشون فشرده کنن.

به‌عنوان مثال، بهینه‌ساز هایی مثل اس جی دی با مومنتوم یا آدام هم به‌ عنوان حافظه‌هایی تفسیر میشن که گرادیان‌ های گذشته رو ذخیره میکنن. بر این اساس، نویسنده ها چندین بهبود عملکرد رو ارائه میدن: اول، بهینه‌ساز های عمیق‌ تر که از حافظه‌ های غیرخطی (مثل ام ال پی) و قوانین یادگیری قوی‌ تر (مثل قاعده دلتا) استفاده میکنن؛ دوم، یه مدل توالی جدید به اسم (خودتغییردهنده Titans) که تو زمان تست الگوریتم بروزرسانی خودش رو یاد میگیره؛ و سوم، یه سیستم حافظه پیوسته که دیدگاه سنتی حافظهٔ کوتاه‌ مدت/بلند مدت رو با طیفی از حافظه‌ها با فرکانس‌ های به‌روزرسانی مختلف جایگزین میکنه.

با ترکیب این ایده‌ها، مدل HOPE طراحی میشه که تو اون هر لایه ام ال پی با فرکانس متفاوتی بروز میشه و مدل به‌ طور همزمان از چندین سطح ابسترکت و مقیاس زمانی یاد میگیره. نتایج ارزیابی نشون میده که HOPE در مقایسه با ترنسفورمر و مدل‌های مدرن RNN تو وظایف مدل‌ سازی زبان، استدلال و یادگیری مداوم عملکرد رقابتی یا حتی بهتری داره!
🔔 Nested Learning: The Illusion of Deep Learning Architectures

#یادگیری_عمیق #یادگیری_ماشین #ماشین_لرنینگ #مقاله #شبکه_عصبی #ایده_جذاب

🔹 مطالب بیشتر 👇👇

@AI_DeepMind
@AI_Person

BY DeepMind AI Expert




Share with your friend now:
tgoop.com/AI_DeepMind/4098

View MORE
Open in Telegram


Telegram News

Date: |

It’s yet another bloodbath on Satoshi Street. As of press time, Bitcoin (BTC) and the broader cryptocurrency market have corrected another 10 percent amid a massive sell-off. Ethereum (EHT) is down a staggering 15 percent moving close to $1,000, down more than 42 percent on the weekly chart. Clear A new window will come up. Enter your channel name and bio. (See the character limits above.) Click “Create.” 3How to create a Telegram channel? Read now
from us


Telegram DeepMind AI Expert
FROM American