Bias Variance

مشکل stable نبودن و روشهای یادگیری عمیق تقویتی - بخش دوم

در روشهای پایه ای برای یادگیری تقویتی، به این شکل کار می کنیم که یک جدولی تشکیل می دهیم و به صورت ساده انگارانه، سطرها وضعیت یا state و ستون ها action هایی هستند که در آن state می توان انجام داد. به صورت کلی این روشها قابلیت تعمیم ندارند. از سویی دیگر، در جاهایی که فضای حالت خیلی بزرگ است، تعداد state ها خیلی زیاد می شوند و خیلی از ورودی های جدول تشکیل شده یا Q table، خالی می مانند. یک راه حل جایگزین استفاده از شبکه های عصبی است. به این صورت که به عنوان ورودی به شبکه state را بدهیم و شبکه به دلیل قدرت تعمیمی که می تواند داشته باشد، می تواند بهتر از حالت جدولی کار کند که برای داده های ندیده، حرفی برای گفتن نداشت. با این حال یکسری چالش باقی است که باعث می شوند با احتیاط به سمت شبکه های عصبی برویم. پیش از این ذکر کرده بودیم که شبکه ها نیاز به داده ها iid دارند، این در حالی است که داده های مسائلی که با تقویتی حل می شوند، ذات وابستگی دارند. راه کارهای زیادی ارایه شده اند که سعی می کنیم به کلیت این کارها اشاره کنیم.

در تقویتی برچسب وجود ندارد و تنها راه برای اینکه بفهمیم مدلی خوب کار کرده یا نه این است که سیگنال پاداش یا reward را تجمیع کنیم. اگر این تجمیع را با پاداش کنونی و حدسی که برای آینده داریم تخمین بزنیم و این تخمین به این شکل باشد که تا حدودی پایدار باشد و با آموزش شبکه برای iteration های آموزشی نسبتا طولانی چندان تغییر نکند، می توانیم چیزی مانند برچسب بسازیم.

(ادامه دارد)
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#نکته_آموزشی #یادگیری_عمیق #یادگیری_عمیق_تقویتی #یادگیری_تقویتی
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت

307 views01:16