Bias Variance 276 - Telegram Web

Media is too big

VIEW IN TELEGRAM

قبلا به روش subderivative اشاره کرده بودیم. در این ویدیو اما به مبحث دیگری پیرامون مشتق گیری و شبکه عصبی پرداخته شده. همانطور که احتمالا می دانید، روشهای متفاوتی برای پیدا کردن مشتق به صورت اتوماتیک وجود دارد. معمولا به عنوان برنامه نویس شبکه، درگیر محاسبات مسیر رفت می شویم و به مسیر بازگشت اهمیت نمی دهیم. با این حال دانستن عملیاتی که در مسیر برگشت و روشی که فریمورک به کار می برد، از اهمیت بالایی برخوردار است. در این ویدیو بیشتر با این موضوع آشنا می شوید.

ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#ویدیو #یادگیری_عمیق #نکته_آموزشی #مشتق
ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت

228 viewsedited 17:38

معرفی کتاب Deep Reinforcement Learning with Python: With PyTorch, TensorFlow and OpenAI Gym

در زمینه یادگیری تقویتی در دو سه سال اخیر کتابهای خوب زیادی چاپ شده اند که تعدادی از آنها را معرفی کرده بودیم. در این پست قصد پرداختن به کتاب دیگری در زمینه ذکر شده را داریم. اگر صادق باشیم، حوزه یادگیری تقویتی خیلی خیلی بزرگ است. از سویی، مباحث متفاوتی از ریاضیات، به صورت کلی، در این زمینه مورد استفاده قرار می گیرند. به همین دلیل معمولا ذکر می شود که کتاب خوب برای یادگیری عمیق تقویتی وجود ندارد و لازم است در هر حوزه ای از تقویتی به سراغ مقالات مروری برویم. با اینکه این مطلب درست است و ما نیز پیش از این، این موضوع را تایید کرده بودیم، خواندن text book یکی از نیازهایی است که لازم است هر فردی در حوزه مربوط به خودش انجام دهد تا با دیدگاه های متفاوت آشنا شود. در کتابها سعی نویسنده فهماندن مطالب است در حالی که در مقالات سعی نویسندگان بیشتر گزارش کاری است که انجام داده اند؛ پس نمی توان از اهمیت خواندن کتب مرجع چشم پوشی کرد.

در حوزه یادگیری تقویتی، اگر نویسندگان درگیر ریاضیات شوند و بخواهند همه مباحث ریاضی را توضیح دهند، حجم کتابشان خیلی زیاد می شود و به همین دلیل کتاب مرجع جامع در این حوزه نادر است اگر واقعا وجود داشته باشید. در کتابی که اینجا اشاره کرده ایم، مباحث ریاضی خیلی بسط داده نشده اند ولی تا جایی که کارتان را راه بیاندازد و به مسیر درست راهنماییتان کند، همراهتان است و این ویژگی خیلی مهمی است که در کتابهای این حوزه خیلی دیده نمی شود. از طرفی، کتاب تعداد روشهای متنوعی را بررسی کرده است و این نکته نیز یکی از مزیت های اساسی کتاب است. برای جمع بندی، دسته بندی روشها، تعدد روشهای بررسی شده و عمق بررسیِ ریاضیات هر بحث از نکات مهم و خوب این کتاب است.

به صورت کلی خیلی طرفدار کتابهای Apress نیستیم به این علت که معمولا کیفیت ویراست کتابهای انتشارات معمولی را هم رعایت نمی کنند در بسیاری از کتابهایشان، مقایسه کنید با انتشاراتی مثل Manning، ولی خواندن این کتاب را بسیار توصیه می کنیم. در انتها، قیمت نسخه دیجیتال کتاب نیز بسیار مناسب است که ویژگی مطلوبی است.

ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#معرفی_کتاب #نکته_آموزشی #یادگیری_تقویتی #یادگیری_عمیق_تقویتی #یادگیری_عمیق
ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت

866 viewsedited 19:06

استفاده از یادگیری عمیق در پروژه های تجاری - بخش نهم

استفاده از scheduler مناسب برای learning rate

در آموزش شبکه های عصبی، learning rate یکی از مهمترین هایپرپارامترهایی است که لازم است به طرز مناسبی مدیریت شود. با این حال، متاسفانه شاهد این هستیم که خیلی از توسعه دهنده های شبکه عصبی همچنان از scheduler هایی استفاده می کنند که متعلق به سالها پیش هستند. فرآیند تغییر نرخ یادگیری، پروسه ای است که نیاز است به دقت انجام شود و روشهای کلاسیک متنوعی برایش وجود دارد. با این وجود، لازم است بدانید که برای این فرآیند، مقالات متعددی وجود دارد. دقت کنید که در دهه سوم قرن بیست و یک هستیم و خیلی نقطه ضعف بزرگی است اگر در پروژه هایی که قرار نیست مقاله شوند و صرفا عملکرد مناسب معیار است، از روشهایی مثل step برای تغییر نرخ یادگیری استفاده کنیم. با اینکه حتی روشی مثل cosine annealing schedule هم خیلی روش نوینی محسوب نمی شود، با این حال سعی کنید از روشهایی مثل این روش و در کل مقالات جدید پیرامون این موضوع مطلع باشید. در نظر گرفتن این نکته، نقش مهمی در سرعت آموزش شبکه های عصبی دارد. بخواهید یا نه، در سالی هستیم که مدلهایی معرفی شده اند که میلیاردها پارامتر دارند. آموزش این تعداد پارامتر نیاز به روشهای بروزی دارد که خوب جواب داده باشند.

(ادامه دارد)
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#نکته_آموزشی #یادگیری_عمیق #آموزش_شبکه_عصبی #مثالهای_کاربردی #پروژه_تجاری #learning_rate
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت

852 views17:45

معرفی بحث نظری Group Theory

اشاره کرده بودیم که خیلی از اساتید به دنبال به کاربردن مفاهیم نظری در شبکه های عمیق هستند. یکی از مواردی که از همان ابتدا سعی شد در شبکه ای مثل AlexNet گنجانده شود و بعدها در دسته ای دیگر از زیرشاخه های شبکه ها سعی شد استفاده شود، بحث نظریه گروه است. در جبر، گروه تعریف بسیار ساده ای دارد و اجازه انجام یکسری عملیات را به نحوی خاص می دهد. با این حال، اگر به صورت کلی بخواهیم صحبت کنیم، این زمینه در مورد تقارن بحث می کند؛ برای مثال، چه عملیاتی می توان روی یک شکل متقارن انجام داد تا شکل اولیه اش به هم نخورد. می توانید شکل یک دایره را در نظر بگیرید که با هر میزان چرخش، تغییری ایجاد نمی شود ولی شکلی مثل مربع، تعداد عملیات محدودی را می پذیرد تا شکل اولیه بدست آید. ایده ای که در AlexNet استفاده شد برای به کار بردن نظریه گروه خیلی ساده بود ولی در سالهای اخیر مقالات متعددی سعی کرده اند از نظریه گروه به عنوان بحث نظریِ مطالعاتشان استفاده کنند.

ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#معرفی #یادگیری_عمیق #جبر #abstract_algebra #معرفی_زمینه #نکته_آموزشی #group_theory
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت

804 views06:38

Media is too big

VIEW IN TELEGRAM

در اثباتهای مقالات معمولا دترمینان و ویژگیهای آن نقش مهمی دارند، کسانی که روی شبکه های عمیق گرافی کار می کنند مطلع هستند. در این ویدیو، تعدادی از این ویژگی ها به دقت نگاشته شده اند!

ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#ویدیو #طنز #یادگیری_عمیق #جبر #linear_algebra #نکته_آموزشی
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت

835 views13:50

لینک شرکت در وبینار:
https://meetings.aut.ac.ir/aut-inif1

ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#اطلاع_رسانی
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت

798 viewsedited 18:32

سلام

با توجه به برگزاری رویداد در طولِ دو روز آینده، می توانید از لینک پایین برای شرکت استفاده کنید.

https://bluemeet.aut.ac.ir/ch/aaic_lectures/guest

ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#اطلاع_رسانی
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت

813 viewsedited 13:17

تابع ReLU و یکی از ویژگی های منحصر به فرد این تابع

یکی از ویژگی های مهم این تابع که سبب می شود به طرز چشم گیری بهتر از توابعی مثل Tanh یا Sigmoid کار کند، ویژگی بلاک کردن این تابع برای ورودی های منفی است. این ویژگی از دو منظر قابل بررسی است. در لایه بعدی، تنها نورونهایی از لایه قبل تاثیر گذار خواهند بود که مقادیری غیر منفی دارند و عملا نوعی فیلتر سازی انجام می شود. اطلاعات نورون های بدردنخور به کل دور ریخته می شوند و در تصمیمات لایه بعد تاثیرگذار نیستند. از سویی، این تابع رفتاری مشابه با dropout دارد ولی به صورت غیر رندم؛ این به این معنی است که هر بار که داده ها را به شبکه می دهیم، دسته ای از نورونها مثل این رفتار می کنند که گویی غیرفعال هستند. یعنی به گونه ای به قدرت تعمیم شبکه هم می تواند کمک کند. با توجه به این دو ویژگی می توان توابع فعالیت جدیدی ساخت که شاید بهتر از ReLU باشند.

ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#معرفی #یادگیری_عمیق #تابع_فعالیت #activation #activation_function #نکته_آموزشی
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت

656 views06:02

شاید یکی از هیجان انگیزترین کاربردهای یادگیری عمیق، خودروهای خودران باشد. شبیه سازهای متفاوتی برای این سیستم ها وجود دارد که اکثرا به یونیتی و سی شارپ نوشته شده اند. با این حال، سوییچ کردن مدام از سی شارپ به پایتون، یا سی پلاس پلاس، می تواند کمی سخت باشد بدلیل تفاوتهایی که وجود دارد. CARLA یک شبیه ساز است که API هایی در اختیارتان قرار می دهد که به پایتون کدزنی داشته باشید. خوبی این شبیه ساز، متن باز بودنش است.

CARLA has been developed from the ground up to support development, training, and validation of autonomous driving systems. In addition to open-source code and protocols, CARLA provides open digital assets (urban layouts, buildings, vehicles) that were created for this purpose and can be used freely. The simulation platform supports flexible specification of sensor suites, environmental conditions, full control of all static and dynamic actors, maps generation and much more.

می توانید اسلایدهای مربوطه را در اینجا مشاهده کنید.

ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#یادگیری_عمیق #self_driving_car #معرفی_منبع_آموزشی #معرفی_منبع
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت

864 views07:57

معرفی کتاب Natural Language Processing with Transformers

اشاره کرده بودیم که transformer ها باعث تحولی در شبکه های عصبی شده اند و نقاط ضعفی که شبکه های LSTM داشتند را ندارند. اخیرا کتابی به چاپ رسیده که ایده استفاده از transformer ها را در کاربردهای مختلف NLP بررسی می کند و در هر فصل، به یک کاربرد از NLP می پردازد. از chatbot گرفته تا sentiment analysis. نکته مهمی که در مورد این کتاب لازم است لحاظ شود این است که در این کتاب از کتابخانه محبوب Hugging face استفاده شده است و مثالها و کدزنی ها در این بستر است. نکته بعدی، این است که کتاب برای نوشتن مقاله چندان مناسب نیست مگر اینکه بخواهید از یکسری ابزار آماده برای کارهای کلی استفاده کنید یا با یکسری مفاهیم پایه ای آشنا شوید. این کتاب بیشتر مناسب افرادی است که می خواهند در پروژه های تجاری از یکسری ابزار آماده و آموزش دیده شده یا آماده آموزش استفاده کنند که برای این منظور کتاب می تواند خیلی مفید باشد؛ از نکات جالب توجه این کتاب، حضور نویسندگان کد Hugging face است که موضوع مهمی به شمار می آید. در انتها، کتاب، کتاب روانی است و خواندنش را پیشنهاد می دهیم. قیمت نسخه دیجیتال کتاب نیز با توجه به حجم آن مناسب است.

ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#معرفی_کتاب #hugging_face #پردازش_زبان_طبیعی #NLP #یادگیری_عمیق
ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت

Natural Language Processing with Transformers: Building Language Applications with Hugging Face

Since their introduction in 2017, transformers have quickly become the dominant architecture for achieving state-of-the-art results on a variety of natural language processing tasks. If you're a data scientist or coder, this practical book shows you how to…

875 views07:43

چرا در ایران یادگیری تقویتی چندان محبوب نیست؟

همیشه سوالی که درگیرمان می کند این است که چرا در ایران مقالاتی که در زمینه تقویتی چاپ می شوند کم هستند و چرا اساتید کمی در این زمینه فعالیت می کنند؟ چند عامل به ذهنمان می رسد که سعی می کنیم به آنها اشاره کنیم ولی قبل از آن لازم است اشاره کنیم که هر تحولی در زمینه تقویتی می تواند باعث تحولی بنیادین در مسایل روزمره شود که انجامش برای انسان سخت است. در هر حال، ما برای مسایل خیلی محدود داده برچسب زده شده داریم. با همین جمله خیلی از روشهای سوپروایزد زیر سوال می روند.

- همیشه بحث تقویتی انتهای ترم پوشش داده می شود و بدلیل سختی ها و تفسیرهای متفاوتی که از رابطه بلمن وجود دارد و نیازی که به جا افتادن مباحث در مرور زمان است، دانشجویان به شدت از این زمینه می ترسند. در کل، مباحث دوالِ بهینه سازی را نیز خیلی از کامپیوتری های از کارشناسی آمده نمی دانند و در طی ترم جا می افتد. اگر اساتید این مباحث را در ابتدای ترم پوشش دهند، بار مقالاتی که دانشگاه ها ارایه می دهند کمی بالانس تر می شود.
- خیلی از دانشجویان بدلیل اینکه ریاضیات مربوط به تقویتی کمی زیاد است، به سراغش نمی روند. به عبارتی پیشنیازهایی از آمار، فرآیند تصادفی، جبر و بهینه سازی به صورت یکجا لازم هستند و این باعث عدم تمایل دانشجویان می شود. با این حال اگر در خواندن مطالب از روش bottom-up استفاده شود واقعا لازم نیست که همه مسایل تصادفی و بهینه سازی را بدانید و همان دانش ابتدایی از جبر و آمار کفایت می کند. هر اصطلاحی را هم که نفهمیدید با همان باتم آپ می توانید جست و جو کنید.
- بخواهید یا نه، در ایران دانشگاه ها و اساتید خیلی محدودی هستند که کارهای تئوریِ مناسب انجام می دهند. این ضعفی است که در رشته های computer engineering و عدم چینش مناسب درسها در این رشته همواره وجود داشته است؛ در حالی که اساتید و دانشجویانِ کنترلی به هیچ وجه با این ضعف روبه رو نیستند. پیشنهاد می شود هر ترم سعی کنید دانش ریاضی خودتان را افزایش دهید.
- نیاز به سخت افزار مناسب همیشه یکی از سختی هایی است که در این زمینه وجود دارد. برای این راه کاری نداریم.
- عدم وجود اساتید علاقه مند به این حوزه یکی دیگر از دلایل است. بروید و اساتید دانشگاه های مختلف سراسری در شهرهای مختلف را بررسی کنید. چند استاد computer engineering در کل ایران را پیدا می کنید که متمرکز در این زمینه کار می کنند؟ ده تا می شوند؟ به سراغ مقالات چند عامله در تقویتی بروید و بررسی کنید که چه کارهایی می توان انجام داد. در ایران در حال حاضر موج اصلی و مقالات مین استریم در حوزه سوپروایزد است ولی در زمینه تقویتی نیز می توان اساتید را ترغیب کرد که کارهای مهم انجام داد.

ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#نقد #یادگیری_عمیق_تقویتی #یادگیری_تقویتی #راهکار
ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت

2.1K viewsedited 14:30

معرفی Geometric Deep Learning

پیش از این در مورد group theory صحبت کرده بودیم. در این پست در مورد بحثی که در یادگیری عمیق خیلی وابسته به نظریه گروه است، صحبت می کنیم. ذکر کردیم که در نظریه گروه به دنبال بررسی تقارن هستیم. حال چرا این موضوع اهمیت دارد؟ در طبیعت خیلی از اشیا و موجودات زنده، نظیر گیاهان و حشرات، دارای تقارن هستند. به هر حال هر موجودی DNA دارد و ساختارهای متقارن نیاز به اطلاعات کمتری برای انکد شدن دارند. این موضوع در یادگیری عمیق و یادگیری فیلترها می تواند بسیار کمک کننده باشد. در هر حال قبلا توضیح داده بودیم که شبکه های کانولوشنی در چه زمینه هایی ضعف دارند. یکی از این ضعف ها، ضعف در چرخش بود. یعنی اگر یک جسم را می چرخاندیم، شبکه امکان داشت که خوب کار نکند. علت این موضوع این است که با چرخش، فیچرمپ استخراج شده با حالت عادی متفاوت است. اگر شبکه در مرحله data augmentation فیچرمپ مشابه ندیده باشد، به سختی می افتد. حال آیا می توانیم با توجه به وجود تقارن و یکسری ویژگی که در اجسام تکرار می شوند عملیاتِ کانولوشنیِ جدیدی ارایه کنیم که ویژگیهایی را در خود داشته باشد که تقارن لحاظ شود یا پس از چرخش که ماهیت اجسام به صورت کلی تغییر نمی کند، فیچرمپ یکسان باشد؟ پاسخ مثبت است و مباحث این زمینه در مورد Group Equivariant Deep Learning است. در این زمینه مقالات جالب بسیاری در سالهای اخیر چاپ شده اند که می توان به ساخت GCNN ها اشاره کرد.

ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#معرفی #یادگیری_عمیق #جبر #abstract_algebra #معرفی_زمینه #geometric_deep_learning #نکته_آموزشی #group_theory
ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت

250 views06:23

استفاده از یادگیری عمیق در پروژه های تجاری - بخش دهم

دقت در فرآیند افزایش و انتخابِ دیتا

پیش از این پیرامون افزایش دیتا مطالب متفاوتی را ذکر کرده بودیم. از بهم نریختن توزیع داده ها تا بررسیِ تبدیلهای متنوع ولی در این پست قصد اشاره به نکاتی دیگر داریم که لازم است در این فرآیند لحاظ شود تا کار یادگیری شبکه ساده باشد. مثال را پیرامون یک نمونه عینی می زنیم. فرض کنید که می خواهید شبکه ای کانولوشنی را برای آموزش روی دادگانِ حروف انگلیسی استفاده کنید تا برای تسکی مثل OCR استفاده شود. در این حالت ممکن است برای هر کلاس دیتاها را افزایش دهید یا از فونت های متفاوت استفاده کنید و تکسچرهای متنوعی را در بکگراند دخیل کنید. به چند سوالِ مهم که لازم است قبل از افزایش و انتخابِ دیتا لحاظ شوند اشاره می کنیم:

- برای هر کلاس چقدر می خواهید داده اضافه کنید؟ پ: هر چقدر داده زیاد باشد، کار شبکه برای یادگیری سخت می شود. اگر شبکه مشکل بایاس داشته باشد، دیتا اضافه کردن به هیچ وجه کمک نمی کند. از سویی ذکر کرده بودیم که دیتا آگمنتیشن باید توزیع را به هم نزند ولی نکته بعدی این است که اگر هر کلاس قرار است دادگانش زیاد شود و توزیع کلی به هم نریزد، چه تعداد داده اضافه کنیم مناسب است؟ خیلی ساده بگوییم، نیایید و همان ابتدا در سایکل های اولیه یادگیری هر کلاس را ده برابر کنید. این کار منطقی نیست. فاصله بین سایکلهای مختلف تغییر هایپرپارامتر نباید زیاد باشد. اگر داده خیلی زیاد باشد، این فاصله بسیار زیاد می شود. از سویی افزایش دیتا باید با توجه به اینکه شبکه مشکل بایاس یا واریانس دارد اعمال شود.

- از چه تبدیل هایی می خواهید استفاده کنید؟ پ: در مثالی که داریم، افزایش دیتا اهمیت دارد ولی به چه قیمتی؟ نوشتیم حروف انگلیسی ولی آیا این حروف دست نویس هستند یا نوشته های کامپیوتری؟ این دو مساله کاملا مجزا از هم هستند. در مورد داده های دست نویس، اگر از فونت کامپیوتری استفاده کنیم، حتما لازم است داده ها را با تبدیلهای غیر خطی افزایش بدهیم. یعنی تسک یکسان است ولی با توجه به ماهیت داده های واقعیِ مساله باید تصمیم بگیریم چه تبدیلی بزنیم.

- آیا تبدیلها مناسب واقعیت هستند؟ پ: اگر از تبدیلهای از پیش پیاده سازی شده می خواهید استفاده کنید، خیلی مراقب باشید؛ زیرا ممکن است برای بعضی از کلاس ها دردسر ساز باشند. تبدیل ریفلکشن برای حروف J و L می تواند مشکل ساز باشد. این موضوع را بسط بدهید به تمامیِ مسائل. یعنی برای اعمال یک تبدیل، سعی کنید تمامی کلاسها را در نظر بگیرید و گرنه شبکه ممکن است اشتباه بعضی از کلاسها را یاد بگیرد یا توزیع برخی کلاسها به هم بریزد و شما اصلا متوجه نشوید.

- تصاویری که به عنوان تکسچر استفاده می شوند آیا واقعا ضروری هستند؟ پ: با توجه به محلی که سیستم OCR قرار است استفاده شود این موضوع اهمیت دارد؛ یعنی اگر قرار بود نوشته روی دیوار یا پوستر خوانده شود، این کار خوب است ولی اگر مطالب فقط برای کتابهایی بود که می دانیم پس زمینه سفید است، این کار فقط به شبکه پیچیدگی اضافه می کند.

- اصلا نیاز به استفاده از تصویر رنگی وجود دارد؟ پ: اگر پس زمینه سفید باشد، یک انسان می تواند حروف را تشخیص دهد حال رنگی باشند یا نه، پس شبکه هم به همین شکل؛ یعنی لازم است در انتخاب خود دیتا و تغییر رنگش، خطای بیز را لحاظ کنیم که با تغییرات متفاوت انسان چگونه می تواند کار کند و به تبع شبکه چه کار می تواند بکند.

(ادامه دارد)
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#نکته_آموزشی #یادگیری_عمیق #آموزش_شبکه_عصبی #مثالهای_کاربردی #پروژه_تجاری #data_augmentation
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت

256 views12:39

طرح توسعه فعالیتهای علمی و فرهنگی دانشجویان مستعد تحصیلی کشور در سال تحصیلی 1402-1401

ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#اطلاع_رسانی
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت

222 views04:46

Media is too big

VIEW IN TELEGRAM

Normalizing flows

ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#یادگیری_عمیق #normalizing_flows #نکته_آموزشی #ویدیو
ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت

240 viewsedited 04:46

استفاده از یادگیری عمیق در پروژه های تجاری - بخش یازدهم

ست کردن بچ سایز

در زمان آموزش شبکه یکی از موارد مهمی که لازم است به آن توجه کرد، سایز minibatch است. وقتی که این سایز را افزایش می دهیم، تخمین تابع هزینه و جهت کاهشی به واقعیت نزدیکتر خواهد بود؛ با این حال، مشکلی که وجود دارد همین تخمین مناسب است که باعث می شود خطر گیر کردن در نقاط اکسترمم افزایش یابد. به عبارتی با تخمین مناسب ما در جهت کاهشی حرکت می کنیم ولی در نهایت چون هر بار تخمین تقریبا یکسان است، ما به یک نقطه احتمالا همگرا می شویم. توصیه می شود سایز minibatch را 32 یا 64 در نظر بگیرید تا در هر بار فرآیند کاهش تابع هزینه، تخمین تابع هزینه چیز جدیدی شود. اینکار شاید در ظاهر خوب نباشد ولی سبب می شود به صورت کلی در جهت کاهشی حرکت کنیم و به یک نقطه خاص همگرا نشویم زیرا تخمین خیلی دقیق نیست. با این ترفند می توان از اکسترمم های محلی گریخت.

(ادامه دارد)
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#نکته_آموزشی #یادگیری_عمیق #آموزش_شبکه_عصبی #مثالهای_کاربردی #پروژه_تجاری #minibatch_size
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت

229 views08:28

استفاده از یادگیری عمیق در پروژه های تجاری - بخش دوازدهم

استفاده از dropout در شبکه های LSTM

یکی از موثرترین راه ها برای جلوگیری از overfit شدن، استفاده از dropout در شبکه های عصبی است؛ با این حال، در شبکه های LSTM استفاده از این روش چندان توصیه نمی شود. اگر به صورت ساده انگارانه نگاه کنیم، هر شبکه LSTM به این شکل است که یک لایه به شدت غیر خطی است که همانند یک لایه dense است ولی با تفاوت های پایین:

- همه داده را به صورت یکجا دریافت نمی کند و پله پله روی ورودی حرکت می کند.
- از مرحله قبل ورودی دریافت می کند ولی اتصالات به صورت dense است.
- دارای گیت است که سبب می شود قدرت حافظه داشته باشد.

با دانستن این موارد، معلوم می شود که تعداد لایه های ما خیلی کم است که بخواهیم از dropout در شبکه LSTM استفاده کنیم؛ به عبارتی، تعداد نورونها خیلی محدود است و با drop کردن، اطلاعات خیلی زیادی از بین می روند. توصیه ای که می کنیم این است که سعی کنید از روشهای L1/L2 برای جلوگیری از overfit شدن استفاده کنید. ولی اینجا یک مشکلی وجود دارد. اگر از بهینه سازی مثلِ Adam استفاده کنید، چندان عملکرد بهبود پیدا نمی کند. بهتر است از روشهای بهینه سازی AdamW، SGD یا SGDW استفاده کنید.

(ادامه دارد)
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#نکته_آموزشی #یادگیری_عمیق #آموزش_شبکه_عصبی #مثالهای_کاربردی #dropout #پروژه_تجاری #LSTM
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت

261 views06:59

زنجیره مارکوف

یکی از مفاهیمی که می توان گفت اساس خیلی از راه حل های مهندسی بر پایه آن است، زنجیره مارکوف است. خیلی از کارهایی که ما انجام می دهیم ممکن است به گذشته مربوط باشد، ولی تا چه میزان؟ هر چه طول وابستگی به گذشته بیشتر باشد، به تبع حالتهای مختلفی امکان وقوع دارند. فرض کنید که سه پدیده که یکی پس از دیگری قرار است اتفاق بیافتد را می خواهیم بررسی کنیم. اگر مباحث مربوط به احتمالاتشان را مورد مطالعه قرار دهیم، اگر این سه پدیده به هم وابستگی داشته باشند، لازم است توزیع joint را پیدا کنیم. فرض کنید که هر کدام از این سه، 5 حالت متفاوت داشته باشند. پس تعداد کل حالت ها برای توصیف تابع احتمال می شود پنج به توان سه. یعنی برای سه متغیر این تعداد حالت، که زیاد است، وجود دارد. حال اگر فرض کنیم که هر کدام از این متغیرها مستقل هستند و به متغیر قبلی وابسته نیستند، مارکوف مرتبه اول، می توان گفت که احتمال قبلی که تعداد حالات زیادی برای بررسی داشت تبدیل می شود به ضربِ سه تابع احتمال جدا از هم که هر یک پنج حالت دارند. برای فهم بهتر، در حالت اولیه برای توصیف کل احتمال نیاز است که پنج به توان سه حالت را بررسی کنیم ولی برای حالت دوم می توان کل تابع احتمال را با دانستن احتمال سه توزیعِ marginal که هر یک پنج حالت دارند، توصیف کرد. به عبارتی مساله ای که حالاتش خیلی زیاد می شد را با یک فرض ساده به یک مساله ساده تر تبدیل کردیم. در اطراف ما پدیده های مختلفی هستند که گذشته برایشان چندان اهمیت ندارد. هر وضعیت شطرنجی که داده شود، در آن لحظه مهم نیست گذشته چه کرده ایم، حرکت کنونی مهم است. این روش ساده در جای جایِ هوش مصنوعی استفاده شده است. خوبی مارکوف این است که شما می توانید حتی پدیده هایی که به گذشته وابسته هستند را هم دخیل کنید. به این شکل که در state کنونی هر چه که از گذشته لازم دارید را قرار می دهید تا state کنونی و بعدی به هم وابسته نباشند و در state کنونی اطلاعات مناسب وجود داشته باشد.

ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#نکته_آموزشی #زنجیره_مارکوف #مارکوف #تئوری
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت

311 views09:58

Media is too big

VIEW IN TELEGRAM

The idea behind transformers!

ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#یادگیری_عمیق #transformer #نکته_آموزشی #ویدیو
ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت

230 views05:21

ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#اطلاع_رسانی
ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت

192 views05:35

2025/06/29 10:00:25
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>