Notice: file_put_contents(): Write of 4653 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 16384 of 21037 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
Bias Variance@biasvariance_ir P.268
BIASVARIANCE_IR Telegram 268
استفاده از یادگیری عمیق در پروژه های تجاری - بخش دهم

دقت در فرآیند افزایش و انتخابِ دیتا

پیش از این پیرامون افزایش دیتا مطالب متفاوتی را ذکر کرده بودیم. از بهم نریختن توزیع داده ها تا بررسیِ تبدیلهای متنوع ولی در این پست قصد اشاره به نکاتی دیگر داریم که لازم است در این فرآیند لحاظ شود تا کار یادگیری شبکه ساده باشد. مثال را پیرامون یک نمونه عینی می زنیم. فرض کنید که می خواهید شبکه ای کانولوشنی را برای آموزش روی دادگانِ حروف انگلیسی استفاده کنید تا برای تسکی مثل OCR استفاده شود. در این حالت ممکن است برای هر کلاس دیتاها را افزایش دهید یا از فونت های متفاوت استفاده کنید و تکسچرهای متنوعی را در بکگراند دخیل کنید. به چند سوالِ مهم که لازم است قبل از افزایش و انتخابِ دیتا لحاظ شوند اشاره می کنیم:

- برای هر کلاس چقدر می خواهید داده اضافه کنید؟ پ: هر چقدر داده زیاد باشد، کار شبکه برای یادگیری سخت می شود. اگر شبکه مشکل بایاس داشته باشد، دیتا اضافه کردن به هیچ وجه کمک نمی کند. از سویی ذکر کرده بودیم که دیتا آگمنتیشن باید توزیع را به هم نزند ولی نکته بعدی این است که اگر هر کلاس قرار است دادگانش زیاد شود و توزیع کلی به هم نریزد، چه تعداد داده اضافه کنیم مناسب است؟ خیلی ساده بگوییم، نیایید و همان ابتدا در سایکل های اولیه یادگیری هر کلاس را ده برابر کنید. این کار منطقی نیست. فاصله بین سایکلهای مختلف تغییر هایپرپارامتر نباید زیاد باشد. اگر داده خیلی زیاد باشد، این فاصله بسیار زیاد می شود. از سویی افزایش دیتا باید با توجه به اینکه شبکه مشکل بایاس یا واریانس دارد اعمال شود.

- از چه تبدیل هایی می خواهید استفاده کنید؟ پ: در مثالی که داریم، افزایش دیتا اهمیت دارد ولی به چه قیمتی؟ نوشتیم حروف انگلیسی ولی آیا این حروف دست نویس هستند یا نوشته های کامپیوتری؟ این دو مساله کاملا مجزا از هم هستند. در مورد داده های دست نویس، اگر از فونت کامپیوتری استفاده کنیم، حتما لازم است داده ها را با تبدیلهای غیر خطی افزایش بدهیم. یعنی تسک یکسان است ولی با توجه به ماهیت داده های واقعیِ مساله باید تصمیم بگیریم چه تبدیلی بزنیم.

- آیا تبدیلها مناسب واقعیت هستند؟ پ: اگر از تبدیلهای از پیش پیاده سازی شده می خواهید استفاده کنید، خیلی مراقب باشید؛ زیرا ممکن است برای بعضی از کلاس ها دردسر ساز باشند. تبدیل ریفلکشن برای حروف J و L می تواند مشکل ساز باشد. این موضوع را بسط بدهید به تمامیِ مسائل. یعنی برای اعمال یک تبدیل، سعی کنید تمامی کلاسها را در نظر بگیرید و گرنه شبکه ممکن است اشتباه بعضی از کلاسها را یاد بگیرد یا توزیع برخی کلاسها به هم بریزد و شما اصلا متوجه نشوید.

- تصاویری که به عنوان تکسچر استفاده می شوند آیا واقعا ضروری هستند؟ پ: با توجه به محلی که سیستم OCR قرار است استفاده شود این موضوع اهمیت دارد؛ یعنی اگر قرار بود نوشته روی دیوار یا پوستر خوانده شود، این کار خوب است ولی اگر مطالب فقط برای کتابهایی بود که می دانیم پس زمینه سفید است، این کار فقط به شبکه پیچیدگی اضافه می کند.

- اصلا نیاز به استفاده از تصویر رنگی وجود دارد؟ پ: اگر پس زمینه سفید باشد، یک انسان می تواند حروف را تشخیص دهد حال رنگی باشند یا نه، پس شبکه هم به همین شکل؛ یعنی لازم است در انتخاب خود دیتا و تغییر رنگش، خطای بیز را لحاظ کنیم که با تغییرات متفاوت انسان چگونه می تواند کار کند و به تبع شبکه چه کار می تواند بکند.


(ادامه دارد)
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#نکته_آموزشی #یادگیری_عمیق #آموزش_شبکه_عصبی #مثالهای_کاربردی #پروژه_تجاری #data_augmentation
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت



tgoop.com/biasvariance_ir/268
Create:
Last Update:

استفاده از یادگیری عمیق در پروژه های تجاری - بخش دهم

دقت در فرآیند افزایش و انتخابِ دیتا

پیش از این پیرامون افزایش دیتا مطالب متفاوتی را ذکر کرده بودیم. از بهم نریختن توزیع داده ها تا بررسیِ تبدیلهای متنوع ولی در این پست قصد اشاره به نکاتی دیگر داریم که لازم است در این فرآیند لحاظ شود تا کار یادگیری شبکه ساده باشد. مثال را پیرامون یک نمونه عینی می زنیم. فرض کنید که می خواهید شبکه ای کانولوشنی را برای آموزش روی دادگانِ حروف انگلیسی استفاده کنید تا برای تسکی مثل OCR استفاده شود. در این حالت ممکن است برای هر کلاس دیتاها را افزایش دهید یا از فونت های متفاوت استفاده کنید و تکسچرهای متنوعی را در بکگراند دخیل کنید. به چند سوالِ مهم که لازم است قبل از افزایش و انتخابِ دیتا لحاظ شوند اشاره می کنیم:

- برای هر کلاس چقدر می خواهید داده اضافه کنید؟ پ: هر چقدر داده زیاد باشد، کار شبکه برای یادگیری سخت می شود. اگر شبکه مشکل بایاس داشته باشد، دیتا اضافه کردن به هیچ وجه کمک نمی کند. از سویی ذکر کرده بودیم که دیتا آگمنتیشن باید توزیع را به هم نزند ولی نکته بعدی این است که اگر هر کلاس قرار است دادگانش زیاد شود و توزیع کلی به هم نریزد، چه تعداد داده اضافه کنیم مناسب است؟ خیلی ساده بگوییم، نیایید و همان ابتدا در سایکل های اولیه یادگیری هر کلاس را ده برابر کنید. این کار منطقی نیست. فاصله بین سایکلهای مختلف تغییر هایپرپارامتر نباید زیاد باشد. اگر داده خیلی زیاد باشد، این فاصله بسیار زیاد می شود. از سویی افزایش دیتا باید با توجه به اینکه شبکه مشکل بایاس یا واریانس دارد اعمال شود.

- از چه تبدیل هایی می خواهید استفاده کنید؟ پ: در مثالی که داریم، افزایش دیتا اهمیت دارد ولی به چه قیمتی؟ نوشتیم حروف انگلیسی ولی آیا این حروف دست نویس هستند یا نوشته های کامپیوتری؟ این دو مساله کاملا مجزا از هم هستند. در مورد داده های دست نویس، اگر از فونت کامپیوتری استفاده کنیم، حتما لازم است داده ها را با تبدیلهای غیر خطی افزایش بدهیم. یعنی تسک یکسان است ولی با توجه به ماهیت داده های واقعیِ مساله باید تصمیم بگیریم چه تبدیلی بزنیم.

- آیا تبدیلها مناسب واقعیت هستند؟ پ: اگر از تبدیلهای از پیش پیاده سازی شده می خواهید استفاده کنید، خیلی مراقب باشید؛ زیرا ممکن است برای بعضی از کلاس ها دردسر ساز باشند. تبدیل ریفلکشن برای حروف J و L می تواند مشکل ساز باشد. این موضوع را بسط بدهید به تمامیِ مسائل. یعنی برای اعمال یک تبدیل، سعی کنید تمامی کلاسها را در نظر بگیرید و گرنه شبکه ممکن است اشتباه بعضی از کلاسها را یاد بگیرد یا توزیع برخی کلاسها به هم بریزد و شما اصلا متوجه نشوید.

- تصاویری که به عنوان تکسچر استفاده می شوند آیا واقعا ضروری هستند؟ پ: با توجه به محلی که سیستم OCR قرار است استفاده شود این موضوع اهمیت دارد؛ یعنی اگر قرار بود نوشته روی دیوار یا پوستر خوانده شود، این کار خوب است ولی اگر مطالب فقط برای کتابهایی بود که می دانیم پس زمینه سفید است، این کار فقط به شبکه پیچیدگی اضافه می کند.

- اصلا نیاز به استفاده از تصویر رنگی وجود دارد؟ پ: اگر پس زمینه سفید باشد، یک انسان می تواند حروف را تشخیص دهد حال رنگی باشند یا نه، پس شبکه هم به همین شکل؛ یعنی لازم است در انتخاب خود دیتا و تغییر رنگش، خطای بیز را لحاظ کنیم که با تغییرات متفاوت انسان چگونه می تواند کار کند و به تبع شبکه چه کار می تواند بکند.


(ادامه دارد)
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#نکته_آموزشی #یادگیری_عمیق #آموزش_شبکه_عصبی #مثالهای_کاربردی #پروژه_تجاری #data_augmentation
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
🌳 پشتیبانی | 🌺 کانال | 🌴 سایت

BY Bias Variance


Share with your friend now:
tgoop.com/biasvariance_ir/268

View MORE
Open in Telegram


Telegram News

Date: |

Matt Hussey, editorial director at NEAR Protocol also responded to this news with “#meIRL”. Just as you search “Bear Market Screaming” in Telegram, you will see a Pepe frog yelling as the group’s featured image. Avoid compound hashtags that consist of several words. If you have a hashtag like #marketingnewsinusa, split it into smaller hashtags: “#marketing, #news, #usa. Hui said the time period and nature of some offences “overlapped” and thus their prison terms could be served concurrently. The judge ordered Ng to be jailed for a total of six years and six months. 1What is Telegram Channels? There have been several contributions to the group with members posting voice notes of screaming, yelling, groaning, and wailing in different rhythms and pitches. Calling out the “degenerate” community or the crypto obsessives that engage in high-risk trading, Co-founder of NFT renting protocol Rentable World emiliano.eth shared this group on his Twitter. He wrote: “hey degen, are you stressed? Just let it out all out. Voice only tg channel for screaming”.
from us


Telegram Bias Variance
FROM American