tgoop.com/FinPy/1004
Last Update:
انتخاب k برای k-fold کراس ولیدیشن
▫️یکی از کاربردهای کراس ولیدیشن، تخمین عملکرد (Performance Estimation) مدلهای ماشین لرنینگ هست و شاید اولین سوالی که برای کاربر پیش میاد اینه که k رو چند بزارم. مثلا اگر k رو ۵ بزاریم، دیتا به ۵ قسمت تقسیم و ۵ بار مدل ترین میشه. هر بار، مدل روی ۸۰٪ دیتا ترین و روی ۲۰٪ باقیمانده ارزیابی میشه. بنابراین خروجی کراس ولیدیشن در این حالت ۵ تا عدد مثلا Accuracy خواهد بود که یه میانگینی دارند.
▫️برای اینکه میانگین این معیار ارزیابی به واقعیت نزدیکتر، یا به اصطلاح بایاس کمتری داشته باشه، به k بزرگتری نیاز داریم. محدوده پیشنهادی برای k با هدف تخمین عملکرد، ۱۰ تا ۲۰ هست و هر چه دیتای شما کمتر باشه، مثل چیزی که در مسایل مالی باهاش روبرو هستیم، انتخاب باید به سمت ۲۰ نزدیکتر باشه. حد ماکزیمم هم برای این گذاشته شده که وقتی k بزرگتر میشه فولدهای ترین کورولیشن زیادی با هم خواهند داشت بنابراین تخمین حاصل از کراس ولیدیشن اعتبار خودش رو روی دیتایی که مدل هیچ وقت ندیده (unseen data) از دست خواهد داد. مثلا با انتخاب ۵۰، مدل ۵۰ بار، هر بار با ۹۸٪ دیتا ترین و با ۲٪ باقیمانده تست خواهد شد!
@FinPy
BY فینپای | FinPy

Share with your friend now:
tgoop.com/FinPy/1004