tgoop.com/ComputerResearch/2729
Last Update:
📌 معرفی مقالات داغ حوزه عظیمداده
Analysis of Dimensionality Reduction Techniques on Big Data
🖋 نویسندگان:
G. THIPPA REDDY, M. PRAVEEN KUMAR REDDY, KURUVA LAKSHMANNA, RAJESH KALURI, DHARMENDRA SINGH RAJPUT, GAUTAM SRIVASTAVA (Senior Member, IEEE), AND THAR BAKER.
🔸 یکی از نتایج ورود به عصر دیجیتال، تولید حجم انبوهی از دادهها است. دادههایی که هم در تعداد رکورد و هم در تعداد ویژگیها ارقام بالایی را به خود اختصاص دادهاند. این موضوع باعث بروز چالشهایی در علم داده شده است. وجود چندین بعد برای مجموعه عظیمدادهها، کار تجزیه و تحلیل آنها یا کشف هر گونه الگویی در دادهها را بسیار سخت میکند. از طرف دیگر، برخی از ویژگیها از درجه اهمیت پایینی برخوردار هستند و کمک چندانی به فرایند یادگیری الگوریتمهای پیشبینی نخواهند کرد. بنابراین، رویکرد کاهش ابعاد برای حل این مساله ایجاد شده است. کاهش ابعاد، یک فرایند بسیار مهم در مرحله پیشپردازش دادهها محسوب میشود. در این فرایند شما با ترکیب یا ادغام، ویژگیهای دادهها را به گونهای کاهش میدهید که ویژگیهای قابل توجه مجموعه داده اصلی از بین نروند.
در این مقاله، به مقایسه دو روش مطرح در زمینه کاهش ابعاد ( PCA و LDA ) بر روی چهار الگوریتم یادگیری ماشین (درخت تصمیم، ماشین بردار پشتیبان، نایو بیز و جنگل تصادفی) پرداخته است. با اعمال روش (PCA)، 95درصد از ویژگیها حفظ شدند و تعداد متغیرهای وابسته به 26 کاهش یافت. در حالی که در روش LDA متغیرهای وابسته را به 1 کاهش میدهد. نتایج آزمایش ثابت میکند که PCA از LDA عملکرد بهتری داشته است. همچنین عملکرد دو روش طبقهبندی درخت تصمیم و جنگل تصادفی با اعمال کاهش ابعاد (PCA و LDA) تفاوت قابل توجهی نداشتند و حتی بدون استفاده از رویکرد کاهش ابعاد، عملکرد بهتری را ارایه کردند.
BY Computer Research
Share with your friend now:
tgoop.com/ComputerResearch/2729