BIGDATA_BUSINESSANALYTICS Telegram 576
📌معرفی مقالات حوزه عظیم داده‌ها
❇️ نام مقاله:
Facilitating topic modeling in tourism research: Comprehensive comparison of new AI technologies
✍️ نویسندگان:
Andrei P. Kirilenko  , Svetlana Stepchenkova
📔ژورنال :
Tourism Management
🗓سال انتشار:
2025

🔸نویسندگان این مقاله با ذکر اهمیت این موضوع که تحلیل محتوای تولیدشده توسط کاربران (UGC) در حوزه گردشگری امروز یکی از مهمترین منابع درک نگرش‌ مسافران و رفتار مصرف کنندگان است، به این نکته اشاره دارند که از گذشته، روش‌های مدل‌سازی موضوعی مانند LDA برای این نوع تحلیل مرسوم بودند. اما با ظهور مدل‌های پیشرفته‌تر مبنی بر ترنسفورمر همچون BERT و GPT، ضرورت ارزیابی مقایسه‌ای این روش‌ها برای انتخاب بهینه بر اساس نوع داده اجتماعی مطرح شد. این مقاله با ارائه یک تحلیل مقایسه‌ای بین این روش‌ها ، به بررسی عملکرد آنها در داده‌های مختلف گردشگری می‌پردازد.

🔹داده‌های مورد استفاده این پژوهش شامل نظرات کاربران در پلتفرم‌هایی مانند  TripAdvisor ، یوتیوب  و ویبو است که از نظر انسجام، طول متن و حجم داده‌ها متفاوت هستند.

🔸این مقاله به دنبال پاسخ به سوالات زیر است:
1.عملکرد سه روش LDA، BERT و GPT در استخراج موضوعات از داده‌های گردشگری چگونه است؟
2.هر روش در چه نوع داده‌هایی (کوتاه/بلند، منسجم/نویزدار، حجم کوچک/بزرگ) بهتر عمل می‌کند؟
3. نقاط قوت و ضعف هر روش چیست و چگونه می‌توان از آنها در تحقیقات گردشگری استفاده کرد؟

🔹در ادامه بطور خلاصه معرفی از این سه روش ارائه شده است که بشرح زیر است:

 روش LDA :  یک روش آماری احتمالاتی است که هر سند را ترکیبی از موضوعات و هر موضوع را ترکیبی از کلمات می‌داند. این روش نیاز به داده‌های حجیم و متون نسبتاً طولانی دارد تا توزیع موضوعات را به‌درستی تخمین بزند. تفسیر نتایج در این روش نیازمند تحلیل دستی است، زیرا خروجی آن لیستی از کلمات کلیدی است که باید توسط پژوهشگر معناگذاری شوند.

روش  BERT : این روش از بردارسازی برای درک معنای کلمات در متن استفاده می‌کند و با معماری Self-Attention ارتباط بین کلمات را تحلیل می‌کند.
در BERTopic، ابتدا اسناد به بردارهای عددی تبدیل می‌شوند، سپس خوشه‌بندی انجام می‌شود و هر خوشه به یک موضوع نسبت داده می‌شود.
عملکرد این روش به دامنه داده‌های آموزشی وابسته است و برای متون کوتاه و نویزدار مناسب است.

روش  GPT : برخلاف BERT، به‌صورت یک‌طرفه آموزش دیده و توانایی تولید متن منسجم را دارد. این روش می‌تواند مستقیماً موضوعات را به‌صورت توصیفی و قابل‌فهم ارائه دهد، اما ماهیت جعبه سیاه دارد و تفسیر فرآیند استخراج موضوعات در آن دشوار است.

🔸 تنظیمات اجرای هر رویکرد در این مقاله به شرح زیر است:
*روش LDA:
پارامترهای α=0.1 و β=0.001.
تعداد کلمات کلیدی: ۴۰۰.
تعداد بهینه موضوعات با اجرای مدل در بازه ۵ تا ۱۵۰ موضوع انتخاب شد.

*روش BERTopic:
از مدل all-MiniLM-L6-v2 برای تبدیل متون به بردار استفاده شد.
خوشه‌بندی با HDBSCAN و کاهش ابعاد با UMAP انجام شد.
حداقل اندازه خوشه: ۱۰ سند

*روش GPT-4 :
 به دلیل محدودیت طول ورودی، داده‌ها به بخش‌های کوچک‌تر تقسیم شدند.
از مهندسی پرامپت برای استخراج، ادغام و تطبیق موضوعات استفاده شد.
 
🔹مقاله برای بررسی نتایج بدست آمده و مقایسه روش‌ها از ۵ معیار استفاده کرده که عبارتند از:

1.استخراج مؤثر موضوعات: آیا موضوعات استخراج‌شده قابل‌فهم و مرتبط با مفاهیم گردشگری هستند؟
2.پوشش موضوعی اسناد: چند درصد از اسناد به موضوعات مشخص مرتبط هستند؟
3. مقیاس‌پذیری: عملکرد روش در داده‌های کوچک/بزرگ و کوتاه/بلند چگونه است؟
4. تحمل نویز: توانایی پردازش داده‌های نویزدار.
5. شفافیت: امکان تفسیر فرآیند استخراج موضوعات.



www.bdbanalytics.ir
@BigData_BusinessAnalytics



tgoop.com/BigData_BusinessAnalytics/576
Create:
Last Update:

📌معرفی مقالات حوزه عظیم داده‌ها
❇️ نام مقاله:
Facilitating topic modeling in tourism research: Comprehensive comparison of new AI technologies
✍️ نویسندگان:
Andrei P. Kirilenko  , Svetlana Stepchenkova
📔ژورنال :
Tourism Management
🗓سال انتشار:
2025

🔸نویسندگان این مقاله با ذکر اهمیت این موضوع که تحلیل محتوای تولیدشده توسط کاربران (UGC) در حوزه گردشگری امروز یکی از مهمترین منابع درک نگرش‌ مسافران و رفتار مصرف کنندگان است، به این نکته اشاره دارند که از گذشته، روش‌های مدل‌سازی موضوعی مانند LDA برای این نوع تحلیل مرسوم بودند. اما با ظهور مدل‌های پیشرفته‌تر مبنی بر ترنسفورمر همچون BERT و GPT، ضرورت ارزیابی مقایسه‌ای این روش‌ها برای انتخاب بهینه بر اساس نوع داده اجتماعی مطرح شد. این مقاله با ارائه یک تحلیل مقایسه‌ای بین این روش‌ها ، به بررسی عملکرد آنها در داده‌های مختلف گردشگری می‌پردازد.

🔹داده‌های مورد استفاده این پژوهش شامل نظرات کاربران در پلتفرم‌هایی مانند  TripAdvisor ، یوتیوب  و ویبو است که از نظر انسجام، طول متن و حجم داده‌ها متفاوت هستند.

🔸این مقاله به دنبال پاسخ به سوالات زیر است:
1.عملکرد سه روش LDA، BERT و GPT در استخراج موضوعات از داده‌های گردشگری چگونه است؟
2.هر روش در چه نوع داده‌هایی (کوتاه/بلند، منسجم/نویزدار، حجم کوچک/بزرگ) بهتر عمل می‌کند؟
3. نقاط قوت و ضعف هر روش چیست و چگونه می‌توان از آنها در تحقیقات گردشگری استفاده کرد؟

🔹در ادامه بطور خلاصه معرفی از این سه روش ارائه شده است که بشرح زیر است:

 روش LDA :  یک روش آماری احتمالاتی است که هر سند را ترکیبی از موضوعات و هر موضوع را ترکیبی از کلمات می‌داند. این روش نیاز به داده‌های حجیم و متون نسبتاً طولانی دارد تا توزیع موضوعات را به‌درستی تخمین بزند. تفسیر نتایج در این روش نیازمند تحلیل دستی است، زیرا خروجی آن لیستی از کلمات کلیدی است که باید توسط پژوهشگر معناگذاری شوند.

روش  BERT : این روش از بردارسازی برای درک معنای کلمات در متن استفاده می‌کند و با معماری Self-Attention ارتباط بین کلمات را تحلیل می‌کند.
در BERTopic، ابتدا اسناد به بردارهای عددی تبدیل می‌شوند، سپس خوشه‌بندی انجام می‌شود و هر خوشه به یک موضوع نسبت داده می‌شود.
عملکرد این روش به دامنه داده‌های آموزشی وابسته است و برای متون کوتاه و نویزدار مناسب است.

روش  GPT : برخلاف BERT، به‌صورت یک‌طرفه آموزش دیده و توانایی تولید متن منسجم را دارد. این روش می‌تواند مستقیماً موضوعات را به‌صورت توصیفی و قابل‌فهم ارائه دهد، اما ماهیت جعبه سیاه دارد و تفسیر فرآیند استخراج موضوعات در آن دشوار است.

🔸 تنظیمات اجرای هر رویکرد در این مقاله به شرح زیر است:
*روش LDA:
پارامترهای α=0.1 و β=0.001.
تعداد کلمات کلیدی: ۴۰۰.
تعداد بهینه موضوعات با اجرای مدل در بازه ۵ تا ۱۵۰ موضوع انتخاب شد.

*روش BERTopic:
از مدل all-MiniLM-L6-v2 برای تبدیل متون به بردار استفاده شد.
خوشه‌بندی با HDBSCAN و کاهش ابعاد با UMAP انجام شد.
حداقل اندازه خوشه: ۱۰ سند

*روش GPT-4 :
 به دلیل محدودیت طول ورودی، داده‌ها به بخش‌های کوچک‌تر تقسیم شدند.
از مهندسی پرامپت برای استخراج، ادغام و تطبیق موضوعات استفاده شد.
 
🔹مقاله برای بررسی نتایج بدست آمده و مقایسه روش‌ها از ۵ معیار استفاده کرده که عبارتند از:

1.استخراج مؤثر موضوعات: آیا موضوعات استخراج‌شده قابل‌فهم و مرتبط با مفاهیم گردشگری هستند؟
2.پوشش موضوعی اسناد: چند درصد از اسناد به موضوعات مشخص مرتبط هستند؟
3. مقیاس‌پذیری: عملکرد روش در داده‌های کوچک/بزرگ و کوتاه/بلند چگونه است؟
4. تحمل نویز: توانایی پردازش داده‌های نویزدار.
5. شفافیت: امکان تفسیر فرآیند استخراج موضوعات.



www.bdbanalytics.ir
@BigData_BusinessAnalytics

BY تحلیلگری عظیم‌داده و کسب‌وکار


Share with your friend now:
tgoop.com/BigData_BusinessAnalytics/576

View MORE
Open in Telegram


Telegram News

Date: |

2How to set up a Telegram channel? (A step-by-step tutorial) Select “New Channel” The main design elements of your Telegram channel include a name, bio (brief description), and avatar. Your bio should be: Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.! Hui said the time period and nature of some offences “overlapped” and thus their prison terms could be served concurrently. The judge ordered Ng to be jailed for a total of six years and six months.
from us


Telegram تحلیلگری عظیم‌داده و کسب‌وکار
FROM American