tgoop.com/ComputationallinguisticsNLP/44
Last Update:
⏺دیتاست دیوان بزرگترین دیتاست متن باز شامل شبکههای اجتماعی
▪️دیتاستهایی که در پردازش زبان طبیعی (NLP) یا پردازش متن استفاده میشوند، شامل مجموعهای از متون هستند که برای آموزش و ارزیابی مدلهای یادگیری ماشین به کار میروند.
⏪ هدف اصلی استفاده از این دیتاستها در پردازش متن، بهبود و توسعه مدلهایی است که قادر به درک، تحلیل و پردازش زبان انسانی باشند.
▫️لایفوب پس از تجربه موفق توسعه مدلهای زبانی تهران و شیراز در صدد است تا دیتاست دیوان را به عنوان عامل موثر در بهبود کیفیت این مدلها نسبت به رقبا در جهت اعتلای کیفیت عملکرد در حوزه پردازش زبان فارسی معرفی کند تا نقش اجتماعی خود را در این راستا ایفا سازد.
▪️مهمترین ویژگی دیوان به عنوان گامی نو در پردازش زبان طبیعی فارسی، وجود حجم انبوهی از دادههای شبکههای اجتماعی است که شامل متنهای تکراری نیست. از نظر اندازه، ۱۰۰ میلیون رکورد داده از بسترهای مختلف جمعآوری شده است که در مجموع شامل بیش از ۸ میلیارد توکن است.
▫️در حال حاضر بسترهایی که در این دیتاست پوشش داده میشوند به شرح زیر هستند:
اخبار خبرگزاریها
انواع بلاگها
توییر
اینستاگرام ( پست و کامنت)
تلگرام ( کانال و گروه)
دیجی کالا ( کامنت)
ایتا ( پست )
دیوار
⏪ هماکنون افرادی که در حوزه پردازش زبان طبیعی مشغول به فعالیت هستند میتوانند اطلاعات این دیتاست را در صفحات لایفوب به آدرس
https://huggingface.co/datasets/lifeweb-ai/Divan و https://github.com/lifeweb-ir/Divan مشاهده کنند.
@ComputationallinguisticsNLP
BY CL & NLP Enthusiasts

Share with your friend now:
tgoop.com/ComputationallinguisticsNLP/44