COMPUTATIONALLINGUISTICSNLP Telegram 44
دیتاست دیوان بزرگترین دیتاست متن باز شامل شبکه‌های اجتماعی

▪️دیتاست‌هایی که در پردازش زبان طبیعی (NLP) یا پردازش متن استفاده می‌شوند، شامل مجموعه‌ای از متون هستند که برای آموزش و ارزیابی مدل‌های یادگیری ماشین به کار می‌روند.

هدف اصلی استفاده از این دیتاست‌ها در پردازش متن، بهبود و توسعه مدل‌هایی است که قادر به درک، تحلیل و پردازش زبان انسانی باشند.

▫️لایف‌وب پس از تجربه موفق توسعه مدل‌های زبانی تهران و شیراز در صدد است تا دیتاست دیوان را به عنوان عامل موثر در بهبود کیفیت این مدل‌ها نسبت به رقبا در جهت اعتلای کیفیت عملکرد در حوزه پردازش زبان فارسی معرفی کند تا نقش اجتماعی خود را در این راستا ایفا سازد.

▪️مهم‌ترین ویژگی دیوان به عنوان گامی نو در پردازش زبان طبیعی فارسی، وجود حجم انبوهی از داده‌های شبکه‌های اجتماعی است که شامل متن‌های تکراری نیست. از نظر اندازه، ۱۰۰ میلیون رکورد داده از بسترهای مختلف جمع‌آوری شده است که در مجموع شامل بیش از ۸ میلیارد توکن است.

▫️در حال حاضر بسترهایی که در این دیتاست پوشش داده می‌شوند به شرح زیر هستند:
اخبار خبرگزاری‌ها
انواع بلاگ‌ها
توییر
اینستاگرام ( پست و کامنت)
تلگرام ( کانال و گروه)
دیجی کالا ( کامنت)
ایتا ( پست )
دیوار

هم‌اکنون افرادی که در حوزه پردازش زبان طبیعی مشغول به فعالیت هستند میتوانند اطلاعات این دیتاست را در صفحات لایف‌وب به آدرس
https://huggingface.co/datasets/lifeweb-ai/Divan و https://github.com/lifeweb-ir/Divan مشاهده کنند.

@ComputationallinguisticsNLP



tgoop.com/ComputationallinguisticsNLP/44
Create:
Last Update:

دیتاست دیوان بزرگترین دیتاست متن باز شامل شبکه‌های اجتماعی

▪️دیتاست‌هایی که در پردازش زبان طبیعی (NLP) یا پردازش متن استفاده می‌شوند، شامل مجموعه‌ای از متون هستند که برای آموزش و ارزیابی مدل‌های یادگیری ماشین به کار می‌روند.

هدف اصلی استفاده از این دیتاست‌ها در پردازش متن، بهبود و توسعه مدل‌هایی است که قادر به درک، تحلیل و پردازش زبان انسانی باشند.

▫️لایف‌وب پس از تجربه موفق توسعه مدل‌های زبانی تهران و شیراز در صدد است تا دیتاست دیوان را به عنوان عامل موثر در بهبود کیفیت این مدل‌ها نسبت به رقبا در جهت اعتلای کیفیت عملکرد در حوزه پردازش زبان فارسی معرفی کند تا نقش اجتماعی خود را در این راستا ایفا سازد.

▪️مهم‌ترین ویژگی دیوان به عنوان گامی نو در پردازش زبان طبیعی فارسی، وجود حجم انبوهی از داده‌های شبکه‌های اجتماعی است که شامل متن‌های تکراری نیست. از نظر اندازه، ۱۰۰ میلیون رکورد داده از بسترهای مختلف جمع‌آوری شده است که در مجموع شامل بیش از ۸ میلیارد توکن است.

▫️در حال حاضر بسترهایی که در این دیتاست پوشش داده می‌شوند به شرح زیر هستند:
اخبار خبرگزاری‌ها
انواع بلاگ‌ها
توییر
اینستاگرام ( پست و کامنت)
تلگرام ( کانال و گروه)
دیجی کالا ( کامنت)
ایتا ( پست )
دیوار

هم‌اکنون افرادی که در حوزه پردازش زبان طبیعی مشغول به فعالیت هستند میتوانند اطلاعات این دیتاست را در صفحات لایف‌وب به آدرس
https://huggingface.co/datasets/lifeweb-ai/Divan و https://github.com/lifeweb-ir/Divan مشاهده کنند.

@ComputationallinguisticsNLP

BY CL & NLP Enthusiasts




Share with your friend now:
tgoop.com/ComputationallinguisticsNLP/44

View MORE
Open in Telegram


Telegram News

Date: |

Each account can create up to 10 public channels How to create a business channel on Telegram? (Tutorial) In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013. Unlimited number of subscribers per channel How to Create a Private or Public Channel on Telegram?
from us


Telegram CL & NLP Enthusiasts
FROM American