CL & NLP Enthusiasts@ComputationallinguisticsNLP P.44

CL & NLP Enthusiasts

⏺دیتاست دیوان بزرگترین دیتاست متن باز شامل شبکه‌های اجتماعی

▪️دیتاست‌هایی که در پردازش زبان طبیعی (NLP) یا پردازش متن استفاده می‌شوند، شامل مجموعه‌ای از متون هستند که برای آموزش و ارزیابی مدل‌های یادگیری ماشین به کار می‌روند.

⏪ هدف اصلی استفاده از این دیتاست‌ها در پردازش متن، بهبود و توسعه مدل‌هایی است که قادر به درک، تحلیل و پردازش زبان انسانی باشند.

▫️لایف‌وب پس از تجربه موفق توسعه مدل‌های زبانی تهران و شیراز در صدد است تا دیتاست دیوان را به عنوان عامل موثر در بهبود کیفیت این مدل‌ها نسبت به رقبا در جهت اعتلای کیفیت عملکرد در حوزه پردازش زبان فارسی معرفی کند تا نقش اجتماعی خود را در این راستا ایفا سازد.

▪️مهم‌ترین ویژگی دیوان به عنوان گامی نو در پردازش زبان طبیعی فارسی، وجود حجم انبوهی از داده‌های شبکه‌های اجتماعی است که شامل متن‌های تکراری نیست. از نظر اندازه، ۱۰۰ میلیون رکورد داده از بسترهای مختلف جمع‌آوری شده است که در مجموع شامل بیش از ۸ میلیارد توکن است.

▫️در حال حاضر بسترهایی که در این دیتاست پوشش داده می‌شوند به شرح زیر هستند:
اخبار خبرگزاری‌ها
انواع بلاگ‌ها
توییر
اینستاگرام ( پست و کامنت)
تلگرام ( کانال و گروه)
دیجی کالا ( کامنت)
ایتا ( پست )
دیوار

⏪ هم‌اکنون افرادی که در حوزه پردازش زبان طبیعی مشغول به فعالیت هستند میتوانند اطلاعات این دیتاست را در صفحات لایف‌وب به آدرس
https://huggingface.co/datasets/lifeweb-ai/Divan و https://github.com/lifeweb-ir/Divan مشاهده کنند.

@ComputationallinguisticsNLP

huggingface.co

lifeweb-ai/Divan · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

www.tgoop.com/ComputationallinguisticsNLP/44

402 viewsNov 12, 2024 at 12:09

tgoop.com/ComputationallinguisticsNLP/44

Create: 2024-11-12
Last Update: 2025-07-08 00:19:49

BY CL & NLP Enthusiasts

Share with your friend now:
tgoop.com/ComputationallinguisticsNLP/44

Telegram News

⏺دیتاست دیوان بزرگترین دیتاست متن باز شامل شبکه‌های اجتماعی