tgoop.com/BigDataWorkGroup/403
Last Update:
📊 میزان (MIZAN): جامعترین لیدربورد ارزیابی مدلهای زبانی بزرگ (LLM) در زبان فارسی
پس از عرضه بنچمارک FaMTEB برای ارزیابی مدلهای Text Embedding، اینبار دستاوردی تازه در پردازش زبان طبیعی فارسی
✅ برخی ویژگی های میزان:
- مقایسه جامع مدلهای روز: ارزیابی دقیق مدلهای متنباز و بسته با هدف ایجاد یک مرجع معتبر برای فارسیزبانان
- پوشش ۶ بنچمارک تخصصی: سنجش عملکرد مدلها در چت، پیروی از دستورالعمل، NLU، NLG، استدلال منطقی و دانش عمومی
- تنوع کاربردی بالا: سناریوهای واقعی فارسی مانند گفتوگوی چندمرحلهای، RAG، تولید محتوا و پاسخگویی منطقی
🏆 بنچمارکهای کلیدی میزان:
Persian MT-Bench: ارزیابی چت چندمرحلهای و کاربرد در سیستمهای RAG
Persian IFEval: بررسی توانایی مدلها در پیروی از دستورالعملها
PerCoR: اولین بنچمارک استدلال منطقی در زبان فارسی
PerMMLU: سنجش دانش عمومی و تخصصی مدلها در موضوعات متنوع در زبان فارسی
Persian NLU: ارزیابی درک زبان طبیعی فارسی
Persian NLG: ارزیابی تولید زبان طبیعی فارسی
🔗 لینک لیدربورد میزان
📖 مقاله معرفی میزان
🔗 بنچمارک FaMTEB
@irandeeplearning
BY کارگروه کلانداده - دانشگاه صنعتی شریف

Share with your friend now:
tgoop.com/BigDataWorkGroup/403