BIGDATAWORKGROUP Telegram 403
Forwarded from Deep learning channel
📊 میزان (MIZAN): جامع‌ترین لیدربورد ارزیابی مدل‌های زبانی بزرگ (LLM) در زبان فارسی

پس از عرضه بنچمارک FaMTEB برای ارزیابی مدل‌های Text Embedding، این‌بار دستاوردی تازه‌ در پردازش زبان طبیعی فارسی

برخی ویژگی های میزان:
- مقایسه جامع مدل‌های روز: ارزیابی دقیق مدل‌های متن‌باز و بسته با هدف ایجاد یک مرجع معتبر برای فارسی‌زبانان
- پوشش ۶ بنچمارک تخصصی: سنجش عملکرد مدل‌ها در چت، پیروی از دستورالعمل، NLU، NLG، استدلال منطقی و دانش عمومی
- تنوع کاربردی بالا: سناریوهای واقعی فارسی مانند گفت‌وگوی چندمرحله‌ای، RAG، تولید محتوا و پاسخ‌گویی منطقی


🏆 بنچمارک‌های کلیدی میزان:
Persian MT-Bench: ارزیابی چت چندمرحله‌ای و کاربرد در سیستم‌های RAG
Persian IFEval: بررسی توانایی مدل‌ها در پیروی از دستورالعمل‌ها
PerCoR: اولین بنچمارک استدلال منطقی در زبان فارسی
PerMMLU: سنجش دانش عمومی و تخصصی مدل‌ها در موضوعات متنوع در زبان فارسی
Persian NLU: ارزیابی درک زبان طبیعی فارسی
Persian NLG: ارزیابی تولید زبان طبیعی فارسی

🔗 لینک لیدربورد میزان

📖 مقاله معرفی میزان

🔗 بنچمارک FaMTEB

@irandeeplearning



tgoop.com/BigDataWorkGroup/403
Create:
Last Update:

📊 میزان (MIZAN): جامع‌ترین لیدربورد ارزیابی مدل‌های زبانی بزرگ (LLM) در زبان فارسی

پس از عرضه بنچمارک FaMTEB برای ارزیابی مدل‌های Text Embedding، این‌بار دستاوردی تازه‌ در پردازش زبان طبیعی فارسی

برخی ویژگی های میزان:
- مقایسه جامع مدل‌های روز: ارزیابی دقیق مدل‌های متن‌باز و بسته با هدف ایجاد یک مرجع معتبر برای فارسی‌زبانان
- پوشش ۶ بنچمارک تخصصی: سنجش عملکرد مدل‌ها در چت، پیروی از دستورالعمل، NLU، NLG، استدلال منطقی و دانش عمومی
- تنوع کاربردی بالا: سناریوهای واقعی فارسی مانند گفت‌وگوی چندمرحله‌ای، RAG، تولید محتوا و پاسخ‌گویی منطقی


🏆 بنچمارک‌های کلیدی میزان:
Persian MT-Bench: ارزیابی چت چندمرحله‌ای و کاربرد در سیستم‌های RAG
Persian IFEval: بررسی توانایی مدل‌ها در پیروی از دستورالعمل‌ها
PerCoR: اولین بنچمارک استدلال منطقی در زبان فارسی
PerMMLU: سنجش دانش عمومی و تخصصی مدل‌ها در موضوعات متنوع در زبان فارسی
Persian NLU: ارزیابی درک زبان طبیعی فارسی
Persian NLG: ارزیابی تولید زبان طبیعی فارسی

🔗 لینک لیدربورد میزان

📖 مقاله معرفی میزان

🔗 بنچمارک FaMTEB

@irandeeplearning

BY کارگروه کلان‌داده - دانشگاه صنعتی شریف




Share with your friend now:
tgoop.com/BigDataWorkGroup/403

View MORE
Open in Telegram


Telegram News

Date: |

“Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group. Telegram is a leading cloud-based instant messages platform. It became popular in recent years for its privacy, speed, voice and video quality, and other unmatched features over its main competitor Whatsapp. Earlier, crypto enthusiasts had created a self-described “meme app” dubbed “gm” app wherein users would greet each other with “gm” or “good morning” messages. However, in September 2021, the gm app was down after a hacker reportedly gained access to the user data. The visual aspect of channels is very critical. In fact, design is the first thing that a potential subscriber pays attention to, even though unconsciously. To upload a logo, click the Menu icon and select “Manage Channel.” In a new window, hit the Camera icon.
from us


Telegram کارگروه کلان‌داده - دانشگاه صنعتی شریف
FROM American