tgoop.com/ComputationallinguisticsNLP/170
Create:
Last Update:
Last Update:
تعارف ایرانی
یک پژوهش تازه (با اسم جالب TAAROF BENCH) روی ۵ مدل زبانی معروف مثل Claude 3.5، GPT-4o، Llama 3، DeepSeek V3 و Dorna (مدل بومیشده برای فارسی) انجام شده است. هدفش بررسی اینه که این مدلها چقدر میتونن تعارف ایرانی رو درست بفهمن.
🔎 نتایج اصلی:
ایرانیهای native: ۸۱.۸٪ پاسخ درست
ایرانیهای مهاجر (heritage speakers): ۶۰٪
غیرایرانیها (تقریباً مثل AIها): ۴۲.۳٪ موفقیت
مدلهای بزرگ زبانی: فقط ۳۴–۴۲٪ موفقیت
📊 جالب اینجاست که وقتی همین مدلها رو به زبان فارسی تست کردن:
DeepSeek V3 از ۳۶.۶٪ به ۶۸.۶٪ جهش کرد!
GPT-4o هم ۲۳٪ بهبود داشت.
مدلهای کوچکتر مثل Llama 3 و Dorna فقط ۱۰–۱۲٪ بهتر شدن.
@computationallinguisticsNLP
BY CL & NLP Enthusiasts

Share with your friend now:
tgoop.com/ComputationallinguisticsNLP/170
