tgoop.com/ComputationallinguisticsNLP/66
Last Update:
مدل جدید« مدرن برت» که جایگزین مدل Bert است در مقاله زیر معرفی شد. از جمله ویژگی های این مدل می توان به نکات زیر اشاره کرد.
ویژگیهای ModernBERT:
افزایش ظرفیت و عملکرد:
افزایش طول پنجره متنی از 512 به 8000 توکن.
مناسب برای وظایف کدنویسی و جستجوی کد.
امتیازدهی بهتر در بنچمارکهایی مثل SQA و GLUE.
معماری بهینه:
استفاده از تکنیکهای پیشرفته مانند روتاری جایگذاری موقعیتی (RoPE) برای پردازش متون بلند.
بهکارگیری FlashAttention-2 برای کارایی بیشتر روی GPUهای پیشرفته.
ترکیب توجه محلی و جهانی برای مدیریت بهتر توالیهای بلند.
اولین مدل انکودر با دادههای آموزشی قابل توجه از کدهای برنامهنویسی.
کارایی بالا:
دو برابر سریعتر از DeBERTa و مصرف حافظه یکپنجم کمتر.
قابلیت اجرا روی سیستمهای معمولی (حداقل GPUبرای اجرا 4090)
ا ModernBERT در نسخههای Base (149 میلیون پارامتر) و Large (395 میلیون پارامتر) ارائه شده و به زودی به کتابخانه Transformers اضافه میشود.
مناسبتر برای وظایفی مانند بازیابی اطلاعات، طبقهبندی و استخراج.
▪️ Replacement for BERT: ModernBERT
▪️ Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference
@computationallinguisticsNLP
BY CL & NLP Enthusiasts

Share with your friend now:
tgoop.com/ComputationallinguisticsNLP/66