COMPUTATIONALLINGUISTICSNLP Telegram 66
مدل جدید« مدرن برت» که جایگزین مدل Bert است در مقاله زیر معرفی شد. از جمله ویژگی های این مدل می توان به نکات زیر اشاره کرد.

ویژگی‌های ModernBERT:

افزایش ظرفیت و عملکرد:
افزایش طول پنجره متنی از 512 به 8000 توکن.
مناسب برای وظایف کدنویسی و جستجوی کد.
امتیازدهی بهتر در بنچمارک‌هایی مثل SQA و GLUE.
معماری بهینه:
استفاده از تکنیک‌های پیشرفته مانند روتاری جای‌گذاری موقعیتی (RoPE) برای پردازش متون بلند.
به‌کارگیری FlashAttention-2 برای کارایی بیشتر روی GPUهای پیشرفته.
ترکیب توجه محلی و جهانی برای مدیریت بهتر توالی‌های بلند.
اولین مدل انکودر با داده‌های آموزشی قابل توجه از کدهای برنامه‌نویسی.
کارایی بالا:
دو برابر سریع‌تر از DeBERTa و مصرف حافظه یک‌پنجم کمتر.
قابلیت اجرا روی سیستمهای معمولی (حداقل GPUبرای اجرا 4090)

ا ModernBERT در نسخه‌های Base (149 میلیون پارامتر) و Large (395 میلیون پارامتر) ارائه شده و به زودی به کتابخانه Transformers اضافه می‌شود.
مناسب‌تر برای وظایفی مانند بازیابی اطلاعات، طبقه‌بندی و استخراج.

▪️  Replacement for BERT: ModernBERT
▪️ Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

@computationallinguisticsNLP



tgoop.com/ComputationallinguisticsNLP/66
Create:
Last Update:

مدل جدید« مدرن برت» که جایگزین مدل Bert است در مقاله زیر معرفی شد. از جمله ویژگی های این مدل می توان به نکات زیر اشاره کرد.

ویژگی‌های ModernBERT:

افزایش ظرفیت و عملکرد:
افزایش طول پنجره متنی از 512 به 8000 توکن.
مناسب برای وظایف کدنویسی و جستجوی کد.
امتیازدهی بهتر در بنچمارک‌هایی مثل SQA و GLUE.
معماری بهینه:
استفاده از تکنیک‌های پیشرفته مانند روتاری جای‌گذاری موقعیتی (RoPE) برای پردازش متون بلند.
به‌کارگیری FlashAttention-2 برای کارایی بیشتر روی GPUهای پیشرفته.
ترکیب توجه محلی و جهانی برای مدیریت بهتر توالی‌های بلند.
اولین مدل انکودر با داده‌های آموزشی قابل توجه از کدهای برنامه‌نویسی.
کارایی بالا:
دو برابر سریع‌تر از DeBERTa و مصرف حافظه یک‌پنجم کمتر.
قابلیت اجرا روی سیستمهای معمولی (حداقل GPUبرای اجرا 4090)

ا ModernBERT در نسخه‌های Base (149 میلیون پارامتر) و Large (395 میلیون پارامتر) ارائه شده و به زودی به کتابخانه Transformers اضافه می‌شود.
مناسب‌تر برای وظایفی مانند بازیابی اطلاعات، طبقه‌بندی و استخراج.

▪️  Replacement for BERT: ModernBERT
▪️ Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

@computationallinguisticsNLP

BY CL & NLP Enthusiasts




Share with your friend now:
tgoop.com/ComputationallinguisticsNLP/66

View MORE
Open in Telegram


Telegram News

Date: |

Clear Today, we will address Telegram channels and how to use them for maximum benefit. Hui said the time period and nature of some offences “overlapped” and thus their prison terms could be served concurrently. The judge ordered Ng to be jailed for a total of six years and six months. Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group. Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021.
from us


Telegram CL & NLP Enthusiasts
FROM American