tgoop.com/AlgorithmDesign_DataStructuer/1783
Last Update:
🚀 تابع SoftPick: جایگزینی هوشمند برای Softmax در ترنسفورمرها
🔸تابع SoftPick یک تابع جدید برای مکانیزم توجه در ترنسفورمرهاست که برخلاف softmax، خروجیاش الزامی برای جمع برابر با ۱ ندارد.
🔸 این روش بهطور کامل مشکل attention sink را حذف کرده و نقشههای توجهی پراکندهتر (sparse) ایجاد میکند.
🔸 مدلهایی که از SoftPick استفاده میکنند، با وجود پارامترهای بالا (تا 1.8B)، فعالسازیهای متعادلتر و بردارهای پنهان با کشیدگی کمتر تولید میکنند.
🔸 در مدلهای کوانتیزهشده (Quantized)، SoftPick حتی در دقتهای پایینتر عملکرد بهتری نسبت به softmax نشان داده است.
🎯 مناسب برای: آموزش با دقت پایین، کوانتیزاسیون، بهینهسازی پراکندگی، هرس و تفسیرپذیری بهتر مدلها.
https://arxiv.org/abs/2504.20966
#هوش_مصنوعی
📣👨💻 @AlgorithmDesign_DataStructuer
BY Algorithm design & data structure

Share with your friend now:
tgoop.com/AlgorithmDesign_DataStructuer/1783