Notice: file_put_contents(): Write of 17766 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50
Tensorflow(@CVision)@cvision P.3903
CVISION Telegram 3903
Tensorflow(@CVision)
مقاله جدید از Deepseek مدل معرفی شده در این مقاله یه تحول مهم در طراحی مکانیزم Attention داره. به طور خلاصه، محققان تیم Deepseek یه مکانیزم جدید به نام NSA (Native Sparse Attention) معرفی کردن. استراتژی سلسله‌ مراتبی معرفی شده محاسبات رو بطور قابل توجهی…
بیاین یه نگاه کلی به مقاله داشته باشیم، همونطور که واقف هستین در مدل‌ های LLMs، مکانیزم اصلی "توجه" یا attention به صورت یکپارچه عمل میکنه.

به عبارتی در این رویکرد monolithic attention، هنگام پردازش هر کلمه یا token در یه متن، مدل زبانی به تمامی کلمات قبلی در همان متن توجه میکنه. این ساز و کار به مدل این امکان رو میده تا روابط پیچیده بین کلمات را در طول متن درک کنه و به اصطلاح "زمینه" یا context رو به شکل مؤثری لحاظ کنه. درک زمینه به مدل کمک میکنه تا معنای دقیق کلمات در جملات و پاراگراف‌ ها رو تشخیص بده و پاسخ‌ های مرتبط ‌تری تولید کنه.

با وجود مزایای زیادش monolithic attention از نظر محاسباتی بسیار پرهزینه و سنگیه. این مسئله به‌ ویژه در پردازش متون طولانی ‌تر خودش رو نشان میده. با افزایش طول متن، حجم محاسبات مورد نیاز برای monolithic attention به شکل تصاعدی افزایش پیدا میکنه. این محدودیت محاسباتی، مانعی جدی بر سر راه توسعه مدل‌ های زبانی بزرگ ‌تر و کارآمدتر محسوب میشه.

ادامه دارد ...
👍74



tgoop.com/cvision/3903
Create:
Last Update:

بیاین یه نگاه کلی به مقاله داشته باشیم، همونطور که واقف هستین در مدل‌ های LLMs، مکانیزم اصلی "توجه" یا attention به صورت یکپارچه عمل میکنه.

به عبارتی در این رویکرد monolithic attention، هنگام پردازش هر کلمه یا token در یه متن، مدل زبانی به تمامی کلمات قبلی در همان متن توجه میکنه. این ساز و کار به مدل این امکان رو میده تا روابط پیچیده بین کلمات را در طول متن درک کنه و به اصطلاح "زمینه" یا context رو به شکل مؤثری لحاظ کنه. درک زمینه به مدل کمک میکنه تا معنای دقیق کلمات در جملات و پاراگراف‌ ها رو تشخیص بده و پاسخ‌ های مرتبط ‌تری تولید کنه.

با وجود مزایای زیادش monolithic attention از نظر محاسباتی بسیار پرهزینه و سنگیه. این مسئله به‌ ویژه در پردازش متون طولانی ‌تر خودش رو نشان میده. با افزایش طول متن، حجم محاسبات مورد نیاز برای monolithic attention به شکل تصاعدی افزایش پیدا میکنه. این محدودیت محاسباتی، مانعی جدی بر سر راه توسعه مدل‌ های زبانی بزرگ ‌تر و کارآمدتر محسوب میشه.

ادامه دارد ...

BY Tensorflow(@CVision)




Share with your friend now:
tgoop.com/cvision/3903

View MORE
Open in Telegram


Telegram News

Date: |

How to create a business channel on Telegram? (Tutorial) A Telegram channel is used for various purposes, from sharing helpful content to implementing a business strategy. In addition, you can use your channel to build and improve your company image, boost your sales, make profits, enhance customer loyalty, and more. More>> Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. With Bitcoin down 30% in the past week, some crypto traders have taken to Telegram to “voice” their feelings.
from us


Telegram Tensorflow(@CVision)
FROM American