ALGORITHMDESIGN_DATASTRUCTUER Telegram 1845
یک مکانیزم جدید و بهبود یافته برای Attention به‌تازگی توسط MIT، انویدیا، پرینستون و سایر پژوهشگران معرفی شده است.

مکانیزم جدید با نام Radial Attention یک روش Sparse (کم‌تراکم) و استاتیک برای Attention است که پیچیدگی محاسباتی آن O(n log n) می‌باشد. این روش تمرکز بیشتری روی توکن‌های نزدیک دارد و به‌مرور زمان پنجره توجه را کوچک‌تر می‌کند. علاوه بر این، Radial Attention می‌تواند با روش‌های LoRA برای fine-tuning کردن مدل‌های موجود نیز کار کند.


همچنین محققان یک پدیده به نام کاهش انرژی فضازمان (Spatiotemporal Energy Decay) را در مدل‌های انتشار ویدیویی (Video Diffusion Models) شناسایی کرده‌اند. به این صورت که امتیازهای Attention پس از اعمال Softmax، هر چه فاصله مکانی یا زمانی بین توکن‌ها بیشتر شود، کاهش پیدا می‌کند؛ شبیه به افت انرژی یا سیگنال در طبیعت که با افزایش فاصله کاهش می‌یابد.

Paper: https://arxiv.org/pdf/2506.19852v1.pdf
Code: https://github.com/mit-han-lab/radial-attention

#هوش_مصنوعی
📣👨‍💻 @AlgorithmDesign_DataStructuer



tgoop.com/AlgorithmDesign_DataStructuer/1845
Create:
Last Update:

یک مکانیزم جدید و بهبود یافته برای Attention به‌تازگی توسط MIT، انویدیا، پرینستون و سایر پژوهشگران معرفی شده است.

مکانیزم جدید با نام Radial Attention یک روش Sparse (کم‌تراکم) و استاتیک برای Attention است که پیچیدگی محاسباتی آن O(n log n) می‌باشد. این روش تمرکز بیشتری روی توکن‌های نزدیک دارد و به‌مرور زمان پنجره توجه را کوچک‌تر می‌کند. علاوه بر این، Radial Attention می‌تواند با روش‌های LoRA برای fine-tuning کردن مدل‌های موجود نیز کار کند.


همچنین محققان یک پدیده به نام کاهش انرژی فضازمان (Spatiotemporal Energy Decay) را در مدل‌های انتشار ویدیویی (Video Diffusion Models) شناسایی کرده‌اند. به این صورت که امتیازهای Attention پس از اعمال Softmax، هر چه فاصله مکانی یا زمانی بین توکن‌ها بیشتر شود، کاهش پیدا می‌کند؛ شبیه به افت انرژی یا سیگنال در طبیعت که با افزایش فاصله کاهش می‌یابد.

Paper: https://arxiv.org/pdf/2506.19852v1.pdf
Code: https://github.com/mit-han-lab/radial-attention

#هوش_مصنوعی
📣👨‍💻 @AlgorithmDesign_DataStructuer

BY Algorithm design & data structure




Share with your friend now:
tgoop.com/AlgorithmDesign_DataStructuer/1845

View MORE
Open in Telegram


Telegram News

Date: |

With the “Bear Market Screaming Therapy Group,” we’ve now transcended language. How to Create a Private or Public Channel on Telegram? Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group. The Channel name and bio must be no more than 255 characters long Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators.
from us


Telegram Algorithm design & data structure
FROM American