PYTORCH_HOWSAM Telegram 663
یک مقاله مهم منتشر شده! بین نویسندگان مقاله، نام Yann Lecun و Kaiming He دیده میشه! 😳

عنوان مقاله این هست:
Transformers without Normalization


توی این مقاله پیشنهاد شده که بجای لایه نرمالیزیشن از تابع تانژانت مقیاس‌یافته استفاده بشه. تصویری پیوستی رو ببینید.

این ایده روی مدل‌های مختلف ترنسفورمر در ویژن، nlp، صوت و غیره تست شده.

نکته مهم این هست که این ایده باعث بهبود سرعت مدل در آموزش و اینفرنس میشه. مثلا، اینفرنس مدل Llama 7B حدودا 7.8% بهبود سرعت داشته.

احتمالا این ایده به زودی در بسیاری از مدل‌ها استفاده بشه. باید بخونیمش امیررضا! :)

مقاله | کد | رشتو
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/pytorch_howsam/663
Create:
Last Update:

یک مقاله مهم منتشر شده! بین نویسندگان مقاله، نام Yann Lecun و Kaiming He دیده میشه! 😳

عنوان مقاله این هست:

Transformers without Normalization


توی این مقاله پیشنهاد شده که بجای لایه نرمالیزیشن از تابع تانژانت مقیاس‌یافته استفاده بشه. تصویری پیوستی رو ببینید.

این ایده روی مدل‌های مختلف ترنسفورمر در ویژن، nlp، صوت و غیره تست شده.

نکته مهم این هست که این ایده باعث بهبود سرعت مدل در آموزش و اینفرنس میشه. مثلا، اینفرنس مدل Llama 7B حدودا 7.8% بهبود سرعت داشته.

احتمالا این ایده به زودی در بسیاری از مدل‌ها استفاده بشه. باید بخونیمش امیررضا! :)

مقاله | کد | رشتو

BY PyTorch Howsam


Share with your friend now:
tgoop.com/pytorch_howsam/663

View MORE
Open in Telegram


Telegram News

Date: |

Telegram is a leading cloud-based instant messages platform. It became popular in recent years for its privacy, speed, voice and video quality, and other unmatched features over its main competitor Whatsapp. A vandalised bank during the 2019 protest. File photo: May James/HKFP. On Tuesday, some local media outlets included Sing Tao Daily cited sources as saying the Hong Kong government was considering restricting access to Telegram. Privacy Commissioner for Personal Data Ada Chung told to the Legislative Council on Monday that government officials, police and lawmakers remain the targets of “doxxing” despite a privacy law amendment last year that criminalised the malicious disclosure of personal information. Informative Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020.
from us


Telegram PyTorch Howsam
FROM American