PYTORCH_HOWSAM Telegram 593
چند وقت پیش، یک مقاله Survey درباره Small Language Models (SLM) خوندم. در یکی از بخش‌ها، معماری ترنسفورمر براساس 6 فاکتور آنالیز شده بود. هدف مولف‌ها این بود که نشون بدن چه تنظیماتی در ترنسفورمر بیشتر استفاده میشن. می‌خوام 4 فاکتور از اون 6 فاکتور رو توضیح بدم. یکم تخصصی هست و باید به معماری ترنسفورمر مسلط باشید...

1. نوع Attention: مطابق با داده‌های ارائه‌شده در مقاله، از سال 2022 تا 2024، استفاده از Multi-Head Attention (MHA) به‌تدریج کاهش پیدا کرده و مکانیزم Group-Query Attention (GQA) جایگزین اون شده.

2. نوع Feed-Forward Neural Network (FFN): استفاده از Standard FFN کاهش یافته و Gated FFN به دلیل عملکرد بهتر و انعطاف‌پذیری بیشتر جایگزین اون شده.

3. تابع فعال‌سازی در FFN: در سال 2022، ReLU بیشترین استفاده رو داشت. در سال 2023، GELU و GELUtanh به تدریج جایگزین ReLU شدن. در سال 2024، SiLU به عنوان تابع غالب مورد استفاده قرار گرفته.

4. نوع لایه نرمالیزیشن: در سال 2022، LayerNorm انتخاب غالب بود. اما، در سال‌های 2023 و 2024، RMSNorm به‌تدریج جایگزین LayerNorm شد.

@pytorch_howsam



tgoop.com/pytorch_howsam/593
Create:
Last Update:

چند وقت پیش، یک مقاله Survey درباره Small Language Models (SLM) خوندم. در یکی از بخش‌ها، معماری ترنسفورمر براساس 6 فاکتور آنالیز شده بود. هدف مولف‌ها این بود که نشون بدن چه تنظیماتی در ترنسفورمر بیشتر استفاده میشن. می‌خوام 4 فاکتور از اون 6 فاکتور رو توضیح بدم. یکم تخصصی هست و باید به معماری ترنسفورمر مسلط باشید...

1. نوع Attention: مطابق با داده‌های ارائه‌شده در مقاله، از سال 2022 تا 2024، استفاده از Multi-Head Attention (MHA) به‌تدریج کاهش پیدا کرده و مکانیزم Group-Query Attention (GQA) جایگزین اون شده.

2. نوع Feed-Forward Neural Network (FFN): استفاده از Standard FFN کاهش یافته و Gated FFN به دلیل عملکرد بهتر و انعطاف‌پذیری بیشتر جایگزین اون شده.

3. تابع فعال‌سازی در FFN: در سال 2022، ReLU بیشترین استفاده رو داشت. در سال 2023، GELU و GELUtanh به تدریج جایگزین ReLU شدن. در سال 2024، SiLU به عنوان تابع غالب مورد استفاده قرار گرفته.

4. نوع لایه نرمالیزیشن: در سال 2022، LayerNorm انتخاب غالب بود. اما، در سال‌های 2023 و 2024، RMSNorm به‌تدریج جایگزین LayerNorm شد.

@pytorch_howsam

BY PyTorch Howsam




Share with your friend now:
tgoop.com/pytorch_howsam/593

View MORE
Open in Telegram


Telegram News

Date: |

Informative Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator. On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression." Polls Each account can create up to 10 public channels
from us


Telegram PyTorch Howsam
FROM American