Notice: file_put_contents(): Write of 11951 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 8192 of 20143 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
Bias Variance@biasvariance_ir P.400
BIASVARIANCE_IR Telegram 400
ویژگی‌های کلی مدل‌های مبتنی‌بر برت

به صورت کلی، مدل‌های مبتنی‌بر برت در دو فاز مورد استفاده قرار می‌گیرند. فاز اول که pretrain نامیده می‌شود به این اشاره دارد که مدل برروی مجموعه داده‌ی بزرگی آموزش می‌بیند تا ساختارهای موجود در زبان را آموزش ببیند. این فرآیند با توابع هزینه‌ی متفاوتی صورت می‌گیرد؛ برای مثال، می‌توان به وظیفه masked language model یا MLM اشاره کرد که در آن تعداد کلماتی به صورت تصادفی از جملات حذف می‌شوند و شبکه لازم است حدس بزند که این کلمات چه بوده‌اند. در عمل، این مرحله که در کانتکست برت با نام pretrain شناخته می‌شود، همانند کاری است که قبل از transfer learning برای ساخت مدل از قبل آموزش دیده‌شده طی می‌شود. مرحله‌ی دوم در آموزش مدل‌های مبتنی‌بر برت، مربوط به آموزش برای تسک خاص می‌شود. این مرحله خیلی شباهت به استفاده از مدل از قبل آموزش دیده‌شده در فرآیند transfer learning برای وظیفه‌ی جدید دارد. بسته به کاربرد می‌تواند متفاوت باشد ولی به صورت کلی وزن‌های مدل برت منجمد می‌شوند و بعد از آن لایه‌هایی قرار می‌گیرند تا برای وظیفه‌ی مورد نظر، عملکرد بهتر شود. در این فاز، شبکه‌ی سرهم‌بندی‌شده، روی تابع هزینه‌ی خاصِ وظیفه‌ی جدید آموزش می‌بیند.

با وجود کاربرد ذکرشده، این گونه از شبکه‌ها کاربردهای عینی متفاوتی دارند که به چند مورد اشاره می‌کنیم.
یک. Contextualise Embedding: مدل‌های مبتنی‌بر برت به صورت کلی دنباله‌به‌دنباله، sequence to sequence، هستند. ویژگی خروجی‌های مربوط به هر توکنِ ورودی این است که با توجه به همسایه‌هایش تغییر می‌کند. به عبارتی اگر دو جمله‌ی علی آمد و علی رفت به شبکه داده شود، توقع می‎رود که بردارهای نهفته علی برای هر کدام از جملات، متفاوت باشد زیرا در بسترهای متفاوتی علی دیده شده است. این موضوع از این جهت اهمیت بالایی دارد که بدانید روش‌هایی مثل Word2Vec برای هر توکن صرفا یک بردار نهفته پیدا می‌کند. این موضوع ضعف محسوب می‌شود زیرا شیرِ آب و شیرِ جنگل هر دو با حروف ش ی ر نمایش داده می‌شوند ولی معانی متفاوتی دارند. روش برت، این مشکل را با توجه به کلمات بستر حل می‌کند.
دو. Permutation Equivariance Problem: به صورت کلی، مدل‌های مبتنی‌بر تبدیل‌کننده از جمله برت، به خودی خود، permutation equivariance هستند؛ به عبارتی، اگر دو جمله‌ی علی آمد و آمد علی به خود شبکه داده شود، بردارهای نهفته‌ی خروجیِ کدگذار برای علی یکسان خواهد بود. این در حالی است که محل نسبی قرارگیری کلمات در جملات اهمیت دارد و برای مثال، اگر کلمه‌ای در نقش فاعل باشد، باید بردار نهفته‌ی متفاوتی داشته باشد نسبت به زمانی که در نقش مفعول است. برای این منظور، قبل‌از شبکه، بردارهای مکانی به بردارهای نهفته‌ی اولیه‌ی توکن‌ها اضافه می‌شوند. روش‌هایی نظیر Word2Vec برای این دست از مسایل حرفی برای گفتن ندارند.
سه. Fill in the Blank: به صورت کلی، یکی از کاربردهای جالب برای مدل‌های مبتنی‌بر برت، پرکردن جای خالی است. با استفاده از این مدل‌ها می‌توان فهمید در هر فرهنگ چه عقایدی پیرامون مسایل مختلف وجود دارد.

ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#یادگیری_عمیق #برت #transformer #شبکه_عصبی
ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
پشتیبانی | کانال | سایت | اینستاگرام | آپارات



tgoop.com/biasvariance_ir/400
Create:
Last Update:

ویژگی‌های کلی مدل‌های مبتنی‌بر برت

به صورت کلی، مدل‌های مبتنی‌بر برت در دو فاز مورد استفاده قرار می‌گیرند. فاز اول که pretrain نامیده می‌شود به این اشاره دارد که مدل برروی مجموعه داده‌ی بزرگی آموزش می‌بیند تا ساختارهای موجود در زبان را آموزش ببیند. این فرآیند با توابع هزینه‌ی متفاوتی صورت می‌گیرد؛ برای مثال، می‌توان به وظیفه masked language model یا MLM اشاره کرد که در آن تعداد کلماتی به صورت تصادفی از جملات حذف می‌شوند و شبکه لازم است حدس بزند که این کلمات چه بوده‌اند. در عمل، این مرحله که در کانتکست برت با نام pretrain شناخته می‌شود، همانند کاری است که قبل از transfer learning برای ساخت مدل از قبل آموزش دیده‌شده طی می‌شود. مرحله‌ی دوم در آموزش مدل‌های مبتنی‌بر برت، مربوط به آموزش برای تسک خاص می‌شود. این مرحله خیلی شباهت به استفاده از مدل از قبل آموزش دیده‌شده در فرآیند transfer learning برای وظیفه‌ی جدید دارد. بسته به کاربرد می‌تواند متفاوت باشد ولی به صورت کلی وزن‌های مدل برت منجمد می‌شوند و بعد از آن لایه‌هایی قرار می‌گیرند تا برای وظیفه‌ی مورد نظر، عملکرد بهتر شود. در این فاز، شبکه‌ی سرهم‌بندی‌شده، روی تابع هزینه‌ی خاصِ وظیفه‌ی جدید آموزش می‌بیند.

با وجود کاربرد ذکرشده، این گونه از شبکه‌ها کاربردهای عینی متفاوتی دارند که به چند مورد اشاره می‌کنیم.
یک. Contextualise Embedding: مدل‌های مبتنی‌بر برت به صورت کلی دنباله‌به‌دنباله، sequence to sequence، هستند. ویژگی خروجی‌های مربوط به هر توکنِ ورودی این است که با توجه به همسایه‌هایش تغییر می‌کند. به عبارتی اگر دو جمله‌ی علی آمد و علی رفت به شبکه داده شود، توقع می‎رود که بردارهای نهفته علی برای هر کدام از جملات، متفاوت باشد زیرا در بسترهای متفاوتی علی دیده شده است. این موضوع از این جهت اهمیت بالایی دارد که بدانید روش‌هایی مثل Word2Vec برای هر توکن صرفا یک بردار نهفته پیدا می‌کند. این موضوع ضعف محسوب می‌شود زیرا شیرِ آب و شیرِ جنگل هر دو با حروف ش ی ر نمایش داده می‌شوند ولی معانی متفاوتی دارند. روش برت، این مشکل را با توجه به کلمات بستر حل می‌کند.
دو. Permutation Equivariance Problem: به صورت کلی، مدل‌های مبتنی‌بر تبدیل‌کننده از جمله برت، به خودی خود، permutation equivariance هستند؛ به عبارتی، اگر دو جمله‌ی علی آمد و آمد علی به خود شبکه داده شود، بردارهای نهفته‌ی خروجیِ کدگذار برای علی یکسان خواهد بود. این در حالی است که محل نسبی قرارگیری کلمات در جملات اهمیت دارد و برای مثال، اگر کلمه‌ای در نقش فاعل باشد، باید بردار نهفته‌ی متفاوتی داشته باشد نسبت به زمانی که در نقش مفعول است. برای این منظور، قبل‌از شبکه، بردارهای مکانی به بردارهای نهفته‌ی اولیه‌ی توکن‌ها اضافه می‌شوند. روش‌هایی نظیر Word2Vec برای این دست از مسایل حرفی برای گفتن ندارند.
سه. Fill in the Blank: به صورت کلی، یکی از کاربردهای جالب برای مدل‌های مبتنی‌بر برت، پرکردن جای خالی است. با استفاده از این مدل‌ها می‌توان فهمید در هر فرهنگ چه عقایدی پیرامون مسایل مختلف وجود دارد.

ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#یادگیری_عمیق #برت #transformer #شبکه_عصبی
ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
پشتیبانی | کانال | سایت | اینستاگرام | آپارات

BY Bias Variance


Share with your friend now:
tgoop.com/biasvariance_ir/400

View MORE
Open in Telegram


Telegram News

Date: |

The Standard Channel Today, we will address Telegram channels and how to use them for maximum benefit. The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.” To view your bio, click the Menu icon and select “View channel info.” How to create a business channel on Telegram? (Tutorial)
from us


Telegram Bias Variance
FROM American