Bias Variance@biasvariance

Bias Variance

ویژگی‌های کلی مدل‌های مبتنی‌بر برت

به صورت کلی، مدل‌های مبتنی‌بر برت در دو فاز مورد استفاده قرار می‌گیرند. فاز اول که pretrain نامیده می‌شود به این اشاره دارد که مدل برروی مجموعه داده‌ی بزرگی آموزش می‌بیند تا ساختارهای موجود در زبان را آموزش ببیند. این فرآیند با توابع هزینه‌ی متفاوتی صورت می‌گیرد؛ برای مثال، می‌توان به وظیفه masked language model یا MLM اشاره کرد که در آن تعداد کلماتی به صورت تصادفی از جملات حذف می‌شوند و شبکه لازم است حدس بزند که این کلمات چه بوده‌اند. در عمل، این مرحله که در کانتکست برت با نام pretrain شناخته می‌شود، همانند کاری است که قبل از transfer learning برای ساخت مدل از قبل آموزش دیده‌شده طی می‌شود. مرحله‌ی دوم در آموزش مدل‌های مبتنی‌بر برت، مربوط به آموزش برای تسک خاص می‌شود. این مرحله خیلی شباهت به استفاده از مدل از قبل آموزش دیده‌شده در فرآیند transfer learning برای وظیفه‌ی جدید دارد. بسته به کاربرد می‌تواند متفاوت باشد ولی به صورت کلی وزن‌های مدل برت منجمد می‌شوند و بعد از آن لایه‌هایی قرار می‌گیرند تا برای وظیفه‌ی مورد نظر، عملکرد بهتر شود. در این فاز، شبکه‌ی سرهم‌بندی‌شده، روی تابع هزینه‌ی خاصِ وظیفه‌ی جدید آموزش می‌بیند.

با وجود کاربرد ذکرشده، این گونه از شبکه‌ها کاربردهای عینی متفاوتی دارند که به چند مورد اشاره می‌کنیم.
یک. Contextualise Embedding: مدل‌های مبتنی‌بر برت به صورت کلی دنباله‌به‌دنباله، sequence to sequence، هستند. ویژگی خروجی‌های مربوط به هر توکنِ ورودی این است که با توجه به همسایه‌هایش تغییر می‌کند. به عبارتی اگر دو جمله‌ی علی آمد و علی رفت به شبکه داده شود، توقع می‎رود که بردارهای نهفته علی برای هر کدام از جملات، متفاوت باشد زیرا در بسترهای متفاوتی علی دیده شده است. این موضوع از این جهت اهمیت بالایی دارد که بدانید روش‌هایی مثل Word2Vec برای هر توکن صرفا یک بردار نهفته پیدا می‌کند. این موضوع ضعف محسوب می‌شود زیرا شیرِ آب و شیرِ جنگل هر دو با حروف ش ی ر نمایش داده می‌شوند ولی معانی متفاوتی دارند. روش برت، این مشکل را با توجه به کلمات بستر حل می‌کند.
دو. Permutation Equivariance Problem: به صورت کلی، مدل‌های مبتنی‌بر تبدیل‌کننده از جمله برت، به خودی خود، permutation equivariance هستند؛ به عبارتی، اگر دو جمله‌ی علی آمد و آمد علی به خود شبکه داده شود، بردارهای نهفته‌ی خروجیِ کدگذار برای علی یکسان خواهد بود. این در حالی است که محل نسبی قرارگیری کلمات در جملات اهمیت دارد و برای مثال، اگر کلمه‌ای در نقش فاعل باشد، باید بردار نهفته‌ی متفاوتی داشته باشد نسبت به زمانی که در نقش مفعول است. برای این منظور، قبل‌از شبکه، بردارهای مکانی به بردارهای نهفته‌ی اولیه‌ی توکن‌ها اضافه می‌شوند. روش‌هایی نظیر Word2Vec برای این دست از مسایل حرفی برای گفتن ندارند.
سه. Fill in the Blank: به صورت کلی، یکی از کاربردهای جالب برای مدل‌های مبتنی‌بر برت، پرکردن جای خالی است. با استفاده از این مدل‌ها می‌توان فهمید در هر فرهنگ چه عقایدی پیرامون مسایل مختلف وجود دارد.

ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#یادگیری_عمیق #برت #transformer #شبکه_عصبی
ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
پشتیبانی | کانال | سایت | اینستاگرام | آپارات

www.tgoop.com/biasvariance_ir/400

435 viewsedited Jul 23, 2023 at 17:45

tgoop.com/biasvariance_ir/400

Create: 2023-07-23
Last Update: 2025-07-31 11:13:04

BY Bias Variance

Share with your friend now:
tgoop.com/biasvariance_ir/400

Telegram News

ویژگی‌های کلی مدل‌های مبتنی‌بر برت