tgoop.com/biasvariance_ir/400
Last Update:
ویژگیهای کلی مدلهای مبتنیبر برت
به صورت کلی، مدلهای مبتنیبر برت در دو فاز مورد استفاده قرار میگیرند. فاز اول که pretrain نامیده میشود به این اشاره دارد که مدل برروی مجموعه دادهی بزرگی آموزش میبیند تا ساختارهای موجود در زبان را آموزش ببیند. این فرآیند با توابع هزینهی متفاوتی صورت میگیرد؛ برای مثال، میتوان به وظیفه masked language model یا MLM اشاره کرد که در آن تعداد کلماتی به صورت تصادفی از جملات حذف میشوند و شبکه لازم است حدس بزند که این کلمات چه بودهاند. در عمل، این مرحله که در کانتکست برت با نام pretrain شناخته میشود، همانند کاری است که قبل از transfer learning برای ساخت مدل از قبل آموزش دیدهشده طی میشود. مرحلهی دوم در آموزش مدلهای مبتنیبر برت، مربوط به آموزش برای تسک خاص میشود. این مرحله خیلی شباهت به استفاده از مدل از قبل آموزش دیدهشده در فرآیند transfer learning برای وظیفهی جدید دارد. بسته به کاربرد میتواند متفاوت باشد ولی به صورت کلی وزنهای مدل برت منجمد میشوند و بعد از آن لایههایی قرار میگیرند تا برای وظیفهی مورد نظر، عملکرد بهتر شود. در این فاز، شبکهی سرهمبندیشده، روی تابع هزینهی خاصِ وظیفهی جدید آموزش میبیند.
با وجود کاربرد ذکرشده، این گونه از شبکهها کاربردهای عینی متفاوتی دارند که به چند مورد اشاره میکنیم.
یک. Contextualise Embedding: مدلهای مبتنیبر برت به صورت کلی دنبالهبهدنباله، sequence to sequence، هستند. ویژگی خروجیهای مربوط به هر توکنِ ورودی این است که با توجه به همسایههایش تغییر میکند. به عبارتی اگر دو جملهی علی آمد و علی رفت به شبکه داده شود، توقع میرود که بردارهای نهفته علی برای هر کدام از جملات، متفاوت باشد زیرا در بسترهای متفاوتی علی دیده شده است. این موضوع از این جهت اهمیت بالایی دارد که بدانید روشهایی مثل Word2Vec برای هر توکن صرفا یک بردار نهفته پیدا میکند. این موضوع ضعف محسوب میشود زیرا شیرِ آب و شیرِ جنگل هر دو با حروف ش ی ر نمایش داده میشوند ولی معانی متفاوتی دارند. روش برت، این مشکل را با توجه به کلمات بستر حل میکند.
دو. Permutation Equivariance Problem: به صورت کلی، مدلهای مبتنیبر تبدیلکننده از جمله برت، به خودی خود، permutation equivariance هستند؛ به عبارتی، اگر دو جملهی علی آمد و آمد علی به خود شبکه داده شود، بردارهای نهفتهی خروجیِ کدگذار برای علی یکسان خواهد بود. این در حالی است که محل نسبی قرارگیری کلمات در جملات اهمیت دارد و برای مثال، اگر کلمهای در نقش فاعل باشد، باید بردار نهفتهی متفاوتی داشته باشد نسبت به زمانی که در نقش مفعول است. برای این منظور، قبلاز شبکه، بردارهای مکانی به بردارهای نهفتهی اولیهی توکنها اضافه میشوند. روشهایی نظیر Word2Vec برای این دست از مسایل حرفی برای گفتن ندارند.
سه. Fill in the Blank: به صورت کلی، یکی از کاربردهای جالب برای مدلهای مبتنیبر برت، پرکردن جای خالی است. با استفاده از این مدلها میتوان فهمید در هر فرهنگ چه عقایدی پیرامون مسایل مختلف وجود دارد.
ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
#یادگیری_عمیق #برت #transformer #شبکه_عصبی
ـــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
پشتیبانی | کانال | سایت | اینستاگرام | آپارات
BY Bias Variance
Share with your friend now:
tgoop.com/biasvariance_ir/400