tgoop.com/AI_DeepMind/4083
Last Update:
این مقاله یه چارچوب جدید مدل های زبانی خود بازگشتی پیوسته (CALM) رو ارائه میده که با تغییر از پیشبینی گسسته توکن به پیشبینی بردارهای پیوسته، کارایی مدلهای زبانی بزرگ رو بهتر میکنه. تو رویکرد عادی، مدلها یکی یکی و با پیشبینی هر توکن عمل میکنن که فرایندی کند و محاسباتی سنگین داره. CALM با فشردهسازی هر K توکن (مثلا ۴ کلمه) به یه بردار پیوسته، تعداد مراحل تولید رو K برابر کمتر میکنه و هزینه محاسباتی رو به شدت میاره پایین.
برای این کار، اول یه Autoencoder قوی و مقاوم آموزش داده میشه که بتونه با دقت بالایی توکن هارو از روی بردار بازسازی بکنه. این اتو انکودر با تکنیکهایی مثل dropout و جلوگیری از فروپاشی پسین یا همون Posterior Collapse ، یه فضای مخفی منظم و مقاوم درس میکنه که برای مدلسازی تولیدی مناسبه. بعد مدل زبانی به جای پیشبینی توکن، بردار بعدی را پیشبینی میکنه اما چون دیگه احتمال صریح وجود نداره، یه چارچوب «Likelihood-Free Framework » توسعه داده میشه.
تو این چارچوب، از تابع خطای انرژی برای آموزش مدل استفاده میشه که فقط به نمونه برداری نیاز داره و مستقل از توزیع احتماله. برای ارزیابی مدل ها، معیار جدید BrierLM معرفی میشه که مبتنی بر امتیاز بریره و بدون نیاز به محاسبه احتمال، کیفیت مدلو ارزیابی میکنه. این معیار با معیار سنتی Perplexity همخوانی بالایی داره و برای مقایسه درست بین مدلهای مختلف مناسبه. همچنین، یه الگوریتم جدید برای نمونهبرداری با دما (temperature sampling) ارایه میشه که میتونه بدون دسترسی به احتمالات، دقیقا همون رفتار کنترل شده رو تولید رو شبیهسازی بکنه.
آزمایش ها نشون میده که CALM با K=4 عملکرد خیلی نزدیک به مدلهای پایه بزرگ داره، اما (((با هزینه محاسباتی خیلی کمتر))). این پیپر نشون میده که افزایش «ظرفیت معنایی» هر مرحله تولید، یه راهکار قدرتمند برای بهبود کارایی مدلهای زبانیه و مسیر جدیدی رو برای توسعه مدل های کارامد باز میکنه.
#یادگیری_عمیق #یادگیری_ماشین #مقاله

