Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/AI_DeepMind/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
DeepMind AI Expert@AI_DeepMind P.4083
AI_DEEPMIND Telegram 4083
این مقاله یه چارچوب جدید مدل‌ های زبانی خود بازگشتی پیوسته (CALM) رو ارائه میده که با تغییر از پیش‌بینی گسسته توکن به پیش‌بینی بردارهای پیوسته، کارایی مدل‌های زبانی بزرگ رو بهتر میکنه. تو رویکرد عادی، مدل‌ها یکی‌ یکی و با پیش‌بینی هر توکن عمل میکنن که فرایندی کند و محاسباتی سنگین داره. CALM با فشرده‌سازی هر K توکن (مثلا ۴ کلمه) به یه بردار پیوسته، تعداد مراحل تولید رو K برابر کمتر میکنه و هزینه محاسباتی رو به شدت میاره پایین.

برای این کار، اول یه Autoencoder قوی و مقاوم آموزش داده میشه که بتونه با دقت بالایی توکن هارو از روی بردار بازسازی بکنه. این اتو انکودر با تکنیک‌هایی مثل dropout و جلوگیری از فروپاشی پسین یا همون Posterior Collapse ، یه فضای مخفی منظم و مقاوم درس میکنه که برای مدل‌سازی تولیدی مناسبه. بعد مدل زبانی به جای پیش‌بینی توکن، بردار بعدی را پیش‌بینی میکنه اما چون دیگه احتمال صریح وجود نداره، یه چارچوب «Likelihood-Free Framework » توسعه داده میشه.

تو این چارچوب، از تابع خطای انرژی برای آموزش مدل استفاده میشه که فقط به نمونه‌ برداری نیاز داره و مستقل از توزیع احتماله. برای ارزیابی مدل‌ ها، معیار جدید BrierLM معرفی میشه که مبتنی بر امتیاز بریره و بدون نیاز به محاسبه احتمال، کیفیت مدلو ارزیابی میکنه. این معیار با معیار سنتی Perplexity همخوانی بالایی داره و برای مقایسه درست بین مدل‌های مختلف مناسبه. همچنین، یه الگوریتم جدید برای نمونه‌برداری با دما (temperature sampling) ارایه میشه که میتونه بدون دسترسی به احتمالات، دقیقا همون رفتار کنترل‌ شده رو تولید رو شبیه‌سازی بکنه.

آزمایش‌ ها نشون میده که CALM با K=4 عملکرد خیلی نزدیک به مدل‌های پایه بزرگ داره، اما (((با هزینه محاسباتی خیلی کمتر))). این پیپر نشون میده که افزایش «ظرفیت معنایی» هر مرحله تولید، یه راهکار قدرتمند برای بهبود کارایی مدل‌های زبانیه و مسیر جدیدی رو برای توسعه مدل‌ های کارامد باز میکنه.

🔔 Continuous Autoregressive Language Models
🫂 Project

#یادگیری_عمیق #یادگیری_ماشین #مقاله

🔹 مطالب بیشتر 👇👇

@AI_DeepMind
@AI_Person
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥75👍2



tgoop.com/AI_DeepMind/4083
Create:
Last Update:

این مقاله یه چارچوب جدید مدل‌ های زبانی خود بازگشتی پیوسته (CALM) رو ارائه میده که با تغییر از پیش‌بینی گسسته توکن به پیش‌بینی بردارهای پیوسته، کارایی مدل‌های زبانی بزرگ رو بهتر میکنه. تو رویکرد عادی، مدل‌ها یکی‌ یکی و با پیش‌بینی هر توکن عمل میکنن که فرایندی کند و محاسباتی سنگین داره. CALM با فشرده‌سازی هر K توکن (مثلا ۴ کلمه) به یه بردار پیوسته، تعداد مراحل تولید رو K برابر کمتر میکنه و هزینه محاسباتی رو به شدت میاره پایین.

برای این کار، اول یه Autoencoder قوی و مقاوم آموزش داده میشه که بتونه با دقت بالایی توکن هارو از روی بردار بازسازی بکنه. این اتو انکودر با تکنیک‌هایی مثل dropout و جلوگیری از فروپاشی پسین یا همون Posterior Collapse ، یه فضای مخفی منظم و مقاوم درس میکنه که برای مدل‌سازی تولیدی مناسبه. بعد مدل زبانی به جای پیش‌بینی توکن، بردار بعدی را پیش‌بینی میکنه اما چون دیگه احتمال صریح وجود نداره، یه چارچوب «Likelihood-Free Framework » توسعه داده میشه.

تو این چارچوب، از تابع خطای انرژی برای آموزش مدل استفاده میشه که فقط به نمونه‌ برداری نیاز داره و مستقل از توزیع احتماله. برای ارزیابی مدل‌ ها، معیار جدید BrierLM معرفی میشه که مبتنی بر امتیاز بریره و بدون نیاز به محاسبه احتمال، کیفیت مدلو ارزیابی میکنه. این معیار با معیار سنتی Perplexity همخوانی بالایی داره و برای مقایسه درست بین مدل‌های مختلف مناسبه. همچنین، یه الگوریتم جدید برای نمونه‌برداری با دما (temperature sampling) ارایه میشه که میتونه بدون دسترسی به احتمالات، دقیقا همون رفتار کنترل‌ شده رو تولید رو شبیه‌سازی بکنه.

آزمایش‌ ها نشون میده که CALM با K=4 عملکرد خیلی نزدیک به مدل‌های پایه بزرگ داره، اما (((با هزینه محاسباتی خیلی کمتر))). این پیپر نشون میده که افزایش «ظرفیت معنایی» هر مرحله تولید، یه راهکار قدرتمند برای بهبود کارایی مدل‌های زبانیه و مسیر جدیدی رو برای توسعه مدل‌ های کارامد باز میکنه.

🔔 Continuous Autoregressive Language Models
🫂 Project

#یادگیری_عمیق #یادگیری_ماشین #مقاله

🔹 مطالب بیشتر 👇👇

@AI_DeepMind
@AI_Person

BY DeepMind AI Expert




Share with your friend now:
tgoop.com/AI_DeepMind/4083

View MORE
Open in Telegram


Telegram News

Date: |

The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar. The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.” Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.! Content is editable within two days of publishing The main design elements of your Telegram channel include a name, bio (brief description), and avatar. Your bio should be:
from us


Telegram DeepMind AI Expert
FROM American