PYTORCH_HOWSAM Telegram 694
متا، گوگل دیپ‌مایند، دانشگاه کورنل و انویدیا اخیرا مقاله‌ای با موضوع «مدل‌های زبانی چقدر حفظ می‌کنن؟» منتشر کردن. عنوان مقاله:
How much do language models memorize?


این مقاله نشون میده مدل‌های GPT-style حدود ۳.۶ بیت به ازای هر پارامتر حافظه دارن. یعنی، یک مدل 1 میلیاردی، حدودا 3.6 گیگابایت حافظه برای ذخیره‌سازی داده داره!

تا زمانی که ظرفیت پر بشه، مدل‌ها داده‌ها رو حفظ میکنن؛ بعد از اون، به سمت تعمیم (generalization) میرن.
پدیده double descent رو یادتون میاد؟ دقیقا زمانی اتفاق می‌افته که داده‌ها از ظرفیت مدل بیشتر بشن.

به نظرم مقاله آموزنده‌ای هست. میتونه خیلی از مفاهیم مثل یادگیری، حفظ کردن، تعمیم‌پذیری و دابل دیسنت رو برامون شفاف‌تر کنه. من هنوز مقاله رو نخوندم، خلاصه‌هاش رو خوندم. امیدوارم، وقت کنم که بخونم. این منابع رو پیدا کردم:
مقاله اصلی | وبلاگ 1 | وبلاگ 2 | رشتو



tgoop.com/pytorch_howsam/694
Create:
Last Update:

متا، گوگل دیپ‌مایند، دانشگاه کورنل و انویدیا اخیرا مقاله‌ای با موضوع «مدل‌های زبانی چقدر حفظ می‌کنن؟» منتشر کردن. عنوان مقاله:

How much do language models memorize?


این مقاله نشون میده مدل‌های GPT-style حدود ۳.۶ بیت به ازای هر پارامتر حافظه دارن. یعنی، یک مدل 1 میلیاردی، حدودا 3.6 گیگابایت حافظه برای ذخیره‌سازی داده داره!

تا زمانی که ظرفیت پر بشه، مدل‌ها داده‌ها رو حفظ میکنن؛ بعد از اون، به سمت تعمیم (generalization) میرن.
پدیده double descent رو یادتون میاد؟ دقیقا زمانی اتفاق می‌افته که داده‌ها از ظرفیت مدل بیشتر بشن.

به نظرم مقاله آموزنده‌ای هست. میتونه خیلی از مفاهیم مثل یادگیری، حفظ کردن، تعمیم‌پذیری و دابل دیسنت رو برامون شفاف‌تر کنه. من هنوز مقاله رو نخوندم، خلاصه‌هاش رو خوندم. امیدوارم، وقت کنم که بخونم. این منابع رو پیدا کردم:
مقاله اصلی | وبلاگ 1 | وبلاگ 2 | رشتو

BY PyTorch Howsam


Share with your friend now:
tgoop.com/pytorch_howsam/694

View MORE
Open in Telegram


Telegram News

Date: |

Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. How to Create a Private or Public Channel on Telegram? Matt Hussey, editorial director at NEAR Protocol also responded to this news with “#meIRL”. Just as you search “Bear Market Screaming” in Telegram, you will see a Pepe frog yelling as the group’s featured image. While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.”
from us


Telegram PyTorch Howsam
FROM American