PYTORCH_HOWSAM Telegram 694
متا، گوگل دیپ‌مایند، دانشگاه کورنل و انویدیا اخیرا مقاله‌ای با موضوع «مدل‌های زبانی چقدر حفظ می‌کنن؟» منتشر کردن. عنوان مقاله:
How much do language models memorize?


این مقاله نشون میده مدل‌های GPT-style حدود ۳.۶ بیت به ازای هر پارامتر حافظه دارن. یعنی، یک مدل 1 میلیاردی، حدودا 3.6 گیگابایت حافظه برای ذخیره‌سازی داده داره!

تا زمانی که ظرفیت پر بشه، مدل‌ها داده‌ها رو حفظ میکنن؛ بعد از اون، به سمت تعمیم (generalization) میرن.
پدیده double descent رو یادتون میاد؟ دقیقا زمانی اتفاق می‌افته که داده‌ها از ظرفیت مدل بیشتر بشن.

به نظرم مقاله آموزنده‌ای هست. میتونه خیلی از مفاهیم مثل یادگیری، حفظ کردن، تعمیم‌پذیری و دابل دیسنت رو برامون شفاف‌تر کنه. من هنوز مقاله رو نخوندم، خلاصه‌هاش رو خوندم. امیدوارم، وقت کنم که بخونم. این منابع رو پیدا کردم:
مقاله اصلی | وبلاگ 1 | وبلاگ 2 | رشتو



tgoop.com/pytorch_howsam/694
Create:
Last Update:

متا، گوگل دیپ‌مایند، دانشگاه کورنل و انویدیا اخیرا مقاله‌ای با موضوع «مدل‌های زبانی چقدر حفظ می‌کنن؟» منتشر کردن. عنوان مقاله:

How much do language models memorize?


این مقاله نشون میده مدل‌های GPT-style حدود ۳.۶ بیت به ازای هر پارامتر حافظه دارن. یعنی، یک مدل 1 میلیاردی، حدودا 3.6 گیگابایت حافظه برای ذخیره‌سازی داده داره!

تا زمانی که ظرفیت پر بشه، مدل‌ها داده‌ها رو حفظ میکنن؛ بعد از اون، به سمت تعمیم (generalization) میرن.
پدیده double descent رو یادتون میاد؟ دقیقا زمانی اتفاق می‌افته که داده‌ها از ظرفیت مدل بیشتر بشن.

به نظرم مقاله آموزنده‌ای هست. میتونه خیلی از مفاهیم مثل یادگیری، حفظ کردن، تعمیم‌پذیری و دابل دیسنت رو برامون شفاف‌تر کنه. من هنوز مقاله رو نخوندم، خلاصه‌هاش رو خوندم. امیدوارم، وقت کنم که بخونم. این منابع رو پیدا کردم:
مقاله اصلی | وبلاگ 1 | وبلاگ 2 | رشتو

BY PyTorch Howsam


Share with your friend now:
tgoop.com/pytorch_howsam/694

View MORE
Open in Telegram


Telegram News

Date: |

Invite up to 200 users from your contacts to join your channel During a meeting with the president of the Supreme Electoral Court (TSE) on June 6, Telegram's Vice President Ilya Perekopsky announced the initiatives. According to the executive, Brazil is the first country in the world where Telegram is introducing the features, which could be expanded to other countries facing threats to democracy through the dissemination of false content. best-secure-messaging-apps-shutterstock-1892950018.jpg Today, we will address Telegram channels and how to use them for maximum benefit. Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.”
from us


Telegram PyTorch Howsam
FROM American