tgoop.com/pytorch_howsam/553
Create:
Last Update:
Last Update:
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases link
متا یک شبکه جدید بنام MobileLLM معرفی کرده که جز دسته شبکههای مگسوزن محسوب میشه. هدفشون این بوده که مدلهای LLM برای موبایلها بسازن. دو تا مدل 125 و 350 میلیون پارامتری هم معرفی کردن که مناسب کارهای موبایلی هست.
در بخش Introduction مقاله، به یکسری از چالشهای اساسی اجرای مدل LLM روی موبایلها اشاره کرده که جالبه. توی این پست میخوام درباره این چالشها بنویسم. سه چالش مهم که بهش اشاره شده اینها هستن:
* مصرف RAM موبایل (DRAM) در LLM-ها
* مصرف باتری
* سرعت تولید متن در ثانیه
چالش اول، مصرف RAM موبایل (DRAM) در LLM-هاست؛ الان مقدار DRAM برای موبایلهای سطح بالا بین 6 گیگ (آیفون 15) تا 12 گیگ (گوگل پیکسل 8 پرو) هست. حالا نگید نه داش آخرین مدل سامسونگ 24 گیگه! این اعداد رو مقاله گفته! 😁 حالا، نکته مهم اینجاست که ما نمیتونیم مدلی توی موبایل بذاریم که کل این ظرفیت 6 تا 12 گیگ رو پر کنه! به خاطر اینکه این مقدار DRAM سهم سیستم عامل و سایر اپهای توی موبایل هم هست! در مقاله ذکر شده که یک اپ موبایل نباید بیشتر از 10% DRAM رو اشغال کنه. یعنی، برای DRAM با 12 گیگ ظرفیت نهایتا 1.2 گیگ دردسترس هست. حالا، همون مدل لاما با 7 میلیارد پارامتر، حتی با وزنهای 8 بیتی، بازهم حدود 7 گیگ فضای DRAM رو اشغال میکنه. پس این چالش انگیزهای هست که مدلهای LLM کوچکتر (پارامترهای کمتر) ساخته بشه. در مقاله گفته ما مدلهای Sub-bilion parameter LLMs میخواییم خلاصه...
چالش دوم، مصرف انرژی LLM-هاست؛ مدل LLaMA v2 با 7 بیلیون پارامتر، به ازای هر توکن 0.7 ژول انرژی مصرف میکنه. زیاده یا کم؟ زیاده! یک آیفون با شارژ کامل حدودا 50 هزار ژول انرژی داره. مقاله میگه که هر 64 توکن حدود 0.2% از باتری رو مصرف میکنه که خب خیلی زیاده. یعنی، کل باتری در کمتر از دو ساعت مکالمه با مدل تَه میکشه. البته، من حساب و کتاب که کردم، هر 64 توکن حدود 0.08% باتری مصرف میکنه. اما شاید این محاسبه روی کاغذ هست و بخشهای جانبی هم دارن باتری میخورن. مدل 350 میلیون پارامتری این مقاله، حدود 0.035 ژول برای هر توکن مصرف میکنه. مقایسه کنید با 0.7 ژول مدل لاما! 20 برابر مصرف کمتری داره. به عبارتی، باتری فول شارژ برای یک روز مکالمه کافیه.
چالش سوم، سرعت هست؛ سرعت تولید متن مدل لامای 7 بیلیونی روی آیفون، 3~6 توکن بر ثانیه هست. خودمونی بگم، چتبات در هر ثانیه 4 5 کلمه برامون مینویسه. کمه واقعا! اما مدل 125 میلیونی این مقاله حدود 50 توکن بر ثانیه سرعت داره.
از این مقاله خیلی خوشم اومد و درحال مطالعش هستم. دوست داشتم درموردش بنویسم. البته، مطالب جالب توی مقاله زیاده. نوشتنش وقت زیادی میبره، ولی تلاشمو میکنم که بنویسم.
@pytorch_howsam
BY PyTorch Howsam

Share with your friend now:
tgoop.com/pytorch_howsam/553