Notice: file_put_contents(): Write of 3743 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 16384 of 20127 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
PyTorch Howsam@pytorch_howsam P.553
PYTORCH_HOWSAM Telegram 553
PyTorch Howsam
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks مدل Vision-Language مایکروسافت بنام Florence-2 شاخصه‌های مهم این کار: * خیلی سَبُکه. خبری از بیلیون پارامتر نیست! * یک شبکه همه کاره هست؛ یعنی، دیتکشن، سگمنتیش و غیره * یک دیتاست…
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases link


متا یک شبکه جدید بنام MobileLLM معرفی کرده که جز دسته شبکه‌های مگس‌وزن محسوب میشه. هدفشون این بوده که مدل‌های LLM برای موبایل‌ها بسازن. دو تا مدل 125 و 350 میلیون پارامتری هم معرفی کردن که مناسب کارهای موبایلی هست.

در بخش Introduction مقاله، به یکسری از چالش‌های اساسی اجرای مدل LLM روی موبایل‌ها اشاره کرده که جالبه. توی این پست می‌خوام درباره این چالش‌ها بنویسم. سه چالش مهم که بهش اشاره شده اینها هستن:
* مصرف RAM موبایل (DRAM) در LLM-ها
* مصرف باتری
* سرعت تولید متن در ثانیه

چالش اول، مصرف RAM موبایل (DRAM) در LLM-هاست؛ الان مقدار DRAM برای موبایل‌های سطح بالا بین 6 گیگ (آیفون 15) تا 12 گیگ (گوگل پیکسل 8 پرو) هست. حالا نگید نه داش آخرین مدل سامسونگ 24 گیگه! این اعداد رو مقاله گفته! 😁 حالا، نکته مهم اینجاست که ما نمی‌تونیم مدلی توی موبایل بذاریم که کل این ظرفیت 6 تا 12 گیگ رو پر کنه! به خاطر اینکه این مقدار DRAM سهم سیستم عامل و سایر اپ‌های توی موبایل هم هست! در مقاله ذکر شده که یک اپ موبایل نباید بیشتر از 10% DRAM رو اشغال کنه. یعنی، برای DRAM با 12 گیگ ظرفیت نهایتا 1.2 گیگ دردسترس هست. حالا، همون مدل لاما با 7 میلیارد پارامتر، حتی با وزن‌های 8 بیتی، بازهم حدود 7 گیگ فضای DRAM رو اشغال میکنه. پس این چالش انگیزه‌ای هست که مدل‌های LLM کوچکتر (پارامترهای کمتر) ساخته بشه. در مقاله گفته ما مدل‌های Sub-bilion parameter LLMs می‌خواییم خلاصه...

چالش دوم، مصرف انرژی LLM-هاست؛ مدل LLaMA v2 با 7 بیلیون پارامتر، به ازای هر توکن 0.7 ژول انرژی مصرف میکنه. زیاده یا کم؟ زیاده! یک آیفون با شارژ کامل حدودا 50 هزار ژول انرژی داره. مقاله میگه که هر 64 توکن حدود 0.2% از باتری رو مصرف میکنه که خب خیلی زیاده. یعنی، کل باتری در کمتر از دو ساعت مکالمه با مدل تَه میکشه. البته، من حساب و کتاب که کردم، هر 64 توکن حدود 0.08% باتری مصرف میکنه. اما شاید این محاسبه روی کاغذ هست و بخش‌های جانبی هم دارن باتری میخورن. مدل 350 میلیون پارامتری این مقاله، حدود 0.035 ژول برای هر توکن مصرف میکنه. مقایسه کنید با 0.7 ژول مدل لاما! 20 برابر مصرف کمتری داره. به عبارتی، باتری فول شارژ برای یک روز مکالمه کافیه.

چالش سوم، سرعت هست؛ سرعت تولید متن مدل لامای 7 بیلیونی روی آیفون، 3~6 توکن بر ثانیه هست. خودمونی بگم، چت‌بات در هر ثانیه 4 5 کلمه برامون مینویسه. کمه واقعا! اما مدل 125 میلیونی این مقاله حدود 50 توکن بر ثانیه سرعت داره.

از این مقاله خیلی خوشم اومد و درحال مطالعش هستم. دوست داشتم درموردش بنویسم. البته، مطالب جالب توی مقاله زیاده. نوشتنش وقت زیادی میبره، ولی تلاشمو میکنم که بنویسم.

@pytorch_howsam



tgoop.com/pytorch_howsam/553
Create:
Last Update:

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases link


متا یک شبکه جدید بنام MobileLLM معرفی کرده که جز دسته شبکه‌های مگس‌وزن محسوب میشه. هدفشون این بوده که مدل‌های LLM برای موبایل‌ها بسازن. دو تا مدل 125 و 350 میلیون پارامتری هم معرفی کردن که مناسب کارهای موبایلی هست.

در بخش Introduction مقاله، به یکسری از چالش‌های اساسی اجرای مدل LLM روی موبایل‌ها اشاره کرده که جالبه. توی این پست می‌خوام درباره این چالش‌ها بنویسم. سه چالش مهم که بهش اشاره شده اینها هستن:
* مصرف RAM موبایل (DRAM) در LLM-ها
* مصرف باتری
* سرعت تولید متن در ثانیه

چالش اول، مصرف RAM موبایل (DRAM) در LLM-هاست؛ الان مقدار DRAM برای موبایل‌های سطح بالا بین 6 گیگ (آیفون 15) تا 12 گیگ (گوگل پیکسل 8 پرو) هست. حالا نگید نه داش آخرین مدل سامسونگ 24 گیگه! این اعداد رو مقاله گفته! 😁 حالا، نکته مهم اینجاست که ما نمی‌تونیم مدلی توی موبایل بذاریم که کل این ظرفیت 6 تا 12 گیگ رو پر کنه! به خاطر اینکه این مقدار DRAM سهم سیستم عامل و سایر اپ‌های توی موبایل هم هست! در مقاله ذکر شده که یک اپ موبایل نباید بیشتر از 10% DRAM رو اشغال کنه. یعنی، برای DRAM با 12 گیگ ظرفیت نهایتا 1.2 گیگ دردسترس هست. حالا، همون مدل لاما با 7 میلیارد پارامتر، حتی با وزن‌های 8 بیتی، بازهم حدود 7 گیگ فضای DRAM رو اشغال میکنه. پس این چالش انگیزه‌ای هست که مدل‌های LLM کوچکتر (پارامترهای کمتر) ساخته بشه. در مقاله گفته ما مدل‌های Sub-bilion parameter LLMs می‌خواییم خلاصه...

چالش دوم، مصرف انرژی LLM-هاست؛ مدل LLaMA v2 با 7 بیلیون پارامتر، به ازای هر توکن 0.7 ژول انرژی مصرف میکنه. زیاده یا کم؟ زیاده! یک آیفون با شارژ کامل حدودا 50 هزار ژول انرژی داره. مقاله میگه که هر 64 توکن حدود 0.2% از باتری رو مصرف میکنه که خب خیلی زیاده. یعنی، کل باتری در کمتر از دو ساعت مکالمه با مدل تَه میکشه. البته، من حساب و کتاب که کردم، هر 64 توکن حدود 0.08% باتری مصرف میکنه. اما شاید این محاسبه روی کاغذ هست و بخش‌های جانبی هم دارن باتری میخورن. مدل 350 میلیون پارامتری این مقاله، حدود 0.035 ژول برای هر توکن مصرف میکنه. مقایسه کنید با 0.7 ژول مدل لاما! 20 برابر مصرف کمتری داره. به عبارتی، باتری فول شارژ برای یک روز مکالمه کافیه.

چالش سوم، سرعت هست؛ سرعت تولید متن مدل لامای 7 بیلیونی روی آیفون، 3~6 توکن بر ثانیه هست. خودمونی بگم، چت‌بات در هر ثانیه 4 5 کلمه برامون مینویسه. کمه واقعا! اما مدل 125 میلیونی این مقاله حدود 50 توکن بر ثانیه سرعت داره.

از این مقاله خیلی خوشم اومد و درحال مطالعش هستم. دوست داشتم درموردش بنویسم. البته، مطالب جالب توی مقاله زیاده. نوشتنش وقت زیادی میبره، ولی تلاشمو میکنم که بنویسم.

@pytorch_howsam

BY PyTorch Howsam




Share with your friend now:
tgoop.com/pytorch_howsam/553

View MORE
Open in Telegram


Telegram News

Date: |

Write your hashtags in the language of your target audience. While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. With the sharp downturn in the crypto market, yelling has become a coping mechanism for many crypto traders. This screaming therapy became popular after the surge of Goblintown Ethereum NFTs at the end of May or early June. Here, holders made incoherent groaning sounds in late-night Twitter spaces. They also role-played as urine-loving Goblin creatures. According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram. As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.”
from us


Telegram PyTorch Howsam
FROM American