Tensorflow(@CVision)
خداحافظی با زنجیره فکر (Chain-of-Thought) - بخش 1 از 4 سلام به زنجیره پیشنویس (Chain-of-Draft) برای حل مشکل تأخیر در استدلال مدلهای زبانی بزرگ، این پژوهش زنجیره پیشنویس (CoD) را معرفی میکند. زنجیره پیشنویس (CoD) یک راهبرد prompt دهی جدید است که استدلالهای…
خداحافظی با زنجیره فکر (Chain-of-Thought) - بخش 2 از 4
به جای خروجیهای طولانی گامبهگام CoT، روش CoD از مدل میخواهد برای هر مرحله استدلال، نشانههای مختصر و پر اطلاعات تولید کند.
این روش تا ۸۰ درصد نشانههای کمتری در هر پاسخ تولید میکند، در حالی که دقت را در بنچ مارکهای ریاضی، دانش عمومی و سایر معیارها حفظ میکند.
به جای خروجیهای طولانی گامبهگام CoT، روش CoD از مدل میخواهد برای هر مرحله استدلال، نشانههای مختصر و پر اطلاعات تولید کند.
این روش تا ۸۰ درصد نشانههای کمتری در هر پاسخ تولید میکند، در حالی که دقت را در بنچ مارکهای ریاضی، دانش عمومی و سایر معیارها حفظ میکند.
Tensorflow(@CVision)
خداحافظی با زنجیره فکر (Chain-of-Thought) - بخش 2 از 4 به جای خروجیهای طولانی گامبهگام CoT، روش CoD از مدل میخواهد برای هر مرحله استدلال، نشانههای مختصر و پر اطلاعات تولید کند. این روش تا ۸۰ درصد نشانههای کمتری در هر پاسخ تولید میکند، در حالی که دقت…
خداحافظی با زنجیره فکر (Chain-of-Thought) - بخش 3 از 4
تأخیر کم، دقت بالا
در مسائل ریاضی GSM8k، روش CoD به دقت ۹۱ درصدی با ۸۰ درصد کاهش نشانه نسبت به CoT دست یافت. همچنین در وظایفی مانند درک تاریخ/ورزش و استدلال پرتاب سکه، عملکردی برابر یا بهتر از CoT داشت و به طور قابل توجهی زمان و هزینه استنتاج را کاهش داد.
تأخیر کم، دقت بالا
در مسائل ریاضی GSM8k، روش CoD به دقت ۹۱ درصدی با ۸۰ درصد کاهش نشانه نسبت به CoT دست یافت. همچنین در وظایفی مانند درک تاریخ/ورزش و استدلال پرتاب سکه، عملکردی برابر یا بهتر از CoT داشت و به طور قابل توجهی زمان و هزینه استنتاج را کاهش داد.
Tensorflow(@CVision)
خداحافظی با زنجیره فکر (Chain-of-Thought) - بخش 3 از 4 تأخیر کم، دقت بالا در مسائل ریاضی GSM8k، روش CoD به دقت ۹۱ درصدی با ۸۰ درصد کاهش نشانه نسبت به CoT دست یافت. همچنین در وظایفی مانند درک تاریخ/ورزش و استدلال پرتاب سکه، عملکردی برابر یا بهتر از CoT داشت…
خداحافظی با زنجیره فکر (Chain-of-Thought) - بخش 4 از 4
انعطافپذیر و قابل تفسیر
با وجود کلمات کمتر، CoD منطق اصلی را قابل مشاهده نگه میدارد، مشابه روشی که انسانها به جای توضیحات کامل، نکات کلیدی را یادداشت میکنند. این کار قابلیت تفسیر برای اشکالزدایی را حفظ میکند و اطمینان میدهد که مدل به استدلال “پنهان” نهفته متکی نیست.
Chain of Draft: Thinking Faster by Writing Less
https://arxiv.org/abs/2502.18600
انعطافپذیر و قابل تفسیر
با وجود کلمات کمتر، CoD منطق اصلی را قابل مشاهده نگه میدارد، مشابه روشی که انسانها به جای توضیحات کامل، نکات کلیدی را یادداشت میکنند. این کار قابلیت تفسیر برای اشکالزدایی را حفظ میکند و اطمینان میدهد که مدل به استدلال “پنهان” نهفته متکی نیست.
Chain of Draft: Thinking Faster by Writing Less
https://arxiv.org/abs/2502.18600
سم آلتمن میگوید OpenAI با کمبود GPU مواجه شده است - عرضه GPT-4.5 به دلیل کمبود قدرت پردازشی به تعویق افتاد
https://www.tomshardware.com/tech-industry/artificial-intelligence/openai-has-run-out-of-gpus-says-sam-altman-gpt-4-5-rollout-delayed-due-to-lack-of-processing-power
جدیدترین مدل خود، GPT-4.5 را منتشر کرده است. با این حال، در حال حاضر فقط برای مشترکین Pro که ماهانه ۲۰۰ دلار پرداخت میکنند، در دسترس است. سم آلتمن، مدیرعامل این شرکت، در X (سابقاً توییتر) اعلام کرد که مجبور شدهاند انتشار مدل را به صورت تدریجی انجام دهند زیرا “…ما رشد زیادی داشتهایم و GPUهایمان تمام شده است.” او سپس اضافه کرد: “هفته آینده دهها هزار GPU اضافه خواهیم کرد و آن را برای سطح Plus نیز عرضه خواهیم کرد.” بنابراین، حتی اگر ماهانه فقط ۲۰ دلار به OpenAI پرداخت میکنید، برای دسترسی به پیشرفتهترین مدل آن مجبور نخواهید بود مدت زیادی منتظر بمانید.
https://www.tomshardware.com/tech-industry/artificial-intelligence/openai-has-run-out-of-gpus-says-sam-altman-gpt-4-5-rollout-delayed-due-to-lack-of-processing-power
جدیدترین مدل خود، GPT-4.5 را منتشر کرده است. با این حال، در حال حاضر فقط برای مشترکین Pro که ماهانه ۲۰۰ دلار پرداخت میکنند، در دسترس است. سم آلتمن، مدیرعامل این شرکت، در X (سابقاً توییتر) اعلام کرد که مجبور شدهاند انتشار مدل را به صورت تدریجی انجام دهند زیرا “…ما رشد زیادی داشتهایم و GPUهایمان تمام شده است.” او سپس اضافه کرد: “هفته آینده دهها هزار GPU اضافه خواهیم کرد و آن را برای سطح Plus نیز عرضه خواهیم کرد.” بنابراین، حتی اگر ماهانه فقط ۲۰ دلار به OpenAI پرداخت میکنید، برای دسترسی به پیشرفتهترین مدل آن مجبور نخواهید بود مدت زیادی منتظر بمانید.
Tom's Hardware
OpenAI has run out of GPUs, says Sam Altman — GPT-4.5 rollout delayed
Tens of thousands of GPUs will arrive next week.
Tensorflow(@CVision)
سم آلتمن میگوید OpenAI با کمبود GPU مواجه شده است - عرضه GPT-4.5 به دلیل کمبود قدرت پردازشی به تعویق افتاد https://www.tomshardware.com/tech-industry/artificial-intelligence/openai-has-run-out-of-gpus-says-sam-altman-gpt-4-5-rollout-delayed-due-to-lack-of…
سم آلتمن قبلا هم به این موضع اشاره کرده بود که OpenAI به لحاظ حاشیه سود در مضیقه قرار داره جا داره یه نگاه به مدل درآمدی deepseek بندازیم!
بیایم عملکرد و هزینههای سرویس استنتاج مدلهای DeepSeek-V3 و R1 مورد بررسی قرار بدیم، تحلیلی شامل بررسی سختافزار، بهرهوری، هزینهها، درآمد و حاشیه سود این سرویس در یک بازه ۲۴ ساعته و ببینیم چند چنده ؟
دیپ سیک از کارتهای گرافیک H800 برای ارائه خدمات استنتاج استفاده میکنه که به دلیل عملکرد بالاش، انتخاب مناسبی برای پردازش مدل های بزرگ زبانی محسوب میشه. نکات کلیدی مربوط به زیر ساخت و محاسبات به شرح زیره:
تمامی محاسبات متریک و ارسال دادهها از FP8 استفاده میکنه، که باعث بهینه سازی سرعت پردازش و کاهش نیاز به حافظه میشه
محاسبات اصلی MLA (Matrix Learning Accelerator) و ارسال داده های ترکیبی بر پایه BF16 اجرا میشن، که دقت مناسبی در برابر FP8 ارائه میده
برای مدیریت بار، در ساعات پر ترافیک تعداد نود های استنتاج افزایش یافته و در ساعات کم بار بخشی از منابع به تحقیق و آموزش اختصاص داده میشه.
ادامه داره ...
بیایم عملکرد و هزینههای سرویس استنتاج مدلهای DeepSeek-V3 و R1 مورد بررسی قرار بدیم، تحلیلی شامل بررسی سختافزار، بهرهوری، هزینهها، درآمد و حاشیه سود این سرویس در یک بازه ۲۴ ساعته و ببینیم چند چنده ؟
دیپ سیک از کارتهای گرافیک H800 برای ارائه خدمات استنتاج استفاده میکنه که به دلیل عملکرد بالاش، انتخاب مناسبی برای پردازش مدل های بزرگ زبانی محسوب میشه. نکات کلیدی مربوط به زیر ساخت و محاسبات به شرح زیره:
تمامی محاسبات متریک و ارسال دادهها از FP8 استفاده میکنه، که باعث بهینه سازی سرعت پردازش و کاهش نیاز به حافظه میشه
محاسبات اصلی MLA (Matrix Learning Accelerator) و ارسال داده های ترکیبی بر پایه BF16 اجرا میشن، که دقت مناسبی در برابر FP8 ارائه میده
برای مدیریت بار، در ساعات پر ترافیک تعداد نود های استنتاج افزایش یافته و در ساعات کم بار بخشی از منابع به تحقیق و آموزش اختصاص داده میشه.
ادامه داره ...
Tensorflow(@CVision)
سم آلتمن قبلا هم به این موضع اشاره کرده بود که OpenAI به لحاظ حاشیه سود در مضیقه قرار داره جا داره یه نگاه به مدل درآمدی deepseek بندازیم! بیایم عملکرد و هزینههای سرویس استنتاج مدلهای DeepSeek-V3 و R1 مورد بررسی قرار بدیم، تحلیلی شامل بررسی سختافزار، بهرهوری،…
بازه ۲۴ ساعت رو در نظر بگیریم:
بیشترین تعداد نود مشغول: ۲۷۸ نود (هر نود دارای ۸ کارت H800 هست)
میانگین استفاده از نودها: ۲۲۶.۷۵ نود در هر لحظه
هزینه اجاره سختافزار: با فرض ۲ دلار در ساعت برای هر GPU، هزینه کل برابر با ۸۷,۰۷۲ دلار در روزه
این آمار نشون میده که DeepSeek بهطور مؤثری از منابع سختافزاری استفاده کرده و با کاهش نودها در زمانهای کمبار، هزینه ها رو مدیریت می کنه.
تعداد کل توکنهای ورودی: ۶۰۸ میلیارد توکن
از این مقدار، ۵۶.۳٪ (۳۴۲ میلیارد توکن) در کش دیسک (on-disk KV cache) پردازش شده که نشون دهنده استفاده مؤثر از کش برای کاهش هزینههای پردازشه!
تعداد کل توکنهای خروجی: ۱۶۸ میلیارد توکن
سرعت تولید خروجی: ۲۰ تا ۲۲ توکن در ثانیه
میانگین طول KV cache برای هر توکن خروجی: ۴,۹۸۹ توکن
توان پردازشی هر نود H800:
در مرحله prefill (ورودی اولیه): ۷۳.۷ هزار توکن در ثانیه (با احتساب کش)
در مرحله decoding (تولید خروجی): ۱۴.۸ هزار توکن در ثانیه
این دادهها نشون میدن که مدل DeepSeek-V3/R1 توان پردازش بسیار بالایی داره و با بهینهسازی کش، بهره وری پردازش رو افزایش داده!
ادامه داره...
بیشترین تعداد نود مشغول: ۲۷۸ نود (هر نود دارای ۸ کارت H800 هست)
میانگین استفاده از نودها: ۲۲۶.۷۵ نود در هر لحظه
هزینه اجاره سختافزار: با فرض ۲ دلار در ساعت برای هر GPU، هزینه کل برابر با ۸۷,۰۷۲ دلار در روزه
این آمار نشون میده که DeepSeek بهطور مؤثری از منابع سختافزاری استفاده کرده و با کاهش نودها در زمانهای کمبار، هزینه ها رو مدیریت می کنه.
تعداد کل توکنهای ورودی: ۶۰۸ میلیارد توکن
از این مقدار، ۵۶.۳٪ (۳۴۲ میلیارد توکن) در کش دیسک (on-disk KV cache) پردازش شده که نشون دهنده استفاده مؤثر از کش برای کاهش هزینههای پردازشه!
تعداد کل توکنهای خروجی: ۱۶۸ میلیارد توکن
سرعت تولید خروجی: ۲۰ تا ۲۲ توکن در ثانیه
میانگین طول KV cache برای هر توکن خروجی: ۴,۹۸۹ توکن
توان پردازشی هر نود H800:
در مرحله prefill (ورودی اولیه): ۷۳.۷ هزار توکن در ثانیه (با احتساب کش)
در مرحله decoding (تولید خروجی): ۱۴.۸ هزار توکن در ثانیه
این دادهها نشون میدن که مدل DeepSeek-V3/R1 توان پردازش بسیار بالایی داره و با بهینهسازی کش، بهره وری پردازش رو افزایش داده!
ادامه داره...
Tensorflow(@CVision)
بازه ۲۴ ساعت رو در نظر بگیریم: بیشترین تعداد نود مشغول: ۲۷۸ نود (هر نود دارای ۸ کارت H800 هست) میانگین استفاده از نودها: ۲۲۶.۷۵ نود در هر لحظه هزینه اجاره سختافزار: با فرض ۲ دلار در ساعت برای هر GPU، هزینه کل برابر با ۸۷,۰۷۲ دلار در روزه این آمار نشون…
حاشیه سود نشون میده مدل اقتصادی این سرویس بسیار سودآوره
https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md
https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md
این مقاله یه روش جدید برای استدلال در مدل های زبانی به نام (Atom of Thoughts - AoT) معرفی کرده، که نیاز به اطلاعات تاریخی رو کاهش میده و استدلال رو موثرتر و کارآمدتر میکنه. این روش میتونه به عنوان یه افزونه در مدل های دیگه نیز استفاده شه و در آزمایش ها نتایج بهتری از روش های پیشین داشته.
استدلال اغلب با شکستن مسئله به قطعات کوچکتر و قابل مدیریت تر به دست میاد. این قطعات کوچکتر، که توی این مقاله "پرسشهای فرعی" نامیده میشن، باید دو ویژگی مهم داشته باشند:
اول Self-contained: هر پرسش فرعی باید به تنهایی قابل درک و بررسی باشه، بدون نیاز به دانش گسترده از تاریخچه کل مسئله.
دوم Verifiable: پاسخ به هر پرسش فرعی باید قابل بررسی و اثبات باشه، به طوری که بشه از صحت گام های استدلال اطمینان حاصل کرد.
مثلا فرض کنید با مسیله "چرا آب در زمستان یخ میزنه؟" رو برو میشین. برای جواب دادن به این سؤال، مغزمون خود به خود سوال به چند زیر سوال ساده تر میشکنه:
دمای انجماد آب چنده؟
دمای هوا در زمستان معمولا چقدره؟
چی باعث میشه آب در دمای پایین یخ بزنه؟
حالا اگه این زیرسؤال ها رو جداگانه حل کنیم، راحت تر و دقیق تر به جواب اصلی می رسیم، بدون اینکه اطلاعات اضافی یا بی ربط توی ذهن جمع شه. این کاریه که این روش انجام میده.
از یه دید دیگه این روش به زنجیره مارکوف خیلی نزدیکه، توی فرایند مارکوف حالت بعدی سیستم فقط به حالت فعلی اون وابسته هست و نه به تاریخچه حالات قبلی. پرسشهای فرعی در روش atom of thoughs نیز به همین شکل "بیحافظه" هستن.
به عبارت دیگه، برای حل یک پرسش فرعی، ما عمدتا به اطلاعات موجود در حالت فعلی استدلال (یعنی خود پرسش فرعی) توجه می کنیم و نه لزوما به مسیر پر پیچ و خم استدلالی که تا اینجا طی شده، کاری که روش های استدلال کنونی انجام میدن و نیاز به منابع محاسباتی رو به صورت چشمگیری افزایش میدن.
https://arxiv.org/abs/2502.12018
کد:
https://github.com/qixucen/atom
استدلال اغلب با شکستن مسئله به قطعات کوچکتر و قابل مدیریت تر به دست میاد. این قطعات کوچکتر، که توی این مقاله "پرسشهای فرعی" نامیده میشن، باید دو ویژگی مهم داشته باشند:
اول Self-contained: هر پرسش فرعی باید به تنهایی قابل درک و بررسی باشه، بدون نیاز به دانش گسترده از تاریخچه کل مسئله.
دوم Verifiable: پاسخ به هر پرسش فرعی باید قابل بررسی و اثبات باشه، به طوری که بشه از صحت گام های استدلال اطمینان حاصل کرد.
مثلا فرض کنید با مسیله "چرا آب در زمستان یخ میزنه؟" رو برو میشین. برای جواب دادن به این سؤال، مغزمون خود به خود سوال به چند زیر سوال ساده تر میشکنه:
دمای انجماد آب چنده؟
دمای هوا در زمستان معمولا چقدره؟
چی باعث میشه آب در دمای پایین یخ بزنه؟
حالا اگه این زیرسؤال ها رو جداگانه حل کنیم، راحت تر و دقیق تر به جواب اصلی می رسیم، بدون اینکه اطلاعات اضافی یا بی ربط توی ذهن جمع شه. این کاریه که این روش انجام میده.
از یه دید دیگه این روش به زنجیره مارکوف خیلی نزدیکه، توی فرایند مارکوف حالت بعدی سیستم فقط به حالت فعلی اون وابسته هست و نه به تاریخچه حالات قبلی. پرسشهای فرعی در روش atom of thoughs نیز به همین شکل "بیحافظه" هستن.
به عبارت دیگه، برای حل یک پرسش فرعی، ما عمدتا به اطلاعات موجود در حالت فعلی استدلال (یعنی خود پرسش فرعی) توجه می کنیم و نه لزوما به مسیر پر پیچ و خم استدلالی که تا اینجا طی شده، کاری که روش های استدلال کنونی انجام میدن و نیاز به منابع محاسباتی رو به صورت چشمگیری افزایش میدن.
https://arxiv.org/abs/2502.12018
کد:
https://github.com/qixucen/atom
arXiv.org
Atom of Thoughts for Markov LLM Test-Time Scaling
Large Language Models (LLMs) achieve superior performance through training-time scaling, and test-time scaling further enhances their capabilities by conducting effective reasoning during...
ویدیوهای ضبط شده (به همراه اسلایدها) کورس Introduction to Flow Matching and Diffusion Models دانشگاه MIT به صورت رایگان در یوتیوب قرار گرفت
✅ Flow and Diffusion Models
✅ Constructing a Training Target
✅ Training Flow and Diffusion Models
✅ Building an Image Generator
✅ Generative Robotics
✅ Generative Protein Design
https://diffusion.csail.mit.edu/
✅ Flow and Diffusion Models
✅ Constructing a Training Target
✅ Training Flow and Diffusion Models
✅ Building an Image Generator
✅ Generative Robotics
✅ Generative Protein Design
https://diffusion.csail.mit.edu/
YouTube
MIT 6.S184: Flow Matching and Diffusion Models - Lecture 01 - Generative AI with SDEs
Lecture notes: https://diffusion.csail.mit.edu/docs/lecture-notes.pdf
Slides: https://diffusion.csail.mit.edu/docs/slides_lecture_1.pdf
Course website: https://diffusion.csail.mit.edu/
Code exercises: https://diffusion.csail.mit.edu/
Next video: https:/…
Slides: https://diffusion.csail.mit.edu/docs/slides_lecture_1.pdf
Course website: https://diffusion.csail.mit.edu/
Code exercises: https://diffusion.csail.mit.edu/
Next video: https:/…
audio (3).wav
16 MB
مقاله DiffRhythm محدودیت های روشهای فعلی تولید موسیقی مانند تولید جداگانه آواز و آهنگ، نیاز به معماری های پیچیده چند مرحله ای، سرعت پایین و ساخت قطعات کوتاه رو برطرف می کنه.
این مدل با استفاده از معماری Latent Diffusion، قادره آهنگ های کامل (تا ۴ دقیقه و ۴۵ ثانیه) رو تنها در ۱۰ ثانیه تولید کنه و همزمان هر دو بخش آواز و آهنگ رو با کیفیت بالا و حفظ هوشمندی ساختاری بسازه.
در مقایسه با روشهای مبتنی بر مدل های زبانی که کند هستن، DiffRhythm با ساختار non-autoregressive، سرعت استنتاج رو به طور چشمگیری افزایش میده. همچنین، نیاز به داده های پیچیده یا پیش پردازش های وقتگیر رو حذف کرده و تنها با دریافت متن اشعار و یه نشانه سبک موسیقی (مثل پاپ یا راک)، فرآیند تولید رو آغاز میکنه.
به عنوان یه مدل متن باز کیفیت موزیک های تولیدی واقعا بالاست !
مقاله :
https://arxiv.org/abs/2503.01183
کد:
https://github.com/ASLP-lab/DiffRhythm
دمو:
https://huggingface.co/spaces/ASLP-lab/DiffRhythm
این مدل با استفاده از معماری Latent Diffusion، قادره آهنگ های کامل (تا ۴ دقیقه و ۴۵ ثانیه) رو تنها در ۱۰ ثانیه تولید کنه و همزمان هر دو بخش آواز و آهنگ رو با کیفیت بالا و حفظ هوشمندی ساختاری بسازه.
در مقایسه با روشهای مبتنی بر مدل های زبانی که کند هستن، DiffRhythm با ساختار non-autoregressive، سرعت استنتاج رو به طور چشمگیری افزایش میده. همچنین، نیاز به داده های پیچیده یا پیش پردازش های وقتگیر رو حذف کرده و تنها با دریافت متن اشعار و یه نشانه سبک موسیقی (مثل پاپ یا راک)، فرآیند تولید رو آغاز میکنه.
به عنوان یه مدل متن باز کیفیت موزیک های تولیدی واقعا بالاست !
مقاله :
https://arxiv.org/abs/2503.01183
کد:
https://github.com/ASLP-lab/DiffRhythm
دمو:
https://huggingface.co/spaces/ASLP-lab/DiffRhythm
در مدلهای MoE سنتی، پردازش داده ها به صورت موازی و مستقل انجام میشه، اما این روش باعث مصرف بالای حافظه و کاهش ارتباط بین متخصصان (Experts) میشه.
این مقاله جدید با عنوان Chain-of-Experts (CoE) به معرفی یک روش جدید برای بهبود مدلهای Mixture-of-Experts می پردازه.
این مدل با جایگزینی ساختار موازی با یه مکانیزم تکراری و سریالی، ارتباط بین متخصصان رو برقرار میکنه.
در این روش، خروجی یک متخصص به ورودی متخصص بعدی منتقل میشه، که نتیجش این میشه که مدل از اطلاعات پردازش شده در مراحل قبل استفاده کنه. این کار نه تنها باعث بهبود دقت مدل، بلکه انعطافپذیری انتخاب متخصصان رو 823 برابر افزایش میده.
یکی از مهم ترین دستاوردهای CoE کاهش مصرف حافظه بین 17.6٪ تا 42٪ هست، چون دیگه نیازی به ذخیره سازی و پردازش همزمان تمام خروجی های متخصصان به صورت مستقل نیست.
این مقاله جدید با عنوان Chain-of-Experts (CoE) به معرفی یک روش جدید برای بهبود مدلهای Mixture-of-Experts می پردازه.
این مدل با جایگزینی ساختار موازی با یه مکانیزم تکراری و سریالی، ارتباط بین متخصصان رو برقرار میکنه.
در این روش، خروجی یک متخصص به ورودی متخصص بعدی منتقل میشه، که نتیجش این میشه که مدل از اطلاعات پردازش شده در مراحل قبل استفاده کنه. این کار نه تنها باعث بهبود دقت مدل، بلکه انعطافپذیری انتخاب متخصصان رو 823 برابر افزایش میده.
یکی از مهم ترین دستاوردهای CoE کاهش مصرف حافظه بین 17.6٪ تا 42٪ هست، چون دیگه نیازی به ذخیره سازی و پردازش همزمان تمام خروجی های متخصصان به صورت مستقل نیست.
Tensorflow(@CVision)
در مدلهای MoE سنتی، پردازش داده ها به صورت موازی و مستقل انجام میشه، اما این روش باعث مصرف بالای حافظه و کاهش ارتباط بین متخصصان (Experts) میشه. این مقاله جدید با عنوان Chain-of-Experts (CoE) به معرفی یک روش جدید برای بهبود مدلهای Mixture-of-Experts می…
این کاهش حافظه باعث میشه مدل های زبانی بزرگ روی سختافزارهای ارزان تر و کم مصرف تر اجرا شن، که به افزایش دسترسی و مقیاس پذیری مدلهای هوش مصنوعی کمک میکنه. همچنین، این روش کارایی رو بدون افزایش هزینه پردازشی بهبود میده، که خودش یه «نهار رایگان» در دنیای یادگیری عمیق محسوب میشه.
https://github.com/ZihanWang314/coe
https://github.com/ZihanWang314/coe
GitHub
GitHub - ZihanWang314/CoE: Chain of Experts (CoE) enables communication between experts within Mixture-of-Experts (MoE) models
Chain of Experts (CoE) enables communication between experts within Mixture-of-Experts (MoE) models - ZihanWang314/CoE
قبلا سایتها باید محتواشونو برای موتورهای جست و جو بهینه میکردند (SEO)، الان اینکه LLMها موقع inference بتونند به سایت شما دسترسی داشته باشند دغدغه شده، حالا
جرمی هاوارد، بنیانگذار fast.ai، در صفحهی llmstxt.org یه فایل به اسم /llms.txt پیشنهاد داده که تو ریشهی وبسایت قرار میگیره. این فایل به مدلهای زبانی بزرگ کمک میکنه تا راحتتر و مؤثرتر محتوای سایت رو بفهمن. با ارائهی اطلاعات مختصر و ساختاریافته، این فایل دسترسی مدلها به محتوای سایت رو بهبود میبخشه.
جرمی هاوارد، بنیانگذار fast.ai، در صفحهی llmstxt.org یه فایل به اسم /llms.txt پیشنهاد داده که تو ریشهی وبسایت قرار میگیره. این فایل به مدلهای زبانی بزرگ کمک میکنه تا راحتتر و مؤثرتر محتوای سایت رو بفهمن. با ارائهی اطلاعات مختصر و ساختاریافته، این فایل دسترسی مدلها به محتوای سایت رو بهبود میبخشه.
# Title
> Optional description goes here
Optional details go here
## Section name
- [Link title](https://link_url): Optional link details
## Optional
- [Link title](https://link_url)
اپل مک استودیو جدید با تراشه M3 Ultra به قیمت 10k رو معرفی کرد که میتونه تا ۵۱۲ گیگابایت حافظه یکپارچه (Unified Memory) داشته باشه که به عنوان VRAM نیز عمل میکنه.
با این میزان حافظه و پهنای باند ۸۰۰ گیگابایت بر ثانیه، اجرای مدلهای هوش مصنوعی بزرگ مانند DeepSeek R1 با ۶۷۱ میلیارد پارامتر امکانپذیره!
https://www.theregister.com/2025/03/05/apple_m3_ultra_mac_studio/
با این میزان حافظه و پهنای باند ۸۰۰ گیگابایت بر ثانیه، اجرای مدلهای هوش مصنوعی بزرگ مانند DeepSeek R1 با ۶۷۱ میلیارد پارامتر امکانپذیره!
https://www.theregister.com/2025/03/05/apple_m3_ultra_mac_studio/
Tensorflow(@CVision)
اپل مک استودیو جدید با تراشه M3 Ultra به قیمت 10k رو معرفی کرد که میتونه تا ۵۱۲ گیگابایت حافظه یکپارچه (Unified Memory) داشته باشه که به عنوان VRAM نیز عمل میکنه. با این میزان حافظه و پهنای باند ۸۰۰ گیگابایت بر ثانیه، اجرای مدلهای هوش مصنوعی بزرگ مانند…
این تراشه تقریبا به اندازه تراشه B200 ترانزیستور داره و خیلی بیشتر از تراشه H200! درسته که این تراشه با کارت گرافیک های انوید یا قابل مقایسه نیست، چون قدرت پردازشی که روی تمام هسته های گرافیکی انویدیا وجود داره بیشتره اما برای استفاده از مدلهای زبانی بزرگ (LLM) مثل چت بات ها، مک به خاطر حافظه یکپارچه و پهنای باند حافظه، گزینه خوبی محسوب میشه. اما برای آموزش مدل ها، مک کافی نیست، چون کارتهای گرافیک انویدیا هسته های تنسور و امکانات بیشتری دارن.
شاید بگید با این پول میشه تقریبا ۱۲ تا کارت گرافیک 3090 خرید که مجموعا ۲۸۸ گیگابایت حافظه GDDR پرسرعت واقعی و پردازنده های گرافیکی درست و حسابی به شما میده اما وصل کردن بیشتر از ۳-۴ کارت گرافیک به یک دستگاه مشکلات خاص خودش رو داره و مصرف برق فاکتور تاثیر گذاری میتونه باشه!
به علاوه، مک استودیو خیلی بی سروصدا تره، برق خیلی کمتری مصرف میکنه و تا ۵۱۲ گیگابایت حافظه رو پشتیبانی میکنه، که حتی با کارت گرافیک 5090 با حافظه ۳۲ گیگابایتی، برای رسیدن به این مقدار حافظه گرافیکی، به ۱۶ تا کارت 5090 نیاز دارین!!
شاید بگید با این پول میشه تقریبا ۱۲ تا کارت گرافیک 3090 خرید که مجموعا ۲۸۸ گیگابایت حافظه GDDR پرسرعت واقعی و پردازنده های گرافیکی درست و حسابی به شما میده اما وصل کردن بیشتر از ۳-۴ کارت گرافیک به یک دستگاه مشکلات خاص خودش رو داره و مصرف برق فاکتور تاثیر گذاری میتونه باشه!
به علاوه، مک استودیو خیلی بی سروصدا تره، برق خیلی کمتری مصرف میکنه و تا ۵۱۲ گیگابایت حافظه رو پشتیبانی میکنه، که حتی با کارت گرافیک 5090 با حافظه ۳۲ گیگابایتی، برای رسیدن به این مقدار حافظه گرافیکی، به ۱۶ تا کارت 5090 نیاز دارین!!
QwQ-32B
منتشر شد و و ادعا میکنه تنها با ۳۲ میلیارد پارامتر توانایی دستیابی به عملکرد رقابتی در برابر مدلهای استدلال پیشرفته، مانند DeepSeek-R1 ۶۷۱ میلیارد پارامتری و o1-mini رو داره و حتی توی برخی بنچ مارک ها اونها رو جا میگذاره!!
https://huggingface.co/Qwen/QwQ-32B
منتشر شد و و ادعا میکنه تنها با ۳۲ میلیارد پارامتر توانایی دستیابی به عملکرد رقابتی در برابر مدلهای استدلال پیشرفته، مانند DeepSeek-R1 ۶۷۱ میلیارد پارامتری و o1-mini رو داره و حتی توی برخی بنچ مارک ها اونها رو جا میگذاره!!
https://huggingface.co/Qwen/QwQ-32B
Tensorflow(@CVision)
QwQ-32B منتشر شد و و ادعا میکنه تنها با ۳۲ میلیارد پارامتر توانایی دستیابی به عملکرد رقابتی در برابر مدلهای استدلال پیشرفته، مانند DeepSeek-R1 ۶۷۱ میلیارد پارامتری و o1-mini رو داره و حتی توی برخی بنچ مارک ها اونها رو جا میگذاره!! https://huggingface.co/Qwen/QwQ…
البته بنچ مارکهایی که خودشون گزارش میدن، معمولاً دچار مشکلاتی مثل انتخاب گزینشی، overfiting تست و سایر سوگیری ها میشن و تصویر بهتری از واقعیت نشون میدن، ممکنه در مواجه شدن با داده های واقعی نتونه برای اکثر کاربردها جای R1 رو بگیره.
با این حال، فقط ۳۲ میلیارد پارامتر داره، پس حتی اگه به R1 کامل ۶۱۷ میلیارد پارامتری MoE نرسه و صرفا حتی بهش نزدیک شده باشه یه برد بزرگه! برخلاف R1، نسخه کوانتیزه شده QwQ باید روی کارتهای گرافیک شخصی به خوبی اجرا شه، پس بهتره قبل از دانلود مدل منتظر بنچ مارک های کاربران عادی موند!
با این حال، فقط ۳۲ میلیارد پارامتر داره، پس حتی اگه به R1 کامل ۶۱۷ میلیارد پارامتری MoE نرسه و صرفا حتی بهش نزدیک شده باشه یه برد بزرگه! برخلاف R1، نسخه کوانتیزه شده QwQ باید روی کارتهای گرافیک شخصی به خوبی اجرا شه، پس بهتره قبل از دانلود مدل منتظر بنچ مارک های کاربران عادی موند!
Tensorflow(@CVision)
البته بنچ مارکهایی که خودشون گزارش میدن، معمولاً دچار مشکلاتی مثل انتخاب گزینشی، overfiting تست و سایر سوگیری ها میشن و تصویر بهتری از واقعیت نشون میدن، ممکنه در مواجه شدن با داده های واقعی نتونه برای اکثر کاربردها جای R1 رو بگیره. با این حال، فقط ۳۲ میلیارد…
Qwen
این نسخه رو به مجموعه مدل های خودش اضافه کرد و هم اکنون در آدرس زیر قابل دسترسه.
https://chat.qwen.ai/
این نسخه رو به مجموعه مدل های خودش اضافه کرد و هم اکنون در آدرس زیر قابل دسترسه.
https://chat.qwen.ai/
توضیح بسیار شفاف و بصری طراحی kv cache و اینکه Deepseek چطور این فرایند رو به شکل بسیار کارامدی بهینه کرد .
https://youtu.be/0VLAoVGf_74?feature=shared
https://youtu.be/0VLAoVGf_74?feature=shared
YouTube
How DeepSeek Rewrote the Transformer [MLA]
Thanks to KiwiCo for sponsoring today’s video! Go to https://www.kiwico.com/welchlabs and use code WELCHLABS for 50% off your first monthly club crate or for 20% off your first Panda Crate!
MLA/DeepSeek Poster at 17:12 (Free shipping for a limited time…
MLA/DeepSeek Poster at 17:12 (Free shipping for a limited time…
Tensorflow(@CVision)
قبلا در مورد دعوای آمریکا و چین بر سر تایوان به صورت مختصر مطالبی در این پست نوشتم. از آنجایی که مطالب این کانال الزاما به هوش مصنوعی اختصاص داره، وارد موضوعات کلان سیاسی این جریان نمیشم اما از بعد فناوری، فشار آمریکا برای محفوظ نگه داشتن سهم خوش از شرکت TSMC در…
فناوری EUV به دلیل نقش حیاتیش در تولید تراشه های پیشرفته، اهمیت ژئوپلیتیکی بالایی داره و به همین دلیل به عنوان یه عامل بازدارنده در اختلافات سیاسی مطرح میشه.
فقط یه شرکت در دنیا به نام ASML میتونه این دستگاههای EUV رو بسازه. این دستگاه ها برای تولید تراشههای پیشرفته ضروری هستن و به همین دلیل، ASML نقش بسیار مهمی در صنعت الکترونیک داره. در واقع این دستگاه با استفاده از فرایند لیتوگرافی الگوهای بسیار ریز ترانزیستورها با استفاده از نور فرابنفش EUV روی ویفرهای سیلیکونی حک میکنه که فرایند بسیار پیچیده ای هست.
شرکت تایوانی TSMC با استفاده از دستگاههای ASML، تراشههای پیشرفته تولید میکنه. این موضوع باعث شده که تایوان از نظر فناوری بسیار قدرتمند شه و به نوعی، از حمله احتمالی چین محافظت شه!
چین حالا در یک قدمی تولید این دستگاه هست و موفقیتش، تأثیر زیادی بر دنیای فناوری و جغرافیای سیاسی و البته هوش مصنوعی خواهد گذاشت، به عبارتی دستیابی چین به چنین فناوری میتونه اون رو به زنجیره تامین نیمه رساناها تبدیل کنه!
https://www.techpowerup.com/333801/china-develops-domestic-euv-tool-asml-monopoly-in-trouble
فقط یه شرکت در دنیا به نام ASML میتونه این دستگاههای EUV رو بسازه. این دستگاه ها برای تولید تراشههای پیشرفته ضروری هستن و به همین دلیل، ASML نقش بسیار مهمی در صنعت الکترونیک داره. در واقع این دستگاه با استفاده از فرایند لیتوگرافی الگوهای بسیار ریز ترانزیستورها با استفاده از نور فرابنفش EUV روی ویفرهای سیلیکونی حک میکنه که فرایند بسیار پیچیده ای هست.
شرکت تایوانی TSMC با استفاده از دستگاههای ASML، تراشههای پیشرفته تولید میکنه. این موضوع باعث شده که تایوان از نظر فناوری بسیار قدرتمند شه و به نوعی، از حمله احتمالی چین محافظت شه!
چین حالا در یک قدمی تولید این دستگاه هست و موفقیتش، تأثیر زیادی بر دنیای فناوری و جغرافیای سیاسی و البته هوش مصنوعی خواهد گذاشت، به عبارتی دستیابی چین به چنین فناوری میتونه اون رو به زنجیره تامین نیمه رساناها تبدیل کنه!
https://www.techpowerup.com/333801/china-develops-domestic-euv-tool-asml-monopoly-in-trouble
TechPowerUp
China Develops Domestic EUV Tool, ASML Monopoly in Trouble
China's domestic extreme ultraviolet (EUV) lithography development is far from a distant dream. The newest system, now undergoing testing at Huawei's Dongguan facility, leverages laser-induced discharge plasma (LDP) technology, representing a potentially…