مدلهای استدلالی (reasoning) چیست و چگونه ساخته میشوند؟
حتما این روزها بارها مدلهای استدلالی مثل DeepSeek R1 به گوش و چشمتون خورده. اگر هنوز دقیق نمیدونید این مدلها معنیشون چیه و کجا به درد میخورند، بیاید که دواتون پیش آقای سباستین راشکا (نویسنده کتاب Build a Large Language Model From Scratch) هست. ایشون یه بلاگ مشتی راجع به مدلهای استدلالی (همون reasoning) نوشته و مثل همیشه خیلی خوب داستان را شفاف کرده. این را داشته باشید تا منابع بعدی.
مواردی که در این بلاگ توضیح میده:
- تعریف مدل استدلالی چیه؟
- کجا باید از این مدلها استفاده کنیم؟
- پایپلاین پشت R1 چیه؟
- چهار روش اصلی برای ساختن و بهبود مدلهای استدلالی چیه؟
- نکاتی پیرامون مدل R1
- نکاتی برای توسعه مدلهای استدلالی با بودجه بسیار کم (حتی به اندازه دانشگاههای ایران کم ☺️)
اول میگه استدلال (reasoning) واسه وقتیه که سوالی را حل کنیم که نیاز به راهحل پیچیده و چندمرحلهای داره. مثلا پایتخت فرانسه کجاست اینجوری نیست ولی مثلا حل یه سوال فیزیک و ریاضی یا سوال acmای اینجوریه.
بعد میاد میگه سه جا خوب نیست اصلا از این مدلها استفاده کنیم:
- وقتی ما نیاز به سرعت و قیمت پایین داریم
- وقتی سوالهای دانشی (knowledge based) مثل همین پایتخت داریم چون این مدلها دچار هذیانگویی میشن
- سوالات ساده چون این مدلها مثل اکثر ما overthink میکنند
در ادامه میاد پایپلاین R1 را به شکل بسیار روان و سادهای توضیح میده. عکس ضمیمه یک کلیتی از این پایپلاینه. میگه deepseek سه تا مدل داده: DeepSeek-R1-Zero، DeepSeek-R1 و DeepSeek-R1-Distill.
اول. با مدل DeepSeek-V3 که سپتامبر بیرون دادن، با یک RL cold start (بدون SFT) شبیه همون RLHF با دو تا reward (یکی دقت و دومی فرمت به جای ترجیح آدمیزاد) آموزش میده؛ و مدل DeepSeek-R1-Zero را درست میکنه. بعد از همین مدل میاد یه داده SFT بزرگ درست میکنه. ریوارد دقت میاد از leetcode استفاده میکنه که نتیجه کد را مستقیما اجرا کنه و بگه!! فرمت هم میاد از یه سری تگ استفاده میکنه که دقیقا با همون فرمت جواب بده.
دوم. بعد دوباره همون مدل زبانی اولیه سپتامبری DeepSeek-V3 را با همین دیتا SFT که در مرحله قبل ساخته شده بود یه بار فاین تیون میکنه و دوباره همون RL رو میزنه. این بار ولی بهش consistency هم اضافه میکنه که مدل سر چند زبانه بودن پنالتی نزنه. از همین مدل دو تا دیتاست SFT میسازه که یکیش با اندازه ۶۰۰ هزارتا chaing of thoughts داره و دیگری با اندازه ۲۰۰هزارتا knowldegeای هستش. بعد میاد یه RL دیگه هم میزنه که دیتاش کد و ریاضی هست. اینجا مدل DeepSeek R1 معروف ساخته میشه.
سوم. از اون دوتا دیتای SFT هم برای آموزش مدلهای distill استفاده میکنه. البته اینجا distill مثل اون معروفه نیست، اینجا وقتی دیتای sft رو یه مدل قوی درست میکنه و مدل کوچیک (نیم الی ۷۰ میلیاردی) باهاش فاین تیون میشه، بهش میگن distillation.
خلاصه چهار تا روش برای تولید مدل استدلالی میگه:
- روش inference-time scaling: که از پرامپت و اینا استفاده میشه. منابع بیشتری لازمه. گرونتر هم درمیاد چون خیلی حرف میزنه.
- روش RL خالص مثل DeepSeek-R1-Zero
- روش SFT + RL مثل DeepSeek-R1
- روش SFT خالص با distillation: مثل DeepSeek-R1-Distill-Qwen
برای هر کدوم میزان کارایی رو توضیح میده و نهایتا میگه حالت سوم بهترین نتیجه رو میده ولی موارد دیگه هم چیزای جالبی بهمون یاد میده مثل اینکه RL خالی هم به استدلال مدل خیلی کمک میکنه.
در این بلاگ حدسهای خوبی هم راجع به اینکه O1 و mini-O1 هم چطور آموزش داده شدند میگه که O1 ترکیب سوم و اولیه و o1-mini روش چهارم هست.
در نهایت هم میاد نظراتش رو راجع به R1 vs O1 میگه: در کل شبیه هم هستند ولی R1 بهینهتر و ارزانتره که دلیلش رو این میدونه که دیپسیک بیشتر روی آموزش مدل وقت گذاشته ولی o1 روی inference-time رفته. و چون ما اندازه مدل o1 رو نمیدونیم خیلی مقایسه منصفانهای نخواهیم داشت. دربارهی هزینه هم میگه این ۶ میلیون دلار که معروف شده ترکیب DeepSeek-R1 (همون سپتامبریه که پایهی R1 هست) و R1 هستش ولی هزینه R1 رو دیپسیک مشخص نکرده.
برای موضوع آخر هم میگه کسایی که پول کم هم دارند خوبه برن سراغ Distillation: به لطف مقاله مفصلی که برای R1 نوشتند مشخص شد که این روش هم خیلی موثره. مثلا میگه مقالهای اومده یه مدل به نام Sky-T1 منتشر کرده که با ۴۵۰ دلار (۴۰ تومن) مدل ۳۲ میلیاردی را با ۱۷ هزارتا دیتای sft یه فاین تیون هدفمند کرده و در مواردی شبیه o1 عمل کرده!! موارد مهمی هم ادامش راجع به Journey Learning میگه که دیگه توی پست جا نمیشه :))
لینک پست:
https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html
#read
#blog
🙏Thanks to: @nlp_stuff
حتما این روزها بارها مدلهای استدلالی مثل DeepSeek R1 به گوش و چشمتون خورده. اگر هنوز دقیق نمیدونید این مدلها معنیشون چیه و کجا به درد میخورند، بیاید که دواتون پیش آقای سباستین راشکا (نویسنده کتاب Build a Large Language Model From Scratch) هست. ایشون یه بلاگ مشتی راجع به مدلهای استدلالی (همون reasoning) نوشته و مثل همیشه خیلی خوب داستان را شفاف کرده. این را داشته باشید تا منابع بعدی.
مواردی که در این بلاگ توضیح میده:
- تعریف مدل استدلالی چیه؟
- کجا باید از این مدلها استفاده کنیم؟
- پایپلاین پشت R1 چیه؟
- چهار روش اصلی برای ساختن و بهبود مدلهای استدلالی چیه؟
- نکاتی پیرامون مدل R1
- نکاتی برای توسعه مدلهای استدلالی با بودجه بسیار کم (حتی به اندازه دانشگاههای ایران کم ☺️)
اول میگه استدلال (reasoning) واسه وقتیه که سوالی را حل کنیم که نیاز به راهحل پیچیده و چندمرحلهای داره. مثلا پایتخت فرانسه کجاست اینجوری نیست ولی مثلا حل یه سوال فیزیک و ریاضی یا سوال acmای اینجوریه.
بعد میاد میگه سه جا خوب نیست اصلا از این مدلها استفاده کنیم:
- وقتی ما نیاز به سرعت و قیمت پایین داریم
- وقتی سوالهای دانشی (knowledge based) مثل همین پایتخت داریم چون این مدلها دچار هذیانگویی میشن
- سوالات ساده چون این مدلها مثل اکثر ما overthink میکنند
در ادامه میاد پایپلاین R1 را به شکل بسیار روان و سادهای توضیح میده. عکس ضمیمه یک کلیتی از این پایپلاینه. میگه deepseek سه تا مدل داده: DeepSeek-R1-Zero، DeepSeek-R1 و DeepSeek-R1-Distill.
اول. با مدل DeepSeek-V3 که سپتامبر بیرون دادن، با یک RL cold start (بدون SFT) شبیه همون RLHF با دو تا reward (یکی دقت و دومی فرمت به جای ترجیح آدمیزاد) آموزش میده؛ و مدل DeepSeek-R1-Zero را درست میکنه. بعد از همین مدل میاد یه داده SFT بزرگ درست میکنه. ریوارد دقت میاد از leetcode استفاده میکنه که نتیجه کد را مستقیما اجرا کنه و بگه!! فرمت هم میاد از یه سری تگ استفاده میکنه که دقیقا با همون فرمت جواب بده.
دوم. بعد دوباره همون مدل زبانی اولیه سپتامبری DeepSeek-V3 را با همین دیتا SFT که در مرحله قبل ساخته شده بود یه بار فاین تیون میکنه و دوباره همون RL رو میزنه. این بار ولی بهش consistency هم اضافه میکنه که مدل سر چند زبانه بودن پنالتی نزنه. از همین مدل دو تا دیتاست SFT میسازه که یکیش با اندازه ۶۰۰ هزارتا chaing of thoughts داره و دیگری با اندازه ۲۰۰هزارتا knowldegeای هستش. بعد میاد یه RL دیگه هم میزنه که دیتاش کد و ریاضی هست. اینجا مدل DeepSeek R1 معروف ساخته میشه.
سوم. از اون دوتا دیتای SFT هم برای آموزش مدلهای distill استفاده میکنه. البته اینجا distill مثل اون معروفه نیست، اینجا وقتی دیتای sft رو یه مدل قوی درست میکنه و مدل کوچیک (نیم الی ۷۰ میلیاردی) باهاش فاین تیون میشه، بهش میگن distillation.
خلاصه چهار تا روش برای تولید مدل استدلالی میگه:
- روش inference-time scaling: که از پرامپت و اینا استفاده میشه. منابع بیشتری لازمه. گرونتر هم درمیاد چون خیلی حرف میزنه.
- روش RL خالص مثل DeepSeek-R1-Zero
- روش SFT + RL مثل DeepSeek-R1
- روش SFT خالص با distillation: مثل DeepSeek-R1-Distill-Qwen
برای هر کدوم میزان کارایی رو توضیح میده و نهایتا میگه حالت سوم بهترین نتیجه رو میده ولی موارد دیگه هم چیزای جالبی بهمون یاد میده مثل اینکه RL خالی هم به استدلال مدل خیلی کمک میکنه.
در این بلاگ حدسهای خوبی هم راجع به اینکه O1 و mini-O1 هم چطور آموزش داده شدند میگه که O1 ترکیب سوم و اولیه و o1-mini روش چهارم هست.
در نهایت هم میاد نظراتش رو راجع به R1 vs O1 میگه: در کل شبیه هم هستند ولی R1 بهینهتر و ارزانتره که دلیلش رو این میدونه که دیپسیک بیشتر روی آموزش مدل وقت گذاشته ولی o1 روی inference-time رفته. و چون ما اندازه مدل o1 رو نمیدونیم خیلی مقایسه منصفانهای نخواهیم داشت. دربارهی هزینه هم میگه این ۶ میلیون دلار که معروف شده ترکیب DeepSeek-R1 (همون سپتامبریه که پایهی R1 هست) و R1 هستش ولی هزینه R1 رو دیپسیک مشخص نکرده.
برای موضوع آخر هم میگه کسایی که پول کم هم دارند خوبه برن سراغ Distillation: به لطف مقاله مفصلی که برای R1 نوشتند مشخص شد که این روش هم خیلی موثره. مثلا میگه مقالهای اومده یه مدل به نام Sky-T1 منتشر کرده که با ۴۵۰ دلار (۴۰ تومن) مدل ۳۲ میلیاردی را با ۱۷ هزارتا دیتای sft یه فاین تیون هدفمند کرده و در مواردی شبیه o1 عمل کرده!! موارد مهمی هم ادامش راجع به Journey Learning میگه که دیگه توی پست جا نمیشه :))
لینک پست:
https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html
#read
#blog
🙏Thanks to: @nlp_stuff
Telegram
stuff
This media is not supported in your browser
VIEW IN TELEGRAM
Pikadditions
توسط Pika معرفی شده و امکان Video Inpainting رو فراهم میکنه!
این قابلیت به شما اجازه میده تا اشیاء، حیوانات یا افراد رو به ویدیوهای موجود اضافه کنید. این ویژگی از هوش مصنوعی استفاده میکنه تا این عناصر رو بهطور یکپارچه و طبیعی در فیلم یا ویدیوهای دنیای واقعی ادغام کنه
https://pikalabsai.org/pikadditions/
توسط Pika معرفی شده و امکان Video Inpainting رو فراهم میکنه!
این قابلیت به شما اجازه میده تا اشیاء، حیوانات یا افراد رو به ویدیوهای موجود اضافه کنید. این ویژگی از هوش مصنوعی استفاده میکنه تا این عناصر رو بهطور یکپارچه و طبیعی در فیلم یا ویدیوهای دنیای واقعی ادغام کنه
https://pikalabsai.org/pikadditions/
این مقاله به یک مشکل اصلی در روش های زنجیره افکار (CoT) که در مدلهای زبانی و چند رسانهای بزرگ استفاده میشه، میپردازه.
مشکل اینه که این روشها تنها به نمایش افکار به صورت متنی تکیه دارن، که در مسائل پیچیدهی استدلال فضایی کافی نیست. در این مقاله یه گروه از محققین Microsoft Research با الهام از فرآیند فکر کردن انسان که به طور طبیعی از ترکیب افکار کلامی و تصویری بهره میبره، یه روش جدید به نام MVoT (Multimodal Visualization-of-Though) رو پیشنهاد دادن.
این روش با ایجاد امکان تفکر همزمان بصری و کلامی، دقت استدلال مدل رو افزایش میده و همچنین با نشون دادن مراحل میانی استدلال تصویری، قابلیت توضیح پذیری مدل رو بهبود می بخشه.
مفاهیمی که میشه تنها با کلمات به خوبی پردازش کرد، محدود هستن، اما مقاله هایی از این دست که استدلالی ترکیبی شامل افکار متنی (کلامی) و افکار تصویری (بومی) رو ایجاد میکنن، میتونن ما رو به AGI نزدیک و نزدیک تر کنن.
به قول معروف
one picture is worth a 1000 words
https://arxiv.org/pdf/2501.07542
مشکل اینه که این روشها تنها به نمایش افکار به صورت متنی تکیه دارن، که در مسائل پیچیدهی استدلال فضایی کافی نیست. در این مقاله یه گروه از محققین Microsoft Research با الهام از فرآیند فکر کردن انسان که به طور طبیعی از ترکیب افکار کلامی و تصویری بهره میبره، یه روش جدید به نام MVoT (Multimodal Visualization-of-Though) رو پیشنهاد دادن.
این روش با ایجاد امکان تفکر همزمان بصری و کلامی، دقت استدلال مدل رو افزایش میده و همچنین با نشون دادن مراحل میانی استدلال تصویری، قابلیت توضیح پذیری مدل رو بهبود می بخشه.
مفاهیمی که میشه تنها با کلمات به خوبی پردازش کرد، محدود هستن، اما مقاله هایی از این دست که استدلالی ترکیبی شامل افکار متنی (کلامی) و افکار تصویری (بومی) رو ایجاد میکنن، میتونن ما رو به AGI نزدیک و نزدیک تر کنن.
به قول معروف
one picture is worth a 1000 words
https://arxiv.org/pdf/2501.07542
هاگینگ فیس دوره ای تحت عنوان AI Agents برگزار میکنه.
این دوره به بررسی مفاهیم، طراحی، و پیادهسازی Agents هوش مصنوعی می پردازه که شما با اصول اولیه، نحوهی استفاده از کتابخانههای مطرح مانند smolagents، LangChain و LlamaIndex آشنا میشین، همچنین در طول دوره با پروژههای کاربردی رو به رو میشین و در نهایت میتونید Agent شخصی ساز خودتون رو بسازید.
دوره به طور رسمی با یک جلسه پرسش و پاسخ زنده (Live Q&A) آغاز میشه که روز چهارشنبه ۱۲ فوریه، ساعت ۵ بعد از ظهر به وقت CET برگزار میشه. در این جلسه نحوه ی اجرای دوره، مباحث، واحدها، چالشها و سایر موارد توضیح داده میشه.
پیش نیازها:
دانش ابتدایی زبان برنامهنویسی Python
آشنایی مقدماتی با LLms
داشتن یک حساب کاربری در Hugging Face (برای استفاده از مدلها، Agents و ایجاد Spaces)
http://hf.co/learn/agents-course
این دوره به بررسی مفاهیم، طراحی، و پیادهسازی Agents هوش مصنوعی می پردازه که شما با اصول اولیه، نحوهی استفاده از کتابخانههای مطرح مانند smolagents، LangChain و LlamaIndex آشنا میشین، همچنین در طول دوره با پروژههای کاربردی رو به رو میشین و در نهایت میتونید Agent شخصی ساز خودتون رو بسازید.
دوره به طور رسمی با یک جلسه پرسش و پاسخ زنده (Live Q&A) آغاز میشه که روز چهارشنبه ۱۲ فوریه، ساعت ۵ بعد از ظهر به وقت CET برگزار میشه. در این جلسه نحوه ی اجرای دوره، مباحث، واحدها، چالشها و سایر موارد توضیح داده میشه.
پیش نیازها:
دانش ابتدایی زبان برنامهنویسی Python
آشنایی مقدماتی با LLms
داشتن یک حساب کاربری در Hugging Face (برای استفاده از مدلها، Agents و ایجاد Spaces)
http://hf.co/learn/agents-course
huggingface.co
Welcome to the 🤗 AI Agents Course - Hugging Face Agents Course
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
گروه پرسش و پاسخ مرتبط با کانال:
@tf2keras
گروه opencv مرتبط با کانال:
@opencv_py
کانال اطلاع رسانی دوره ها و تخفیف ها:
@class_vision
@tf2keras
گروه opencv مرتبط با کانال:
@opencv_py
کانال اطلاع رسانی دوره ها و تخفیف ها:
@class_vision
این مقاله هم که دیروز منتشر شد یک معماری جدید معرفی میکنه که به کمک ایجاد استدلال در فضای نهان یا latent reasoning تونسته محاسبات لازم برای استدلال در زمان آزمون (test-time) رو به طور پویا افزایش بده.
همونطور که مطلع هستین فضای نهان در مدلهای عصبی، فضاییه که در اون اطلاعات ورودی به شکل ویژگیهای عددی و چند بعدی نمایش داده میشن. در این مقاله، به جای نمایش مراحل استدلال به صورت زنجیرهای از کلمات (که ممکنه طولانی و پرهزینه باشه)، مدل به صورت داخلی و پنهانی چندین بار روی این نمایش عمل میکنه تا پاسخ نهایی رو بهبود ببخشه.
به عبارت دیگه، به جای تولید توکن های بیشتر (مثل chain-of-thought) برای استدلال، این مدل از یه بلوک تکراری (recurrent block) استفاده میکنه که به صورت پنهانی (در فضای نهان) چندین بار اجرا میشه.
این رویکرد اجازه میده تا مدل به عمق محاسباتی دلخواه در زمان آزمون دست پیدا کنه بدون اینکه به دادههای آموزشی تخصصی یا پنجرههای متنی بزرگ نیاز داشته باشه.
نویسندگان ادعا میکنن که به جای تولید توکن های بیشتر که هم می تونه منجر به افزایش مصرف منابع بشه، این روش با استفاده از محاسبات پنهان، کارایی مدل رو بهبود میبخشه و با هزینه محاسباتی کمتر میتونه عملکردی معادل با مدلهای بسیار بزرگتر (مثلاً تا 50 میلیارد پارامتر) به دست بیاره.
https://arxiv.org/abs/2502.05171
کد:
https://github.com/seal-rg/recurrent-pretraining
همونطور که مطلع هستین فضای نهان در مدلهای عصبی، فضاییه که در اون اطلاعات ورودی به شکل ویژگیهای عددی و چند بعدی نمایش داده میشن. در این مقاله، به جای نمایش مراحل استدلال به صورت زنجیرهای از کلمات (که ممکنه طولانی و پرهزینه باشه)، مدل به صورت داخلی و پنهانی چندین بار روی این نمایش عمل میکنه تا پاسخ نهایی رو بهبود ببخشه.
به عبارت دیگه، به جای تولید توکن های بیشتر (مثل chain-of-thought) برای استدلال، این مدل از یه بلوک تکراری (recurrent block) استفاده میکنه که به صورت پنهانی (در فضای نهان) چندین بار اجرا میشه.
این رویکرد اجازه میده تا مدل به عمق محاسباتی دلخواه در زمان آزمون دست پیدا کنه بدون اینکه به دادههای آموزشی تخصصی یا پنجرههای متنی بزرگ نیاز داشته باشه.
نویسندگان ادعا میکنن که به جای تولید توکن های بیشتر که هم می تونه منجر به افزایش مصرف منابع بشه، این روش با استفاده از محاسبات پنهان، کارایی مدل رو بهبود میبخشه و با هزینه محاسباتی کمتر میتونه عملکردی معادل با مدلهای بسیار بزرگتر (مثلاً تا 50 میلیارد پارامتر) به دست بیاره.
https://arxiv.org/abs/2502.05171
کد:
https://github.com/seal-rg/recurrent-pretraining
arXiv.org
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent...
We study a novel language model architecture that is capable of scaling test-time computation by implicitly reasoning in latent space. Our model works by iterating a recurrent block, thereby...
وقت زیادی نداریم و هوش مصنوعی داره با سرعتی جلو میره که اگه همراهش نشیم، ممکنه جا بمونیم. شاید تا یکی دو سال دیگه، یعنی ۲۰۲۶ یا ۲۰۲۷ (و حتماً قبل از ۲۰۳۰)، این تکنولوژی اون قدر پیشرفته بشه که انگار یه کشور جدید با کلی آدم فوقالعاده باهوش به دنیا اضافه شده، به عبارتی سرزمینی از نوابغ توی یه دیتاسنتر، که تأثیرات بزرگی روی اقتصاد، علم و امنیت دنیا میگذاره.
از یه طرف، فرصت های فوق العادهای توی زمینه های مختلف به وجود میاد که شاید هیچ تکنولوژی دیگه ای در طول تاریخ بشر این قدر تاثیر گذار نبوده. ولی از اون طرف، خطر ها و چالش های جدی هم هست که باید با دقت بهشون فکر کنیم و مدیریت شون کنیم.
https://www.anthropic.com/news/paris-ai-summit
از یه طرف، فرصت های فوق العادهای توی زمینه های مختلف به وجود میاد که شاید هیچ تکنولوژی دیگه ای در طول تاریخ بشر این قدر تاثیر گذار نبوده. ولی از اون طرف، خطر ها و چالش های جدی هم هست که باید با دقت بهشون فکر کنیم و مدیریت شون کنیم.
https://www.anthropic.com/news/paris-ai-summit
Anthropic
Statement from Dario Amodei on the Paris AI Action Summit
A call for greater focus and urgency
Tensorflow(@CVision)
وقت زیادی نداریم و هوش مصنوعی داره با سرعتی جلو میره که اگه همراهش نشیم، ممکنه جا بمونیم. شاید تا یکی دو سال دیگه، یعنی ۲۰۲۶ یا ۲۰۲۷ (و حتماً قبل از ۲۰۳۰)، این تکنولوژی اون قدر پیشرفته بشه که انگار یه کشور جدید با کلی آدم فوقالعاده باهوش به دنیا اضافه شده،…
یه کم موضوع رو بازتر کنم.
شاید برای برخی هنوز سورپرایز کننده باشه که روزی الگوریتم ها توانایی فراتر از انسانها داشته باشن اما دیر یا زود مشکل حافظه بلند مدت در مدل های زبانی و حافظه تقریبا نامحدود حل خواهد شد و شرکت های بزرگ تولید کننده کارت گرافیک، تراشه هوش مصنوعی نسل بعدی ارزان قیمت که مخصوص عملیات محاسباتی مدل های زبانی هستند رو روانه بازار خواهند کرد.
گواه این موضوع هم مقالاتی هست که اخیرا منتشر شده از طرفی با سرعت رشد نمایی که شاهدیم در دو سال آینده شاهد انقلابی در این زمینه خواهیم بود.
به عنوان مثال معماری Titans که یک ماه پیش توسط علی بهروز Google Research، منتشر شد از یه مدل هوش مصنوعی جدید، رونمایی میکنه که یاد میگیره اطلاعات رو در یک حافظه بلند مدت اختصاصی، در زمان آزمایش test-time، ذخیره کنه.
این بدان معناست که مدل میتونه هر زمان که با موضوع غافلگیر کنندهای مواجه میشه، خودش رو تطبیق بده و حافظه خودش رو به صورت آنی به روزرسانی کنه.
برخلاف ترانسفورمرهای استاندارد که فقط پنجره متن فعلی رو پردازش میکنن، این معماری یه رکورد عمیق تر و دائمیتر، مشابه حافظه کوتاهمدت در مقابل حافظه بلندمدت در ما انسانها، نگه میداره.
این روش به صورت کارآمدتر نسبت به ترانسفورمرهای معمولی برای ورودی های بسیار طولانی مقیاس پذیره، یعنی، به طور نظری context window بینهایت!
https://arxiv.org/abs/2501.00663
این فقط یه هوش مصنوعی نسل بعدی نیست، بلکه گامی به سوی خودآگاهی مصنوعی با حافظه پایداره!
اگه خودآگاهی رو به عنوان توانایی مدلسازی درونی (خودمدلسازی)، سازماندهی، یکپارچهسازی و بازیابی دادهها (با توجه به ورودی) تعریف کنیم، همونطور که توسط نظریه اطلاعات یکپارچه (IIT) مطرح شده!
https://www.nature.com/articles/nrn.2016.44
شاید برای برخی هنوز سورپرایز کننده باشه که روزی الگوریتم ها توانایی فراتر از انسانها داشته باشن اما دیر یا زود مشکل حافظه بلند مدت در مدل های زبانی و حافظه تقریبا نامحدود حل خواهد شد و شرکت های بزرگ تولید کننده کارت گرافیک، تراشه هوش مصنوعی نسل بعدی ارزان قیمت که مخصوص عملیات محاسباتی مدل های زبانی هستند رو روانه بازار خواهند کرد.
گواه این موضوع هم مقالاتی هست که اخیرا منتشر شده از طرفی با سرعت رشد نمایی که شاهدیم در دو سال آینده شاهد انقلابی در این زمینه خواهیم بود.
به عنوان مثال معماری Titans که یک ماه پیش توسط علی بهروز Google Research، منتشر شد از یه مدل هوش مصنوعی جدید، رونمایی میکنه که یاد میگیره اطلاعات رو در یک حافظه بلند مدت اختصاصی، در زمان آزمایش test-time، ذخیره کنه.
این بدان معناست که مدل میتونه هر زمان که با موضوع غافلگیر کنندهای مواجه میشه، خودش رو تطبیق بده و حافظه خودش رو به صورت آنی به روزرسانی کنه.
برخلاف ترانسفورمرهای استاندارد که فقط پنجره متن فعلی رو پردازش میکنن، این معماری یه رکورد عمیق تر و دائمیتر، مشابه حافظه کوتاهمدت در مقابل حافظه بلندمدت در ما انسانها، نگه میداره.
این روش به صورت کارآمدتر نسبت به ترانسفورمرهای معمولی برای ورودی های بسیار طولانی مقیاس پذیره، یعنی، به طور نظری context window بینهایت!
https://arxiv.org/abs/2501.00663
این فقط یه هوش مصنوعی نسل بعدی نیست، بلکه گامی به سوی خودآگاهی مصنوعی با حافظه پایداره!
اگه خودآگاهی رو به عنوان توانایی مدلسازی درونی (خودمدلسازی)، سازماندهی، یکپارچهسازی و بازیابی دادهها (با توجه به ورودی) تعریف کنیم، همونطور که توسط نظریه اطلاعات یکپارچه (IIT) مطرح شده!
https://www.nature.com/articles/nrn.2016.44
arXiv.org
Titans: Learning to Memorize at Test Time
Over more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size...
Tensorflow(@CVision)
یه کم موضوع رو بازتر کنم. شاید برای برخی هنوز سورپرایز کننده باشه که روزی الگوریتم ها توانایی فراتر از انسانها داشته باشن اما دیر یا زود مشکل حافظه بلند مدت در مدل های زبانی و حافظه تقریبا نامحدود حل خواهد شد و شرکت های بزرگ تولید کننده کارت گرافیک، تراشه…
نمیخواهم بیش از حد فلسفیش کنم اما به نظر من هر چه سطح پیشرفت های علمی و تکنولوژی بالاتر میره، الزاما انسانها رو شادتر نمیبینی. در عصر کنونی، آدما مثل یه اسیر در قفسی نامرئی از الگوریتمها و دادهها شدن، جایی که حقیقت و واقعیت به تدریج زیر بار سرمایه داران فناوری و بازیگران سیاسی فرو می ریزن.
مثلاً پیشنهاد 97 میلیارد دلاری دیروز ایلان ماسک برای تصاحب OpenAI قطعا به نقش بسیار پررنگ هوش مصنوعی در آینده نزدیک اشاره داره، و قدرتی که برای سرمایه داران به ارمغان میاره.
https://in.mashable.com/tech/89649/elon-is-not-a-happy-person-sam-altman-takes-a-dig-after-rejecting-musks-974-billion-offer-to-buy-ope
همونطور که روزگاری سیاستمداران بزرگ با شعارهای بلند و وعده ها، بعد واقعی جهان را تغییر می دادن، امروز این نقش در دست چهره های دیجیتاله که با ابزارهای نوین، تصویری فریبنده از جهان برای ما می سازن.
در زمانهایی که مرز بین واقعیت و خیال به وضوح تعیین شده بود، جامعه به تفکری عمیق پیرامون حقیقت میپرداخت، اما حالا با ظهور قدرتهای نامرئی در دنیای فناوری، چیزی که به چشم میاد و آنچه در دل نهفته ست، هم آمیخته و درهم تنیده شدن. قدرت هایی که با هوش مصنوعی و الگوریتمهای پیشرفته، موجی از اطلاعات دستکاری شده رو به ما عرضه میکنن و ما رو در مسیری قرار میدن که انگار تنها تصویر نمایشی از واقعیته.
https://www.theatlantic.com/ideas/archive/2025/02/trump-administration-voter-perception/681598/?utm_source=reddit&utm_medium=social&utm_campaign=the-atlantic&utm_content=edit-promo
مثلاً پیشنهاد 97 میلیارد دلاری دیروز ایلان ماسک برای تصاحب OpenAI قطعا به نقش بسیار پررنگ هوش مصنوعی در آینده نزدیک اشاره داره، و قدرتی که برای سرمایه داران به ارمغان میاره.
https://in.mashable.com/tech/89649/elon-is-not-a-happy-person-sam-altman-takes-a-dig-after-rejecting-musks-974-billion-offer-to-buy-ope
همونطور که روزگاری سیاستمداران بزرگ با شعارهای بلند و وعده ها، بعد واقعی جهان را تغییر می دادن، امروز این نقش در دست چهره های دیجیتاله که با ابزارهای نوین، تصویری فریبنده از جهان برای ما می سازن.
در زمانهایی که مرز بین واقعیت و خیال به وضوح تعیین شده بود، جامعه به تفکری عمیق پیرامون حقیقت میپرداخت، اما حالا با ظهور قدرتهای نامرئی در دنیای فناوری، چیزی که به چشم میاد و آنچه در دل نهفته ست، هم آمیخته و درهم تنیده شدن. قدرت هایی که با هوش مصنوعی و الگوریتمهای پیشرفته، موجی از اطلاعات دستکاری شده رو به ما عرضه میکنن و ما رو در مسیری قرار میدن که انگار تنها تصویر نمایشی از واقعیته.
https://www.theatlantic.com/ideas/archive/2025/02/trump-administration-voter-perception/681598/?utm_source=reddit&utm_medium=social&utm_campaign=the-atlantic&utm_content=edit-promo
Mashable India
‘Elon Is Not A Happy Person’ Sam Altman Takes A Dig After Rejecting Musk’s $97.4 Billion Offer To Buy OpenAI
Probably his whole life is from a position of insecurity—Altman
اجرای مدل های بزرگی مثل DeepSeek-R1 با ۶۷۱ میلیارد پارامتر بر روی سختافزارهای معمولی تقریبا غیر ممکنه.
برای اجرای چنین مدل هایی معمولا از نسخههای فشرده شده استفاده میشه که به دلیل کاهش بیش از ۹۰ درصدی پارامترها، نمیتونیم به عملکرد واقعی مدل های اصلی دست پیدا کنیم.
اما با رویکرد جدید، تیم KVCache.AI
اجرای این مدل زبانی بزرگ روی کارت گرافیک هایی با حافظه ۲۴ گیگابایت مثل 4090 امکان پذیر شده.
این تیم با بهره گیری از محاسبات ناهمگن یا heterogeneous computing (تقسیم کار بین GPU و CPU)، به جای اینکه همه پردازش روی کارت گرافیک انجام شه، بخش هایی از محاسبات رو روی CPU انجام میده.
براساس توضیحات درج شده در گزارش بخش هایی از مدل که کمتر استفاده میشن (یعنی بخشهای پراکنده MoE) روی حافظه رم (DRAM) و CPU قرار میگیرن و با استفاده از ابزار llamafile پردازش میشن.
بخشهای اصلی و پرکاربرد مدل روی کارت گرافیک (GPU) قرار میگیرن و با Marlin(فریم ورک بهینه شده Nvidia برای پردازش های هوش مصنوعی روی GPU) پردازش میشن.
به لطف این روش و استفاده از کوانتیزاسیون ۴ بیتی، مقدار حافظه لازم برای اجرای مدل روی GPU فقط ۲۴ گیگابایته. یعنی این مدل حتی روی یک کارت گرافیک RTX 4090 هم به راحتی اجراست.
https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md
برای اجرای چنین مدل هایی معمولا از نسخههای فشرده شده استفاده میشه که به دلیل کاهش بیش از ۹۰ درصدی پارامترها، نمیتونیم به عملکرد واقعی مدل های اصلی دست پیدا کنیم.
اما با رویکرد جدید، تیم KVCache.AI
اجرای این مدل زبانی بزرگ روی کارت گرافیک هایی با حافظه ۲۴ گیگابایت مثل 4090 امکان پذیر شده.
این تیم با بهره گیری از محاسبات ناهمگن یا heterogeneous computing (تقسیم کار بین GPU و CPU)، به جای اینکه همه پردازش روی کارت گرافیک انجام شه، بخش هایی از محاسبات رو روی CPU انجام میده.
براساس توضیحات درج شده در گزارش بخش هایی از مدل که کمتر استفاده میشن (یعنی بخشهای پراکنده MoE) روی حافظه رم (DRAM) و CPU قرار میگیرن و با استفاده از ابزار llamafile پردازش میشن.
بخشهای اصلی و پرکاربرد مدل روی کارت گرافیک (GPU) قرار میگیرن و با Marlin(فریم ورک بهینه شده Nvidia برای پردازش های هوش مصنوعی روی GPU) پردازش میشن.
به لطف این روش و استفاده از کوانتیزاسیون ۴ بیتی، مقدار حافظه لازم برای اجرای مدل روی GPU فقط ۲۴ گیگابایته. یعنی این مدل حتی روی یک کارت گرافیک RTX 4090 هم به راحتی اجراست.
https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md
GitHub
ktransformers/doc/en/DeepseekR1_V3_tutorial.md at main · kvcache-ai/ktransformers
A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations - kvcache-ai/ktransformers
This media is not supported in your browser
VIEW IN TELEGRAM
مایکروسافت OmniParser V2 رو به صورت متن باز منتشر کرد که به عنوان یک Agent ویندوز و مرورگر رو برای انجام وظایف داده شده از طریق دستورات کنترل میکنه.
این ابزار میتونه برای خودکار کردن وظایف مختلف در ویندوز و مرورگر استفاده شه. برای مثال، میتونید از اون برای باز کردن یک وب سایت خاص، پر کردن فرم ها، یا دانلود فایلها از طریق پرامپت استفاده کنید
https://github.com/microsoft/OmniParser/tree/master/omnitool
این ابزار میتونه برای خودکار کردن وظایف مختلف در ویندوز و مرورگر استفاده شه. برای مثال، میتونید از اون برای باز کردن یک وب سایت خاص، پر کردن فرم ها، یا دانلود فایلها از طریق پرامپت استفاده کنید
https://github.com/microsoft/OmniParser/tree/master/omnitool
این تحقیق فوقالعاده از متا، که دست به همکاری با مرکز باسکی شناخت، مغز و زبان زده، قدم بزرگی توی راه ارتباط مستقیم بین مغز و نوشتار برداشته.
ماجرا از این قراره که ۳۵ نفر داوطلب توی مرکز BCBL شرکت کردن. وقتی این افراد داشتند جملات رو تایپ میکردن، فعالیتهای مغزشون با استفاده از دستگاههای MEG و EEG ضبط میشد.
پژوهشگران با استفاده از هوش مصنوعی تلاش کردن تا از این سیگنالهای مغزی، جملات رو دوباره بسازن؛ به طرز حیرتآوری تونستن تا ۸۰ درصد از حروف رو درست تشخیص بدن، یعنی عملکردش دو برابر سیستمهای EEG معمولی بوده!
این دستاورد، ادامه کارهای قبلی متا توی کشف راز ادراک تصاویر و صدا از مغزه و حالا دیگه به مرحله تولید جملات رسیده. موفقیت این پروژه در های تازهای رو برای واسط های مغز و کامپیوتر باز کرده.
https://gigazine.net/gsc_news/en/20250210-ai-decode-language-from-brain/
ماجرا از این قراره که ۳۵ نفر داوطلب توی مرکز BCBL شرکت کردن. وقتی این افراد داشتند جملات رو تایپ میکردن، فعالیتهای مغزشون با استفاده از دستگاههای MEG و EEG ضبط میشد.
پژوهشگران با استفاده از هوش مصنوعی تلاش کردن تا از این سیگنالهای مغزی، جملات رو دوباره بسازن؛ به طرز حیرتآوری تونستن تا ۸۰ درصد از حروف رو درست تشخیص بدن، یعنی عملکردش دو برابر سیستمهای EEG معمولی بوده!
این دستاورد، ادامه کارهای قبلی متا توی کشف راز ادراک تصاویر و صدا از مغزه و حالا دیگه به مرحله تولید جملات رسیده. موفقیت این پروژه در های تازهای رو برای واسط های مغز و کامپیوتر باز کرده.
https://gigazine.net/gsc_news/en/20250210-ai-decode-language-from-brain/
GIGAZINE
Meta announces technology that uses AI and non-invasive magnetic scanners to predict input text from brainwaves with up to 80%…
The news blog specialized in Japanese culture, odd news, gadgets and all other funny stuffs. Updated everyday.
هم اکنون لایو استریم انتشار Grok 3
بنچ مارک ها
https://www.youtube.com/live/pHe-IUWrJXs?si=nNyrbHjBg5I6p_bM
بنچ مارک ها
https://www.youtube.com/live/pHe-IUWrJXs?si=nNyrbHjBg5I6p_bM
مقاله جدید از Deepseek
مدل معرفی شده در این مقاله یه تحول مهم در طراحی مکانیزم Attention داره. به طور خلاصه، محققان تیم Deepseek یه مکانیزم جدید به نام NSA (Native Sparse Attention) معرفی کردن.
استراتژی سلسله مراتبی معرفی شده محاسبات رو بطور قابل توجهی سریع تر انجام میده، مثلاً در پردازش توالیهای 64 هزار توکنی، سرعت تا 11.6 برابر افزایش پیدا میکنه.
از نظر اندازه، این مدل از یک ساختار ترانسفورمر 27 میلیارد پارامتری استفاده میکنه که به کمک معماری Mixture-of-Experts (MoE) تنها حدود 3 میلیارد پارامتر به صورت فعال در هر محاسبه شرکت میکنن.
https://arxiv.org/abs/2502.11089
مدل معرفی شده در این مقاله یه تحول مهم در طراحی مکانیزم Attention داره. به طور خلاصه، محققان تیم Deepseek یه مکانیزم جدید به نام NSA (Native Sparse Attention) معرفی کردن.
استراتژی سلسله مراتبی معرفی شده محاسبات رو بطور قابل توجهی سریع تر انجام میده، مثلاً در پردازش توالیهای 64 هزار توکنی، سرعت تا 11.6 برابر افزایش پیدا میکنه.
از نظر اندازه، این مدل از یک ساختار ترانسفورمر 27 میلیارد پارامتری استفاده میکنه که به کمک معماری Mixture-of-Experts (MoE) تنها حدود 3 میلیارد پارامتر به صورت فعال در هر محاسبه شرکت میکنن.
https://arxiv.org/abs/2502.11089
arXiv.org
Native Sparse Attention: Hardware-Aligned and Natively Trainable...
Long-context modeling is crucial for next-generation language models, yet the high computational cost of standard attention mechanisms poses significant computational challenges. Sparse attention...
Tensorflow(@CVision)
مقاله جدید از Deepseek مدل معرفی شده در این مقاله یه تحول مهم در طراحی مکانیزم Attention داره. به طور خلاصه، محققان تیم Deepseek یه مکانیزم جدید به نام NSA (Native Sparse Attention) معرفی کردن. استراتژی سلسله مراتبی معرفی شده محاسبات رو بطور قابل توجهی…
بیاین یه نگاه کلی به مقاله داشته باشیم، همونطور که واقف هستین در مدل های LLMs، مکانیزم اصلی "توجه" یا attention به صورت یکپارچه عمل میکنه.
به عبارتی در این رویکرد monolithic attention، هنگام پردازش هر کلمه یا token در یه متن، مدل زبانی به تمامی کلمات قبلی در همان متن توجه میکنه. این ساز و کار به مدل این امکان رو میده تا روابط پیچیده بین کلمات را در طول متن درک کنه و به اصطلاح "زمینه" یا context رو به شکل مؤثری لحاظ کنه. درک زمینه به مدل کمک میکنه تا معنای دقیق کلمات در جملات و پاراگراف ها رو تشخیص بده و پاسخ های مرتبط تری تولید کنه.
با وجود مزایای زیادش monolithic attention از نظر محاسباتی بسیار پرهزینه و سنگیه. این مسئله به ویژه در پردازش متون طولانی تر خودش رو نشان میده. با افزایش طول متن، حجم محاسبات مورد نیاز برای monolithic attention به شکل تصاعدی افزایش پیدا میکنه. این محدودیت محاسباتی، مانعی جدی بر سر راه توسعه مدل های زبانی بزرگ تر و کارآمدتر محسوب میشه.
ادامه دارد ...
به عبارتی در این رویکرد monolithic attention، هنگام پردازش هر کلمه یا token در یه متن، مدل زبانی به تمامی کلمات قبلی در همان متن توجه میکنه. این ساز و کار به مدل این امکان رو میده تا روابط پیچیده بین کلمات را در طول متن درک کنه و به اصطلاح "زمینه" یا context رو به شکل مؤثری لحاظ کنه. درک زمینه به مدل کمک میکنه تا معنای دقیق کلمات در جملات و پاراگراف ها رو تشخیص بده و پاسخ های مرتبط تری تولید کنه.
با وجود مزایای زیادش monolithic attention از نظر محاسباتی بسیار پرهزینه و سنگیه. این مسئله به ویژه در پردازش متون طولانی تر خودش رو نشان میده. با افزایش طول متن، حجم محاسبات مورد نیاز برای monolithic attention به شکل تصاعدی افزایش پیدا میکنه. این محدودیت محاسباتی، مانعی جدی بر سر راه توسعه مدل های زبانی بزرگ تر و کارآمدتر محسوب میشه.
ادامه دارد ...
Tensorflow(@CVision)
بیاین یه نگاه کلی به مقاله داشته باشیم، همونطور که واقف هستین در مدل های LLMs، مکانیزم اصلی "توجه" یا attention به صورت یکپارچه عمل میکنه. به عبارتی در این رویکرد monolithic attention، هنگام پردازش هر کلمه یا token در یه متن، مدل زبانی به تمامی کلمات…
برای رفع این چالش، تیم Deepseek مکانیزم attention رو به سه بخش مجزا تقسیم میکنه. هدف اصلی این تقسیم بندی، افزایش کارایی محاسباتی و در عین حال حفظ سطح بالای دقت مدل هست:
استفاده از Sliding Window برای درک زمینه محلی (Local Context)
زمینه محلی یا local context به محدوده کوچکی از متن اشاره داره که مستقیما کلمه یا توکن های مورد پردازش رو احاطه میکنه.
به عبارت دیگه، این بخش، توکن های همسایه و نزدیک به کلمه فعلی رو شامل میشه. به عنوان مثال، در جمله «دیروز به پارک رفتم و با دوستانم بازی کردم»، زمینه محلی" برای کلمه «رفتم» میتونه شامل کلمات «دیروز به پارک» و «و با دوستانم» باشه. این کلمات همسایه، اطلاعات مهمی در مورد نقش و معنای کلمه «رفتم» در جمله ارایه میدن.
در این معماری Sliding Window در این بلوک از مکانیزم Attention، مدل زبانی به جای بررسی کل متن، تنها بر روی یه "پنجره" کوچک از توکن های اطراف کلمه در حال پردازش تمرکز میکنه. این "پنجره" مثل یه ذره بین متحرک عمل میکنه که در هر گام، بخش محدودی از متن رو زیر نظر میگیره.
با محدود کردن دامنه توجه به این "پنجره" کوچک، حجم محاسبات به شکل چشمگیری کاهش پیدا میکنه، چون مدل دیگه مجبور نیست برای پردازش هر کلمه، کل متن رو به طور کامل بررسی کنه.
مزیت اصلی sliding window در این معماری فراهم شدن امکان پردازش سریع تر و کارآمد تر متن هست، به ویژه برای درک روابط معنایی نزدیک بین کلمات مجاور. این روش برای درک ساختار جملات و روابط محلی کلمات بسیار موثره.
ادامه دارد...
استفاده از Sliding Window برای درک زمینه محلی (Local Context)
زمینه محلی یا local context به محدوده کوچکی از متن اشاره داره که مستقیما کلمه یا توکن های مورد پردازش رو احاطه میکنه.
به عبارت دیگه، این بخش، توکن های همسایه و نزدیک به کلمه فعلی رو شامل میشه. به عنوان مثال، در جمله «دیروز به پارک رفتم و با دوستانم بازی کردم»، زمینه محلی" برای کلمه «رفتم» میتونه شامل کلمات «دیروز به پارک» و «و با دوستانم» باشه. این کلمات همسایه، اطلاعات مهمی در مورد نقش و معنای کلمه «رفتم» در جمله ارایه میدن.
در این معماری Sliding Window در این بلوک از مکانیزم Attention، مدل زبانی به جای بررسی کل متن، تنها بر روی یه "پنجره" کوچک از توکن های اطراف کلمه در حال پردازش تمرکز میکنه. این "پنجره" مثل یه ذره بین متحرک عمل میکنه که در هر گام، بخش محدودی از متن رو زیر نظر میگیره.
با محدود کردن دامنه توجه به این "پنجره" کوچک، حجم محاسبات به شکل چشمگیری کاهش پیدا میکنه، چون مدل دیگه مجبور نیست برای پردازش هر کلمه، کل متن رو به طور کامل بررسی کنه.
مزیت اصلی sliding window در این معماری فراهم شدن امکان پردازش سریع تر و کارآمد تر متن هست، به ویژه برای درک روابط معنایی نزدیک بین کلمات مجاور. این روش برای درک ساختار جملات و روابط محلی کلمات بسیار موثره.
ادامه دارد...
Tensorflow(@CVision)
برای رفع این چالش، تیم Deepseek مکانیزم attention رو به سه بخش مجزا تقسیم میکنه. هدف اصلی این تقسیم بندی، افزایش کارایی محاسباتی و در عین حال حفظ سطح بالای دقت مدل هست: استفاده از Sliding Window برای درک زمینه محلی (Local Context) زمینه محلی یا local…
استفاده از Compressed Attention Blocks
برای درک زمینه کلی (Global Context)
از Compressed Attention برای درک روابط معنایی در مقیاس بزرگ تر و درک "زمینه کل" متن استفاده میشه. "زمینه کلی" به درک موضوع اصلی متن، ارتباط بین بخش های مختلف متن و اطلاعاتی که در سراسر متن پراکنده شدن، اشاره داره.
در این بخش، کل "توالی Attention" که در واقع نشون دهنده تمام بخشهای متن هست و مدل به اونها توجه میکنه به بلوکهای کوچک تری تقسیم میشن.
سپس این بلوک های کوچک تر تحت فرآیند "فشردهسازی" قرار میگیرن. این فرآیند "فشردهسازی" میتونه با استفاده از تکنیک های مختلفی انجام شه، اما هدف اصلی اون، کاهش حجم اطلاعات و در عین حال حفظ اطلاعات کلیدی و مهمه. به این ترتیب، مدل میتونه به شکل خلاصه تری از "زمینه کلی" متن آگاه شه.
انتخاب بلوکهای برتر Top-N Blocks
پس از اعمال "فشردهسازی" ، مدل بلوک های فشرده شده رو ارزیابی میکنه و تعداد محدودی "N" از بلوک هایی که به بیشترین ارتباط و اهمیت رو برای کلمه فعلی دارند، انتخاب میکنه.
عدد "N" معمولا کوچک در نظر گرفته میشه و تعداد بلوکهای انتخابی رو تعیین میکنه. این مرحله مانند یک فیلتر عمل میکنه که بخشهای مهم تر متن رو برای بررسی دقیقتر جدا میکنه.
مرحله نهایی، مدل مکانیسم توجه معمولی رو فقط بر روی این "N" بلوک برتر اعمال میکنه. منظور از توجه معمولی در اینجا به مکانیزم attention سنتی اشاره داره که در روشهای قبلی استفاده میشد. با این تفاوت که در این روش، "توجه معمولی فقط بر روی بخشهای گزینش شده و مهم متن اعمال میشه، نه کل متن.
compressed attention
به مدل امکان میده تا با نگاهی سریع و اجمالی به کل متن، "زمینه کل" رو درک کنه و سپس بخشهای مهم تر رو برای بررسی دقیق تر و عمیق تر انتخاب کنه. این روش، تعادلی بین سرعت و دقت در پردازش متون طولانی ایجاد میکنه.
ادامه دارد ...
برای درک زمینه کلی (Global Context)
از Compressed Attention برای درک روابط معنایی در مقیاس بزرگ تر و درک "زمینه کل" متن استفاده میشه. "زمینه کلی" به درک موضوع اصلی متن، ارتباط بین بخش های مختلف متن و اطلاعاتی که در سراسر متن پراکنده شدن، اشاره داره.
در این بخش، کل "توالی Attention" که در واقع نشون دهنده تمام بخشهای متن هست و مدل به اونها توجه میکنه به بلوکهای کوچک تری تقسیم میشن.
سپس این بلوک های کوچک تر تحت فرآیند "فشردهسازی" قرار میگیرن. این فرآیند "فشردهسازی" میتونه با استفاده از تکنیک های مختلفی انجام شه، اما هدف اصلی اون، کاهش حجم اطلاعات و در عین حال حفظ اطلاعات کلیدی و مهمه. به این ترتیب، مدل میتونه به شکل خلاصه تری از "زمینه کلی" متن آگاه شه.
انتخاب بلوکهای برتر Top-N Blocks
پس از اعمال "فشردهسازی" ، مدل بلوک های فشرده شده رو ارزیابی میکنه و تعداد محدودی "N" از بلوک هایی که به بیشترین ارتباط و اهمیت رو برای کلمه فعلی دارند، انتخاب میکنه.
عدد "N" معمولا کوچک در نظر گرفته میشه و تعداد بلوکهای انتخابی رو تعیین میکنه. این مرحله مانند یک فیلتر عمل میکنه که بخشهای مهم تر متن رو برای بررسی دقیقتر جدا میکنه.
مرحله نهایی، مدل مکانیسم توجه معمولی رو فقط بر روی این "N" بلوک برتر اعمال میکنه. منظور از توجه معمولی در اینجا به مکانیزم attention سنتی اشاره داره که در روشهای قبلی استفاده میشد. با این تفاوت که در این روش، "توجه معمولی فقط بر روی بخشهای گزینش شده و مهم متن اعمال میشه، نه کل متن.
compressed attention
به مدل امکان میده تا با نگاهی سریع و اجمالی به کل متن، "زمینه کل" رو درک کنه و سپس بخشهای مهم تر رو برای بررسی دقیق تر و عمیق تر انتخاب کنه. این روش، تعادلی بین سرعت و دقت در پردازش متون طولانی ایجاد میکنه.
ادامه دارد ...
Tensorflow(@CVision)
استفاده از Compressed Attention Blocks برای درک زمینه کلی (Global Context) از Compressed Attention برای درک روابط معنایی در مقیاس بزرگ تر و درک "زمینه کل" متن استفاده میشه. "زمینه کلی" به درک موضوع اصلی متن، ارتباط بین بخش های مختلف متن و اطلاعاتی که…
Normal Fine-Grained Selection
این بلوک نهایی، مرحله بررسی موشکافانه و دقیق تر بخش های مهم متن هست که در بلوک compressed attention انتخاب شدن. به عبارت دیگه این مرحله، مرحله پالایش نهایی هست که بر روی بخش های کلیدی متن تمرکز میکنه.
اما ایده کلی تقسیم مکانیزم attention به بخش های مختلف برای افزایش کارایی محاسباتی، فی نفسه ایده کاملا جدیدی نیست و قبلا کار تقریبا مشابهی از مایکروسافت داشتیم (مقاله زیر):
https://arxiv.org/abs/2410.13276
اما از دو بعد نوآورانه هستش:
اول از بعد بهینه سازی سختافزاری:
در این معماری مکانیسم توجه به طور خاص برای سخت افزارهای ویژه بهینه سازی شده، بدین معنی که محاسبات مربوط به این سه بلوک میتونن به شکل بسیار موثرتر و سریع تر بر روی سخت افزار انجام شن. این بهینه سازی سخت افزاری نقش بسیار حیاتی در افزایش سرعت و کارایی کلی این روش ایفا میکنه.
بعد دوم قابلیت Pretraining هست.
در متد های قبلی قابلیت sparse attention به صورت post training به مدل ها اضافه میشد به عبارتی ابتدا یک مدل زبانی با مکانیزم monolithic attention آموزش داده میشد، و بعد روشهای sparse attention به منظور کاهش بار محاسباتی به اون افزوده میشد و در اغلب اوقات باعث کاهش کارایی مدل میشد.
اما در این مقاله امکان pretrain از ابتدا وجود داره. این بدان معناست که مدل زبانی از همان ابتدای فرآیند آموزش، با این مکانیزم سه-بلوکه attention آموزش میبینن.
این رویکرد باعث میشه که مدل به صورت ذاتی با این روش کارآمد attention سازگار شده و از مشکلات افت دقت که در روشهای post-training رایج بود، جلوگیری بشه.
در واقع، از نظر تئوری با به کارگیری این روش دیگه نیازی به فدا کردن دقت در ازای افزایش سرعت و کارایی نیست
این بلوک نهایی، مرحله بررسی موشکافانه و دقیق تر بخش های مهم متن هست که در بلوک compressed attention انتخاب شدن. به عبارت دیگه این مرحله، مرحله پالایش نهایی هست که بر روی بخش های کلیدی متن تمرکز میکنه.
اما ایده کلی تقسیم مکانیزم attention به بخش های مختلف برای افزایش کارایی محاسباتی، فی نفسه ایده کاملا جدیدی نیست و قبلا کار تقریبا مشابهی از مایکروسافت داشتیم (مقاله زیر):
https://arxiv.org/abs/2410.13276
اما از دو بعد نوآورانه هستش:
اول از بعد بهینه سازی سختافزاری:
در این معماری مکانیسم توجه به طور خاص برای سخت افزارهای ویژه بهینه سازی شده، بدین معنی که محاسبات مربوط به این سه بلوک میتونن به شکل بسیار موثرتر و سریع تر بر روی سخت افزار انجام شن. این بهینه سازی سخت افزاری نقش بسیار حیاتی در افزایش سرعت و کارایی کلی این روش ایفا میکنه.
بعد دوم قابلیت Pretraining هست.
در متد های قبلی قابلیت sparse attention به صورت post training به مدل ها اضافه میشد به عبارتی ابتدا یک مدل زبانی با مکانیزم monolithic attention آموزش داده میشد، و بعد روشهای sparse attention به منظور کاهش بار محاسباتی به اون افزوده میشد و در اغلب اوقات باعث کاهش کارایی مدل میشد.
اما در این مقاله امکان pretrain از ابتدا وجود داره. این بدان معناست که مدل زبانی از همان ابتدای فرآیند آموزش، با این مکانیزم سه-بلوکه attention آموزش میبینن.
این رویکرد باعث میشه که مدل به صورت ذاتی با این روش کارآمد attention سازگار شده و از مشکلات افت دقت که در روشهای post-training رایج بود، جلوگیری بشه.
در واقع، از نظر تئوری با به کارگیری این روش دیگه نیازی به فدا کردن دقت در ازای افزایش سرعت و کارایی نیست
arXiv.org
SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs
Attention is the cornerstone of modern Large Language Models (LLMs). Yet its quadratic complexity hinders efficiency and scalability, especially for long-context processing. A promising approach...