tgoop.com/ai_python/17667
Last Update:
مفهومِ Mixture-of-Recursions (MoR) در حوزه مدلهای زبانی بزرگ خلاصهاش اینه که MoR با استفاده از یک روش هوشمندانه فقط برای «توکنهای سختتر» از پردازش عمیقتر استفاده میکنه ... یعنی اون بخشهایی از متن که نیاز به دقت بیشتر دارن، چند بار در یک بلاک پردازشی مشترک چرخ داده میشن.
@ai_python
فقط از یک بلاک ترنسفورمر مشترک استفاده میشه.
برای توکنهایی که «نیاز به فکر بیشتری» دارن، اون بلاک چند بار تکرار میشه.
@ai_python
نتیجه: مدل با نصف تعداد پارامترها و دو برابر سرعت، کیفیت مشابه یا حتی بهتر میده!
این روش مثل داشتن soft experts برای توکنهای چالشبرانگیز عمل میکنه. ایدهای خلاقانهست که باعث میشه محاسبات فقط جایی استفاده بشن که واقعاً لازمن.
لینکم دیگه یهویی آلفاشیو می ذارم به جای آرشیو که برید بحث کنید درباره ش با بقیه :
https://www.alphaxiv.org/abs/2507.10524

