Tensorflow(@CVision)@cvision P.4113

Tensorflow(@CVision)

این مقاله از محققیق اپل میگه در مسائل ساده، مدل‌ های زبانی معمولی که فاقد ساختارهای استدلالی پیشرفته هستن،عملکرد بهتری نسبت به مدل ‌های استدلال ‌محور (LRMs) دارن. علت این پدیده به احتمال زیاد در سادگی ساختار مسئله نهفته ست، جایی که استدلال پیچیده نه‌ تنها لازم نیست، بلکه ممکنه منجر به تفکر بیش از حد شه و دقت یا سرعت پاسخ رو کاهش بده.

در مسائل با پیچیدگی متوسط، الگوی عملکرد معکوس میشه، مدل‌های استدلال ‌محور با بهره‌ گیری از زنجیره‌های تفکر طولانی‌تر (COT)، میتونن بهتر از مدل‌های ساده، اجزای مسئله رو گام ‌به ‌گام تجزیه کنن و به نتیجه درست برسن. اما در مسائل بسیار پیچیده، تمام مدل‌ها دچار فروپاشی عملکردی میشن. نه مدل‌ های ساده، نه مدل‌ های پیشرفته استدلالی قادر به مدیریت این دسته از مسائل نیستن. این سقوط عملکرد نشون میده که محدودیت‌های بنیادی در حافظه، ظرفیت برنامه‌ ریزی و پیوستگی منطق در مدل‌ های فعلی وجود داره.

همچنین به طرز غیرمنتظره‌ای، با افزایش پیچیدگی مسائل، تلاش استدلالی مدل ‌ها کاهش پیدا میکنه. این یافته که با استفاده از معیارهایی مانند تعداد توکن‌های تولید شده برای تفکر اندازه‌ گیری شده، بیانگر این واقعیته که مدل‌ها در مواجهه با مسائل دشوارتر، نه‌ تنها ناتوان ‌تر میشن، بلکه حتی کمتر سعی می‌کنند فکر کنن.

زنجیره تفکر (CoT) یکی از روش‌های مهم برای تقویت استدلال در مدل‌های زبانی هست. با این حال، مقاله نشون میده که کارایی CoT محدود به دامنه‌ خاص از پیچیدگی هست. در حالی که CoT میتونه در مسائل متوسط کمک ‌کننده باشه، در مسائل پیچیده ‌تر نه‌ تنها اثربخش نیست، بلکه منجر به افزایش زمان پاسخ ‌دهی و ناکارآمدی محاسباتی میشه. این یافته نشون میده که زنجیره تفکر بدون نظارت یا هدایت ساختاریافته میتونه به نوعی پراکنده‌ گویی بی‌ هدف تبدیل شه.

https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

❤17

www.tgoop.com/cvision/4113

3.53K viewsAlister☄️, Jun 7 at 16:36

tgoop.com/cvision/4113

Create: 2025-06-07
Last Update: 2025-08-17 05:16:40

BY Tensorflow(@CVision)

Share with your friend now:
tgoop.com/cvision/4113

Telegram News