🧑💻Cyber.vision🧑💻
🧠 هوش مصنوعی عمومی: «بودن یا نبودن، مسئله این است» [بخش ۱] انتشار اخیر اپل با عنوان «توهم تفکر» یکی از دشوارترین بحثهای علمی اخیر در حوزه هوش مصنوعی را برانگیخته و طنین گستردهای در جامعه متخصصان ایجاد کرده است. 🤖 همانطور که به یاد داریم، محققان یادگیری…
[بخش ۲]
یافتههای اپل به طور غیرمستقیم مطالعات مستقل دیگری را تأیید میکند که در آنها محققان همان نقصهای اساسی را بررسی میکنند، اما از زوایای مختلف:
به عنوان مثال، مطالعه «نگاهی به سوگیری توکن» ثابت میکند که مدلها «سوگیری توکن» قوی دارند. تغییر حتی یک کلمه میتواند منجر به پاسخ کاملاً اشتباه شود، اگرچه ساختار منطقی کار تغییر نکرده است.
مطالعه «مدلهای زبانی بزرگ میتوانند به راحتی توسط زمینه نامربوط منحرف شوند» نشان داد که اضافه کردن حتی یک جمله با اعداد به صورت مسئله، دقت را به میزان قابل توجهی کاهش میدهد، زیرا مدلها سعی میکنند از همین اعداد در محاسبات استفاده کنند.
یک مثال ساده (مطالعات از مثالهای پیچیدهتری استفاده میکنند):
اصلی: ماشا ۵ سیب داشت. او ۳ سیب دیگر خرید. ماشا در مجموع چند سیب دارد؟
مدل هوش مصنوعی اعداد ۵ و ۳ را میبیند. جمع میکند: ۵ + ۳ = ۸.
با زمینه نامربوط: ماشا ۵ سیب داشت. برادرش ۱۰ ساله است. او ۳ سیب دیگر خرید. ماشا در مجموع چند سیب دارد؟
شخص چه کاری انجام میدهد؟
شخصی میخواند، فوراً متوجه میشود که سن برادر هیچ ارتباطی با سیبها ندارد. او این اطلاعات را به عنوان "نویز" فیلتر میکند و مسئله را حل میکند: ۵ + ۳ = ۸.
یک مدل هوش مصنوعی چه کاری انجام میدهد؟
مدل اعداد ۵، ۳ و ۱۰ را میبیند. گاهی اوقات گیر میکند و نمیفهمد که "سن" و "تعداد سیب" موجودیتهای متفاوت و ناسازگاری هستند. برای آن، آنها فقط اعدادی در متن هستند.
در حجم عظیم دادههایی که مدلها بر اساس آنها آموزش دیدهاند، یک همبستگی بسیار قوی وجود دارد: اگر عددی در شرایط یک مسئله ریاضی وجود داشته باشد، به احتمال زیاد برای راهحل ضروری است. مدل این همبستگی را یاد گرفته است، اما همیشه اصل ربط را "درک" نمیکند. هرگز عمداً به آن آموزش داده نشده است که اطلاعات را نادیده بگیرد.
مطالعه دیگری از اپل، "GSM-Symbolic"، یک مشکل حتی عمیقتر را آشکار کرد. اضافه کردن یک عبارت توصیفی بیضرر که نیازی به محاسبات ریاضی ندارد (مثلاً "پنج کیوی 🥝 کوچکتر از حد متوسط بودند") منجر به کاهش فاجعهبار دقت - به ۶۵٪ - شد.
مثال:
الیور ۴۴ کیوی برداشت. اما پنج تا از آنها کوچکتر از حد متوسط بودند. الیور چند کیوی دارد؟
و در حالی که بهترین مدلهای مدرن، Gemini 2.5 Pro، Claude Sonnet 4، احتمالاً میتوانند از پس این کار ساده برآیند، توانایی آنها در فیلتر کردن نویز همچنان شکننده است.
👆LRM های مدرن، علیرغم تواناییهای زبانی چشمگیر و شایستگی ظاهری در ریاضیات، مانند "طوطیهای دانشمند" رفتار میکنند. آنها الگوهای آشنا را به طور کامل بازتولید میکنند، اما وقتی با چیزهای جدید روبرو میشوند، از کار میافتند.
انتقاد لاوسون عمدتاً بر روششناسی یک آزمایش خاص متمرکز است و سایر مشاهدات اساسی در مورد ماهیت LLM ها را رد نمیکند (و قصد نداشت): استدلال مدلهای مدرن بسیار شکننده و ناپایدار است، به خصوص در مواردی که چیزهای جدید ظاهر میشوند.
🧠ارزش علمی کار اپل جالب است زیرا استراتژی توسعه فعلی کل حوزه هوش مصنوعی را به چالش میکشد، به همین دلیل مورد انتقاد قرار گرفته است. LLMها میتوانند مسائل پیچیده را حل کنند، اما توانایی آنها برای انجام این کار بسیار غیرقابل اعتماد است و به راحتی با کوچکترین تغییر در زمینه مختل میشود.
تحقیقات اپل نمیگوید که AGI غیرممکن است، اما بعید است که مقیاسبندی فناوریهای هوش مصنوعی در الگوی فعلی، محققان را به نتایج مطلوب نزدیکتر کند. خود الگو نیاز به بازنگری دارد.
محققان خواننده را به این ایده سوق میدهند که AGI را نمیتوان بر اساس معماری هوش مصنوعی فعلی به شکل فعلی آن ایجاد کرد و تیترهای پر سر و صدای 🖥🌐⭕️❗️❗️Bigtech در مورد AGI چیزی بیش از یک ترفند بازاریابی زیبا برای کسب درآمد نیست.
------------------------
نکته قابل تاملی وجود دارد.🤔
یافتههای اپل به طور غیرمستقیم مطالعات مستقل دیگری را تأیید میکند که در آنها محققان همان نقصهای اساسی را بررسی میکنند، اما از زوایای مختلف:
به عنوان مثال، مطالعه «نگاهی به سوگیری توکن» ثابت میکند که مدلها «سوگیری توکن» قوی دارند. تغییر حتی یک کلمه میتواند منجر به پاسخ کاملاً اشتباه شود، اگرچه ساختار منطقی کار تغییر نکرده است.
مطالعه «مدلهای زبانی بزرگ میتوانند به راحتی توسط زمینه نامربوط منحرف شوند» نشان داد که اضافه کردن حتی یک جمله با اعداد به صورت مسئله، دقت را به میزان قابل توجهی کاهش میدهد، زیرا مدلها سعی میکنند از همین اعداد در محاسبات استفاده کنند.
یک مثال ساده (مطالعات از مثالهای پیچیدهتری استفاده میکنند):
اصلی: ماشا ۵ سیب داشت. او ۳ سیب دیگر خرید. ماشا در مجموع چند سیب دارد؟
مدل هوش مصنوعی اعداد ۵ و ۳ را میبیند. جمع میکند: ۵ + ۳ = ۸.
با زمینه نامربوط: ماشا ۵ سیب داشت. برادرش ۱۰ ساله است. او ۳ سیب دیگر خرید. ماشا در مجموع چند سیب دارد؟
شخص چه کاری انجام میدهد؟
شخصی میخواند، فوراً متوجه میشود که سن برادر هیچ ارتباطی با سیبها ندارد. او این اطلاعات را به عنوان "نویز" فیلتر میکند و مسئله را حل میکند: ۵ + ۳ = ۸.
یک مدل هوش مصنوعی چه کاری انجام میدهد؟
مدل اعداد ۵، ۳ و ۱۰ را میبیند. گاهی اوقات گیر میکند و نمیفهمد که "سن" و "تعداد سیب" موجودیتهای متفاوت و ناسازگاری هستند. برای آن، آنها فقط اعدادی در متن هستند.
در حجم عظیم دادههایی که مدلها بر اساس آنها آموزش دیدهاند، یک همبستگی بسیار قوی وجود دارد: اگر عددی در شرایط یک مسئله ریاضی وجود داشته باشد، به احتمال زیاد برای راهحل ضروری است. مدل این همبستگی را یاد گرفته است، اما همیشه اصل ربط را "درک" نمیکند. هرگز عمداً به آن آموزش داده نشده است که اطلاعات را نادیده بگیرد.
مطالعه دیگری از اپل، "GSM-Symbolic"، یک مشکل حتی عمیقتر را آشکار کرد. اضافه کردن یک عبارت توصیفی بیضرر که نیازی به محاسبات ریاضی ندارد (مثلاً "پنج کیوی 🥝 کوچکتر از حد متوسط بودند") منجر به کاهش فاجعهبار دقت - به ۶۵٪ - شد.
مثال:
الیور ۴۴ کیوی برداشت. اما پنج تا از آنها کوچکتر از حد متوسط بودند. الیور چند کیوی دارد؟
و در حالی که بهترین مدلهای مدرن، Gemini 2.5 Pro، Claude Sonnet 4، احتمالاً میتوانند از پس این کار ساده برآیند، توانایی آنها در فیلتر کردن نویز همچنان شکننده است.
👆LRM های مدرن، علیرغم تواناییهای زبانی چشمگیر و شایستگی ظاهری در ریاضیات، مانند "طوطیهای دانشمند" رفتار میکنند. آنها الگوهای آشنا را به طور کامل بازتولید میکنند، اما وقتی با چیزهای جدید روبرو میشوند، از کار میافتند.
انتقاد لاوسون عمدتاً بر روششناسی یک آزمایش خاص متمرکز است و سایر مشاهدات اساسی در مورد ماهیت LLM ها را رد نمیکند (و قصد نداشت): استدلال مدلهای مدرن بسیار شکننده و ناپایدار است، به خصوص در مواردی که چیزهای جدید ظاهر میشوند.
🧠ارزش علمی کار اپل جالب است زیرا استراتژی توسعه فعلی کل حوزه هوش مصنوعی را به چالش میکشد، به همین دلیل مورد انتقاد قرار گرفته است. LLMها میتوانند مسائل پیچیده را حل کنند، اما توانایی آنها برای انجام این کار بسیار غیرقابل اعتماد است و به راحتی با کوچکترین تغییر در زمینه مختل میشود.
تحقیقات اپل نمیگوید که AGI غیرممکن است، اما بعید است که مقیاسبندی فناوریهای هوش مصنوعی در الگوی فعلی، محققان را به نتایج مطلوب نزدیکتر کند. خود الگو نیاز به بازنگری دارد.
محققان خواننده را به این ایده سوق میدهند که AGI را نمیتوان بر اساس معماری هوش مصنوعی فعلی به شکل فعلی آن ایجاد کرد و تیترهای پر سر و صدای 🖥🌐⭕️❗️❗️Bigtech در مورد AGI چیزی بیش از یک ترفند بازاریابی زیبا برای کسب درآمد نیست.
------------------------
نکته قابل تاملی وجود دارد.🤔