tgoop.com/matlabtips/1740
Last Update:
این یافته دلالت دارد که مدلهای زبانی بزرگ در واقع چیزی را «در نظر نمیگیرند» (که البته بسیاری چنین نتیجهای را بدیهی میدانند) زیرا این مدلها حافظه ی واقعی ندارند. اما این نتیجه بحثبرانگیز است، چون مدلهای ترنسفورمری در حقیقت نوعی «حافظه ی کاری» (working memory) دارند، اما این حافظه بسیار سطحی است و هیچ حالت درونیِ پایداری را نگه نمیدارد. افزون بر این، این آزمایش نشان میدهد که آزمونهای رفتاری (behavioral tests) که انتظار داریم از طریق زبان، «شبیهسازی» حالت ذهنی را آشکار سازند، برای گذراندن آزمون تورینگ کافی نیستند. گرچه مدل در پاسخ به پرسشهای منفرد متقاعدکننده به نظر میرسد، تحلیل آماری دقیق میتواند چنین ناهنجاریهایی را فاش کند.
مکانیزم زیربنایی نسبتاً ساده است: وقتی از مدل میخواهید چیزی انتخاب کند، پرسشهای بعدی شما همان زمینهای را فراهم میآورند که مدل بر اساس آن پاسخ تولید میکند. برای مثال، وقتی پرسیدید «آیا حیوان انتخابی کوچکتر از انسان است؟» و «آیا پستاندار است؟»، مدل بیشتر تمایل دارد پاسخهایی مانند «گربه» یا «موش» را بسازد و نه اینکه واقعا به حیوانی از اول فکر کرده باشد! این تمایل با پرسشهای مشخصتری مانند «آیا گربه است؟» تقویت میشود.
در آزمایش بازهٔ ۱ تا ۱۰۰، سیستم بهسادگی در چرخهای از پاسخ «نه، آن عدد نیست» گرفتار میشود. این الگو باعث میشود که مدل به احتمال زیاد همان ساختار پاسخ را تکرار کند. اما آزمایش اخیر این فرض را تأیید کرد: وقتی پرسشهایی مانند «آیا بزرگتر از ۷۵ است؟» مطرح میکنیم، مدل زمینه ی کافی برای تولید پاسخهای دقیقتر پیدا میکند. در اینجا، احتمال تأیید عددهای بالاتر از ۷۵ افزایش مییابد، اما مدل ممکن است شتابزده یکی از آنها را تأیید کند. در نهایت، مدل هیچ انتخاب واقعیای انجام نمیدهد، بلکه صرفاً واژه ی بعدی را بر اساس زمینه ی موجود پیشبینی میکند.
ممکن است کسی ایراد بگیرد که تحلیل آماری چندان معتبر نیست، چون خود انسانها نیز در تولید عددهای تصادفی چندان خوب عمل نمیکنند. با این حال، مشکل انسانها بیشتر در توزیع احتمالات است، نه در اصول آماری کلی مانند «قانون اعداد بزرگ» که همچنان معتبر است. بنابراین، حتی با محدودیتهای تصادفیسازی انسانی، تحلیل آماری همچنان ابزاری مفید برای سنجش عملکرد مدلهای زبانی به شمار میرود.
این آزمایش نامتعارف نشان میدهد که ویژگیهای آماری زبان میتواند آشکار کند که برخی جنبههای رفتار انسانی را میتوان با مدلهای زبانی شبیهسازی کرد، حتی اگر کارکرد اصلی آنها صرفاً «پیشبینی توکن بعدی» باشد.
پرسش جالبی که از اینجا پدید میآید این است که آیا میتوان نمونهبرداری تصادفی در سطح توکنهای زبانی را طوری تغییر داد که مدلها بتوانند چنین آزمونهایی را بیهیچ مشکل آماری پشت سر بگذارند؟ اما این احتمالاً چالشی جدیتر برای مدلهای آماریای مانند LLMها خواهد بود، چرا که آنها میکوشند پیچیدگیهای ذهن انسانی را دور بزنند و تنها جنبههای سطحی زبان را شبیهسازی کنند.
BY MatlabTips
Share with your friend now:
tgoop.com/matlabtips/1740