tgoop.com/pythonwithmedev/384
Last Update:
در این آشفتهبازار این روزهای مدلهای زبانی بزرگ، و هیجانات غالب بر جامعهی علمی و غیرعلمی و تاثیر شگرفش روی سهام شرکتهای فراهمکنندهی زیرساختهای سختافزاری، پرسش اصلیای که به وجود میاد اینه که بعد از گذشت هفتاد سال از مطرح شدن «بازی تقلید» (معروف به تست تورینگ) برای سنجش «تفکر ماشینی» و هوش مصنوعی، آیا سرانجام میتونیم چتباتهای مبتنی بر مدلهای زبانی نظیر GPT رو برندهی این بازی و فاتح جایگاهی در نظر بگیریم که تورینگ در دههی پنجاه میلادی پیشبینی کرده بود؟ پرسشی که در ابتدا ممکنه ساده به نظر بیاد، به خصوص که ادعای «پاس شدن تست تورینگ» این روزها لقلقهی زبان مدیران شرکتها و بازوهای تبلیغاتیشونه، اما زمانی پیچیده میشه که متوجه میشیم در آزمایشهای واقعی، درصد قابلتوجهی از انسانها هم در این تست مردود میشوند. مشکل کجاست؟
«آیا ماشینها قادر به تفکر هستند؟»، سوالیه که آلن تورینگ در مقالهی ۱۹۵۰ خودش مطرح میکنه، و تلاش میکنه تا با طرح بازی تقلید، معیاری برای سنجش تفکر ماشینی خلق کنه. بازی شامل یک پرسشگر، یک انسان و یک ماشینه. پرسشگر جدا از انسان و ماشین در یک اتاق جداگانه قرار گرفته و با هدف حذف فاکتورهای غیرمرتبط از جمله صدا و تصویر، ارتباط او با دو بازیکن دیگه، صرفا از طریق مکاتبه انجام میشه. هدف پرسشگر، تشخیص انسان از بین دو بازیکن دیگر، هدف انسان، کمک به این تشخیص و هدف ماشین، گمراهی پرسشگر است تا برندهی این بازی باشه. تیمی از پژوهشگرهای دانشگاه کالیفرنیا در سندیگو (UCSD)، اخیرا نسخهای دو نفره از این بازی رو با پانصد شرکتکننده شبیهسازی کردند، و نتایج، خارج از انتظار بود.
اگر به تاریخچهی چتباتها علاقهمند باشید، احتمالا با Eliza آشنا هستید. تاریخچهی این چتبات به دههی ۶۰ میلادی و دانشگاه MIT میرسه و در زمان خودش، پیشرو به شمار میومد (از اینجا امتحانش کنید). در آزمایش جدید، علاوه بر GPT سهونیم و چهار، نسخهای از Eliza هم مورد استفاده قرار گرفته. بازی دو نفره رو به این صورت طراحی کردند که شرکتکنندهها در برابر یک انسان یا یکی از سه چتبات بالا قرار میگرفتند و باید ظرف مدت پنج دقیقه، تشخیص میدادند که با یک انسان دیگه و یا یک چتبات صحبت میکنند.
مطابق انتظار، Eliza و GPT-4 به ترتیب در ۲۲ و ۵۴ درصد بازیها، برنده شدند. اگر با Eliza کار کرده باشید، میدونید که عدد ۲۲، درصد بالایی به حساب میاد؛ پدیدهای که تحت عنوان Eliza Effect شناخته میشه و بر اثرش، پرسشگرها برخلاف چیزی که میبینند و استدلال میکنند، رفتارهای انسانگونه رو به Eliza نسبت میدن. از سمت دیگه، بازیکنهای انسانی که به جای چتباتها قرار گرفته بودند، تنها در ۶۷ درصد موارد موفق به قانع کردن پرسشگرها شدند.
اقتصاددانها در این مواقع از «علیت دوّار» صحبت میکنند، که در علم اقتصاد، به ارتباط علت و معلولی متقابل میان چند پدیده گفته میشه. در این مورد هم برخوردهای شرکتکنندههای آزمایش با چتباتها، موجب شده بود که سطح انتظارها از عملکرد هوش مصنوعی به قدری بالا بیاد که در ۳۳ درصد موارد، انسانها رو هم به اشتباه ربات تشخیص بدن. از طرف دیگه، پرسشگرها در تشخیص GPT-4 هم عملکردی در حد و اندازهی پرتاب سکه داشتند (اگر فکر میکنید که میتونید عملکرد بهتری از شرکتکنندهها داشته باشید، تلاش کنید که از بین چهار عکس زیر، انسان رو تشخیص بدید؛ سه عکس مربوط به AI و یک عکس مربوط به بازیکن انسانیه. سبزها مکالمات پرسشگر و خاکستریها جواب انسان/چتباتها هستند).
با لحاظ این موارد، به نظر میاد که نیاز به بازنگری در تست تورینگ، بیشتر از هر زمان دیگهای احساس میشه؛ و تا به امروز، پیشنهاداتی هم روی میز قرار گرفته. یکی از اینها، ایدهی یکی از اساتید روانشناسی دانشگاه پرینستونه. Philip Johnson-Laird اعتقاد داره که برای آزمایش مدلها، باید اونها رو در برابر آزمونهای روانشناسی قرار بدیم، و مثل یک جلسهی تراپی، شباهتش با رفتارهای انسانگونه رو بررسی کنیم؛ یک دیدگاه میانرشتهای که میتونه درهای جدیدی رو به سوی شناخت LLMها باز کنه.
از سمت دیگه، Terrence Sejnowski استاد علوم اعصاب UCSD هم در مقالهی اخیرش، با مطالعه روی شیوهی رفتاری و عملکرد مغزی انسانها، نگاه کاملا متفاوتی رو مطرح میکنه: همونطور که در یک بازی تنیس، یک رقیب قدرمندتر، از شما بازیکن بهتری میسازه، LLMها هم صرفا بازتابدهندهی ضریب هوشی پرسشگر هستند. در حقیقت، هر بار که ما با اونها صحبت میکنیم، این ما هستیم که در جایگاه پرسششونده قرار گرفتهایم، پدیدهای که او ازش به عنوان «تست تورینگ وارونه» تعبیر میکنه. این دیدگاه، با نتایج آزمایش بالا همخوانی داره و میتونه دلیلی باشه بر اینکه چرا اطلاق جایگاه پرسشگر به انسانها در تست تورینگ، میتونه به چنین نتایج دور از ذهنی منجر بشه.
BY 🧑💻Cyber.vision🧑💻
Share with your friend now:
tgoop.com/pythonwithmedev/384