PYTHONWITHMEDEV Telegram 384
در این آشفته‌بازار این روزهای مدل‌های زبانی بزرگ، و هیجانات غالب بر جامعه‌ی علمی و غیرعلمی و تاثیر شگرفش روی سهام شرکت‌های فراهم‌کننده‌ی زیرساخت‌های سخت‌افزاری، پرسش اصلی‌ای که به وجود میاد اینه که بعد از گذشت هفتاد سال از مطرح شدن «بازی تقلید» (معروف به تست تورینگ) برای سنجش «تفکر ماشینی» و هوش مصنوعی، آیا سرانجام می‌تونیم چت‌بات‌های مبتنی بر مدل‌های زبانی نظیر GPT رو برنده‌ی این بازی و فاتح جایگاهی در نظر بگیریم که تورینگ در دهه‌ی پنجاه میلادی پیش‌بینی کرده بود؟ پرسشی که در ابتدا ممکنه ساده به نظر بیاد، به خصوص که ادعای «پاس شدن تست تورینگ» این روزها لقلقه‌‌ی زبان مدیران شرکت‌‌ها و بازوهای تبلیغاتیشونه، اما زمانی پیچیده می‌شه که متوجه می‌شیم در آزمایش‌های واقعی، درصد قابل‌توجهی از انسان‌ها هم در این تست مردود می‌شوند. مشکل کجاست؟

«آیا ماشین‌ها قادر به تفکر هستند؟»، سوالیه که آلن تورینگ در مقاله‌ی ۱۹۵۰ خودش مطرح می‌کنه، و تلاش می‌کنه تا با طرح بازی تقلید، معیاری برای سنجش تفکر ماشینی خلق کنه. بازی شامل یک پرسشگر، یک انسان و یک ماشینه. پرسشگر جدا از انسان و ماشین در یک اتاق جداگانه قرار گرفته و با هدف حذف فاکتورهای غیرمرتبط از جمله صدا و تصویر، ارتباط او با دو بازیکن دیگه، صرفا از طریق مکاتبه انجام می‌شه. هدف پرسشگر، تشخیص انسان از بین دو بازیکن دیگر، هدف انسان، کمک به این تشخیص و هدف ماشین، گمراهی پرسشگر است تا برنده‌ی این بازی باشه. تیمی از پژوهشگرهای دانشگاه کالیفرنیا در سن‌دیگو (UCSD)، اخیرا نسخه‌ای دو نفره از این بازی رو با پانصد شرکت‌کننده شبیه‌سازی کردند، و نتایج، خارج از انتظار بود.

اگر به تاریخچه‌ی چت‌بات‌ها علاقه‌مند باشید، احتمالا با Eliza آشنا هستید. تاریخچه‌ی این چت‌بات به دهه‌ی ۶۰ میلادی و دانشگاه MIT می‌رسه و در زمان خودش، پیشرو به شمار میومد (از اینجا امتحانش کنید). در آزمایش جدید، علاوه‌ بر GPT سه‌ونیم و چهار، نسخه‌ای از Eliza هم مورد استفاده قرار گرفته. بازی دو نفره رو به این صورت طراحی کردند که شرکت‌کننده‌‌ها در برابر یک انسان یا یکی از سه چت‌بات بالا قرار می‌گرفتند و باید ظرف مدت پنج دقیقه، تشخیص می‌دادند که با یک انسان دیگه و یا یک چت‌بات صحبت می‌کنند.

مطابق انتظار، Eliza و GPT-4 به ترتیب در ۲۲ و ۵۴ درصد بازی‌ها، برنده شدند. اگر با Eliza کار کرده باشید، می‌دونید که عدد ۲۲، درصد بالایی به حساب میاد؛ پدیده‌ای که تحت عنوان Eliza Effect شناخته می‌شه و بر اثرش، پرسشگرها برخلاف چیزی که می‌بینند و استدلال می‌کنند، رفتارهای انسان‌گونه رو به Eliza نسبت می‌دن. از سمت دیگه، بازیکن‌های انسانی که به جای چت‌بات‌ها قرار گرفته بودند، تنها در ۶۷ درصد موارد موفق به قانع کردن پرسشگرها شدند.

اقتصاددان‌ها در این مواقع از «علیت دوّار» صحبت می‌کنند، که در علم اقتصاد، به ارتباط علت و معلولی متقابل میان چند پدیده‌ گفته می‌شه. در این مورد هم برخوردهای شرکت‌کننده‌های آزمایش با چت‌بات‌ها، موجب شده بود که سطح انتظارها از عملکرد هوش مصنوعی به قدری بالا بیاد که در ۳۳ درصد موارد، انسان‌ها رو هم به اشتباه ربات تشخیص بدن. از طرف دیگه، پرسشگرها در تشخیص GPT-4 هم عملکردی در حد و اندازه‌ی پرتاب سکه داشتند (اگر فکر می‌کنید که می‌تونید عملکرد بهتری از شرکت‌کننده‌ها داشته باشید، تلاش کنید که از بین چهار عکس زیر، انسان رو تشخیص بدید؛ سه عکس مربوط به AI و یک عکس مربوط به بازیکن انسانیه. سبزها مکالمات پرسشگر و خاکستری‌ها جواب انسان‌/چت‌بات‌ها هستند).

با لحاظ این موارد، به نظر میاد که نیاز به بازنگری در تست تورینگ، بیشتر از هر زمان دیگه‌ای احساس می‌شه؛ و تا به امروز، پیشنهاداتی هم روی میز قرار گرفته. یکی از این‌ها، ایده‌ی یکی از اساتید روانشناسی دانشگاه پرینستونه. Philip Johnson-Laird اعتقاد داره که برای آزمایش مدل‌ها، باید اون‌ها رو در برابر آزمون‌های روانشناسی قرار بدیم، و مثل یک جلسه‌ی تراپی، شباهتش با رفتارهای انسان‌گونه رو بررسی کنیم؛ یک دیدگاه میان‌رشته‌ای که می‌تونه درهای جدیدی رو به سوی شناخت LLMها باز کنه.

از سمت دیگه، Terrence Sejnowski استاد علوم اعصاب UCSD هم در مقاله‌ی اخیرش، با مطالعه روی شیوه‌ی رفتاری و عملکرد مغزی انسان‌ها، نگاه کاملا متفاوتی رو مطرح می‌کنه: همون‌طور که در یک بازی تنیس، یک رقیب قدرمندتر، از شما بازیکن بهتری می‌سازه، LLMها هم صرفا بازتاب‌‌دهنده‌ی ضریب هوشی پرسشگر هستند. در حقیقت، هر بار که ما با اون‌ها صحبت می‌کنیم، این ما هستیم که در جایگاه پرسش‌شونده قرار گرفته‌ایم، پدیده‌ای که او ازش به عنوان «تست تورینگ وارونه» تعبیر می‌کنه. این دیدگاه، با نتایج آزمایش بالا هم‌خوانی داره و می‌تونه دلیلی باشه بر اینکه چرا اطلاق جایگاه پرسشگر به انسان‌ها در تست تورینگ، می‌تونه به چنین نتایج دور از ذهنی منجر بشه.



tgoop.com/pythonwithmedev/384
Create:
Last Update:

در این آشفته‌بازار این روزهای مدل‌های زبانی بزرگ، و هیجانات غالب بر جامعه‌ی علمی و غیرعلمی و تاثیر شگرفش روی سهام شرکت‌های فراهم‌کننده‌ی زیرساخت‌های سخت‌افزاری، پرسش اصلی‌ای که به وجود میاد اینه که بعد از گذشت هفتاد سال از مطرح شدن «بازی تقلید» (معروف به تست تورینگ) برای سنجش «تفکر ماشینی» و هوش مصنوعی، آیا سرانجام می‌تونیم چت‌بات‌های مبتنی بر مدل‌های زبانی نظیر GPT رو برنده‌ی این بازی و فاتح جایگاهی در نظر بگیریم که تورینگ در دهه‌ی پنجاه میلادی پیش‌بینی کرده بود؟ پرسشی که در ابتدا ممکنه ساده به نظر بیاد، به خصوص که ادعای «پاس شدن تست تورینگ» این روزها لقلقه‌‌ی زبان مدیران شرکت‌‌ها و بازوهای تبلیغاتیشونه، اما زمانی پیچیده می‌شه که متوجه می‌شیم در آزمایش‌های واقعی، درصد قابل‌توجهی از انسان‌ها هم در این تست مردود می‌شوند. مشکل کجاست؟

«آیا ماشین‌ها قادر به تفکر هستند؟»، سوالیه که آلن تورینگ در مقاله‌ی ۱۹۵۰ خودش مطرح می‌کنه، و تلاش می‌کنه تا با طرح بازی تقلید، معیاری برای سنجش تفکر ماشینی خلق کنه. بازی شامل یک پرسشگر، یک انسان و یک ماشینه. پرسشگر جدا از انسان و ماشین در یک اتاق جداگانه قرار گرفته و با هدف حذف فاکتورهای غیرمرتبط از جمله صدا و تصویر، ارتباط او با دو بازیکن دیگه، صرفا از طریق مکاتبه انجام می‌شه. هدف پرسشگر، تشخیص انسان از بین دو بازیکن دیگر، هدف انسان، کمک به این تشخیص و هدف ماشین، گمراهی پرسشگر است تا برنده‌ی این بازی باشه. تیمی از پژوهشگرهای دانشگاه کالیفرنیا در سن‌دیگو (UCSD)، اخیرا نسخه‌ای دو نفره از این بازی رو با پانصد شرکت‌کننده شبیه‌سازی کردند، و نتایج، خارج از انتظار بود.

اگر به تاریخچه‌ی چت‌بات‌ها علاقه‌مند باشید، احتمالا با Eliza آشنا هستید. تاریخچه‌ی این چت‌بات به دهه‌ی ۶۰ میلادی و دانشگاه MIT می‌رسه و در زمان خودش، پیشرو به شمار میومد (از اینجا امتحانش کنید). در آزمایش جدید، علاوه‌ بر GPT سه‌ونیم و چهار، نسخه‌ای از Eliza هم مورد استفاده قرار گرفته. بازی دو نفره رو به این صورت طراحی کردند که شرکت‌کننده‌‌ها در برابر یک انسان یا یکی از سه چت‌بات بالا قرار می‌گرفتند و باید ظرف مدت پنج دقیقه، تشخیص می‌دادند که با یک انسان دیگه و یا یک چت‌بات صحبت می‌کنند.

مطابق انتظار، Eliza و GPT-4 به ترتیب در ۲۲ و ۵۴ درصد بازی‌ها، برنده شدند. اگر با Eliza کار کرده باشید، می‌دونید که عدد ۲۲، درصد بالایی به حساب میاد؛ پدیده‌ای که تحت عنوان Eliza Effect شناخته می‌شه و بر اثرش، پرسشگرها برخلاف چیزی که می‌بینند و استدلال می‌کنند، رفتارهای انسان‌گونه رو به Eliza نسبت می‌دن. از سمت دیگه، بازیکن‌های انسانی که به جای چت‌بات‌ها قرار گرفته بودند، تنها در ۶۷ درصد موارد موفق به قانع کردن پرسشگرها شدند.

اقتصاددان‌ها در این مواقع از «علیت دوّار» صحبت می‌کنند، که در علم اقتصاد، به ارتباط علت و معلولی متقابل میان چند پدیده‌ گفته می‌شه. در این مورد هم برخوردهای شرکت‌کننده‌های آزمایش با چت‌بات‌ها، موجب شده بود که سطح انتظارها از عملکرد هوش مصنوعی به قدری بالا بیاد که در ۳۳ درصد موارد، انسان‌ها رو هم به اشتباه ربات تشخیص بدن. از طرف دیگه، پرسشگرها در تشخیص GPT-4 هم عملکردی در حد و اندازه‌ی پرتاب سکه داشتند (اگر فکر می‌کنید که می‌تونید عملکرد بهتری از شرکت‌کننده‌ها داشته باشید، تلاش کنید که از بین چهار عکس زیر، انسان رو تشخیص بدید؛ سه عکس مربوط به AI و یک عکس مربوط به بازیکن انسانیه. سبزها مکالمات پرسشگر و خاکستری‌ها جواب انسان‌/چت‌بات‌ها هستند).

با لحاظ این موارد، به نظر میاد که نیاز به بازنگری در تست تورینگ، بیشتر از هر زمان دیگه‌ای احساس می‌شه؛ و تا به امروز، پیشنهاداتی هم روی میز قرار گرفته. یکی از این‌ها، ایده‌ی یکی از اساتید روانشناسی دانشگاه پرینستونه. Philip Johnson-Laird اعتقاد داره که برای آزمایش مدل‌ها، باید اون‌ها رو در برابر آزمون‌های روانشناسی قرار بدیم، و مثل یک جلسه‌ی تراپی، شباهتش با رفتارهای انسان‌گونه رو بررسی کنیم؛ یک دیدگاه میان‌رشته‌ای که می‌تونه درهای جدیدی رو به سوی شناخت LLMها باز کنه.

از سمت دیگه، Terrence Sejnowski استاد علوم اعصاب UCSD هم در مقاله‌ی اخیرش، با مطالعه روی شیوه‌ی رفتاری و عملکرد مغزی انسان‌ها، نگاه کاملا متفاوتی رو مطرح می‌کنه: همون‌طور که در یک بازی تنیس، یک رقیب قدرمندتر، از شما بازیکن بهتری می‌سازه، LLMها هم صرفا بازتاب‌‌دهنده‌ی ضریب هوشی پرسشگر هستند. در حقیقت، هر بار که ما با اون‌ها صحبت می‌کنیم، این ما هستیم که در جایگاه پرسش‌شونده قرار گرفته‌ایم، پدیده‌ای که او ازش به عنوان «تست تورینگ وارونه» تعبیر می‌کنه. این دیدگاه، با نتایج آزمایش بالا هم‌خوانی داره و می‌تونه دلیلی باشه بر اینکه چرا اطلاق جایگاه پرسشگر به انسان‌ها در تست تورینگ، می‌تونه به چنین نتایج دور از ذهنی منجر بشه.

BY 🧑‍💻Cyber.vision🧑‍💻


Share with your friend now:
tgoop.com/pythonwithmedev/384

View MORE
Open in Telegram


Telegram News

Date: |

How to build a private or public channel on Telegram? Telegram iOS app: In the “Chats” tab, click the new message icon in the right upper corner. Select “New Channel.” The administrator of a telegram group, "Suck Channel," was sentenced to six years and six months in prison for seven counts of incitement yesterday. Administrators Among the requests, the Brazilian electoral Court wanted to know if they could obtain data on the origins of malicious content posted on the platform. According to the TSE, this would enable the authorities to track false content and identify the user responsible for publishing it in the first place.
from us


Telegram 🧑‍💻Cyber.vision🧑‍💻
FROM American