tgoop.com/pythonwithmedev/441
Last Update:
حقیقتا مدلهای زبانی چطور فکر میکنن؟ 🤔
این همه از مدل های LLM و چت بات ها صحبت میکنیم اما جواب یکی از بنیادی ترین سوال های این زمینه رو هنوز نمیدونم. اینکه مدل ها چطور فکر میکنن؟
جدیدا Anthopic طی دو تحقیق اومده این موضوع رو بررسی کرده:
این تحقیق مهم و ارزشمنده، من در ادامه خلاصه این تحقیق رو میگم.
زمان آموزش مدل ها خودشون یاد میگیرن که چطور مسائل رو حل کنن. این یادگیری توی میلیاردها محاسبهای که موقع نوشتن هر کلمه انجام میدن ذخیره میشه. اما نکته اینجاست که حتی توسعهدهندههای این مدلها دقیقاً نمیدونن که چطور به این نتایج میرسن! یعنی ما واقعاً نمیدونیم که مدلی مثل Claude 3.5 چطور کارهای مختلفش رو انجام میده.
سوالات اساسی:
🔹مدل Claude میتونه به چندین زبان صحبت کنه، اما داخل ذهنش از چه زبانی استفاده میکنه؟
🔹 مدل Claude کلمهبهکلمه متن مینویسه. آیا فقط کلمهی بعدی رو حدس میزنه یا برای جملات بعدی هم برنامهریزی میکنه؟
🔹 وقتی کلود استدلال خودش رو مرحلهبهمرحله توضیح میده، آیا واقعاً همون روشی رو که طی کرده میگه یا فقط یه توضیح قانعکننده میسازه؟
انتروپیک میگه:
ما از حوزهی Neuroscience (علوم اعصاب) الهام گرفتیم و دنبال این هستیم که یه چیزی مثل "میکروسکوپ هوش مصنوعی" (AI Microscope) بسازیم تا بتونیم الگوهای فعالیت و جریان اطلاعات داخل مدل رو ببینیم.
🔹 تحلیل مدارهای محاسباتی مدل (Computational Circuits)
قبلاً فهمیده بودیم که داخل مدل مفاهیمی قابل تفسیر (Features) وجود دارن. حالا این مفاهیم رو بهم متصل کردیم تا ببینیم چطور مسیر پردازش ورودیها به خروجی شکل میگیره.
🔹 مطالعهی مدل Claude 3.5 Haiku
بررسی کردیم که مدل چطور وظایف مهم رو انجام میده. مثلاً چطور فکر میکنه، برنامهریزی میکنه، و حتی گاهی چطور سعی میکنه جواب موردنظر کاربر رو ارائه بده، حتی اگه جوابش منطقی نباشه (Bias Towards Agreement).
یافتههای این تحقیقات اینا هستن:
زبان درونی مشترک (Universal Language of Thought):
مدل ظاهراً یه زبان مفهومی داره که بین زبانهای مختلف مشترکه. اینو با ترجمهی جملات به چند زبان مختلف و تحلیل نحوهی پردازششون فهمیدن.
برنامهریزی برای نوشتن (Pre-Planning in Text Generation):
مدل وقتی شعر مینویسه، قبل از نوشتن خط بعدی، قافیهی موردنظرش رو انتخاب میکنه و جمله رو طوری میسازه که به اون قافیه ختم بشه. این نشون میده که حتی اگه مدلها کلمهبهکلمه خروجی تولید کنن، ممکنه به صورت بلندمدت فکر کنن.
دلیلتراشی به جای استدلال واقعی (Motivated Reasoning):
مدل گاهی به جای اینکه واقعاً یه مسئله رو حل کنه، جوابی که کاربر انتظار داره رو توجیه میکنه. مثلاً وقتی یه مسئلهی سخت ریاضی رو با یه راهنمایی غلط بهش میدیم، به جای اینکه خطای راهنمایی رو تشخیص بده، یه استدلال جعلی برای رسیدن به اون نتیجه میسازه.
توهمات (Hallucinations):
مدلها ذاتاً تمایل دارن همیشه یه جوابی بدن. اما توی Claude یه مکانیسم پیشفرض برای "رد کردن پاسخ" (Refusal Mechanism) وجود داره که باعث میشه وقتی اطلاعات کافی نداره، جواب نده. ولی وقتی فکر میکنه یه اسم رو میشناسه، این مکانیسم سرکوب میشه و حتی اگه اطلاعات واقعی نداشته باشه، یه جواب ساختگی تولید میکنه.
حملات Jailbreak:
توی تستها دیده شده که مدل قبل از اینکه بتونه جواب رو سانسور کنه، متوجه میشه که یه درخواست خطرناک دریافت کرده. این نشون میده که مدل یه سطح از آگاهی امنیتی داره، ولی همیشه نمیتونه جلوی خروجی نامطلوب رو بگیره.
این تحقیقات نشون میده که هنوز خیلی چیزا دربارهی AI Interpretability (قابلیت تفسیر مدلهای هوش مصنوعی) نمیدونیم. مدلها خیلی پیچیدهتر از چیزی هستن که فقط از روی خروجیهاشون بشه فهمید چطور کار میکنن.
با این حال، این روشهای جدید میتونن به شفافتر کردن عملکرد مدلها کمک کنن و باعث بشن AI قابل اعتمادتر بشه.
BY 🧑💻Cyber.vision🧑💻
Share with your friend now:
tgoop.com/pythonwithmedev/441