PYTHONWITHMEDEV Telegram 441
حقیقتا مدل‌های زبانی چطور فکر می‌کنن؟ 🤔

این همه از مدل های LLM و چت بات ها صحبت میکنیم اما جواب یکی از بنیادی ترین سوال های این زمینه رو هنوز نمیدونم. اینکه مدل ها چطور فکر میکنن؟

جدیدا Anthopic طی دو تحقیق اومده این موضوع رو بررسی کرده:
این تحقیق مهم و ارزشمنده، من در ادامه خلاصه این تحقیق رو میگم.

زمان آموزش مدل ها خودشون یاد می‌گیرن که چطور مسائل رو حل کنن. این یادگیری توی میلیاردها محاسبه‌ای که موقع نوشتن هر کلمه انجام می‌دن ذخیره می‌شه. اما نکته اینجاست که حتی توسعه‌دهنده‌های این مدل‌ها دقیقاً نمی‌دونن که چطور به این نتایج می‌رسن! یعنی ما واقعاً نمی‌دونیم که مدلی مثل Claude 3.5 چطور کارهای مختلفش رو انجام می‌ده.

سوالات اساسی:
🔹مدل Claude می‌تونه به چندین زبان صحبت کنه، اما داخل ذهنش از چه زبانی استفاده می‌کنه؟
🔹 مدل Claude کلمه‌به‌کلمه متن می‌نویسه. آیا فقط کلمه‌ی بعدی رو حدس می‌زنه یا برای جملات بعدی هم برنامه‌ریزی می‌کنه؟
🔹 وقتی کلود استدلال خودش رو مرحله‌به‌مرحله توضیح می‌ده، آیا واقعاً همون روشی رو که طی کرده می‌گه یا فقط یه توضیح قانع‌کننده می‌سازه؟

انتروپیک میگه:
ما از حوزه‌ی Neuroscience (علوم اعصاب) الهام گرفتیم و دنبال این هستیم که یه چیزی مثل "میکروسکوپ هوش مصنوعی" (AI Microscope) بسازیم تا بتونیم الگوهای فعالیت و جریان اطلاعات داخل مدل رو ببینیم.

🔹 تحلیل مدارهای محاسباتی مدل (Computational Circuits)
قبلاً فهمیده بودیم که داخل مدل مفاهیمی قابل تفسیر (Features) وجود دارن. حالا این مفاهیم رو بهم متصل کردیم تا ببینیم چطور مسیر پردازش ورودی‌ها به خروجی شکل می‌گیره.

🔹 مطالعه‌ی مدل Claude 3.5 Haiku
بررسی کردیم که مدل چطور وظایف مهم رو انجام می‌ده. مثلاً چطور فکر می‌کنه، برنامه‌ریزی می‌کنه، و حتی گاهی چطور سعی می‌کنه جواب موردنظر کاربر رو ارائه بده، حتی اگه جوابش منطقی نباشه (Bias Towards Agreement).

یافته‌های این تحقیقات اینا هستن:
زبان درونی مشترک (Universal Language of Thought):
مدل ظاهراً یه زبان مفهومی داره که بین زبان‌های مختلف مشترکه. اینو با ترجمه‌ی جملات به چند زبان مختلف و تحلیل نحوه‌ی پردازش‌شون فهمیدن.
برنامه‌ریزی برای نوشتن (Pre-Planning in Text Generation):
مدل وقتی شعر می‌نویسه، قبل از نوشتن خط بعدی، قافیه‌ی موردنظرش رو انتخاب می‌کنه و جمله رو طوری می‌سازه که به اون قافیه ختم بشه. این نشون می‌ده که حتی اگه مدل‌ها کلمه‌به‌کلمه خروجی تولید کنن، ممکنه به صورت بلندمدت فکر کنن.
دلیل‌تراشی به جای استدلال واقعی (Motivated Reasoning):
مدل گاهی به جای اینکه واقعاً یه مسئله رو حل کنه، جوابی که کاربر انتظار داره رو توجیه می‌کنه. مثلاً وقتی یه مسئله‌ی سخت ریاضی رو با یه راهنمایی غلط بهش می‌دیم، به جای اینکه خطای راهنمایی رو تشخیص بده، یه استدلال جعلی برای رسیدن به اون نتیجه می‌سازه.

توهمات (Hallucinations):
مدل‌ها ذاتاً تمایل دارن همیشه یه جوابی بدن. اما توی Claude یه مکانیسم پیش‌فرض برای "رد کردن پاسخ" (Refusal Mechanism) وجود داره که باعث می‌شه وقتی اطلاعات کافی نداره، جواب نده. ولی وقتی فکر می‌کنه یه اسم رو می‌شناسه، این مکانیسم سرکوب می‌شه و حتی اگه اطلاعات واقعی نداشته باشه، یه جواب ساختگی تولید می‌کنه.
حملات Jailbreak:
توی تست‌ها دیده شده که مدل قبل از اینکه بتونه جواب رو سانسور کنه، متوجه می‌شه که یه درخواست خطرناک دریافت کرده. این نشون می‌ده که مدل یه سطح از آگاهی امنیتی داره، ولی همیشه نمی‌تونه جلوی خروجی نامطلوب رو بگیره.

این تحقیقات نشون می‌ده که هنوز خیلی چیزا درباره‌ی AI Interpretability (قابلیت تفسیر مدل‌های هوش مصنوعی) نمی‌دونیم. مدل‌ها خیلی پیچیده‌تر از چیزی هستن که فقط از روی خروجی‌هاشون بشه فهمید چطور کار می‌کنن.

با این حال، این روش‌های جدید می‌تونن به شفاف‌تر کردن عملکرد مدل‌ها کمک کنن و باعث بشن AI قابل اعتمادتر بشه.



tgoop.com/pythonwithmedev/441
Create:
Last Update:

حقیقتا مدل‌های زبانی چطور فکر می‌کنن؟ 🤔

این همه از مدل های LLM و چت بات ها صحبت میکنیم اما جواب یکی از بنیادی ترین سوال های این زمینه رو هنوز نمیدونم. اینکه مدل ها چطور فکر میکنن؟

جدیدا Anthopic طی دو تحقیق اومده این موضوع رو بررسی کرده:
این تحقیق مهم و ارزشمنده، من در ادامه خلاصه این تحقیق رو میگم.

زمان آموزش مدل ها خودشون یاد می‌گیرن که چطور مسائل رو حل کنن. این یادگیری توی میلیاردها محاسبه‌ای که موقع نوشتن هر کلمه انجام می‌دن ذخیره می‌شه. اما نکته اینجاست که حتی توسعه‌دهنده‌های این مدل‌ها دقیقاً نمی‌دونن که چطور به این نتایج می‌رسن! یعنی ما واقعاً نمی‌دونیم که مدلی مثل Claude 3.5 چطور کارهای مختلفش رو انجام می‌ده.

سوالات اساسی:
🔹مدل Claude می‌تونه به چندین زبان صحبت کنه، اما داخل ذهنش از چه زبانی استفاده می‌کنه؟
🔹 مدل Claude کلمه‌به‌کلمه متن می‌نویسه. آیا فقط کلمه‌ی بعدی رو حدس می‌زنه یا برای جملات بعدی هم برنامه‌ریزی می‌کنه؟
🔹 وقتی کلود استدلال خودش رو مرحله‌به‌مرحله توضیح می‌ده، آیا واقعاً همون روشی رو که طی کرده می‌گه یا فقط یه توضیح قانع‌کننده می‌سازه؟

انتروپیک میگه:
ما از حوزه‌ی Neuroscience (علوم اعصاب) الهام گرفتیم و دنبال این هستیم که یه چیزی مثل "میکروسکوپ هوش مصنوعی" (AI Microscope) بسازیم تا بتونیم الگوهای فعالیت و جریان اطلاعات داخل مدل رو ببینیم.

🔹 تحلیل مدارهای محاسباتی مدل (Computational Circuits)
قبلاً فهمیده بودیم که داخل مدل مفاهیمی قابل تفسیر (Features) وجود دارن. حالا این مفاهیم رو بهم متصل کردیم تا ببینیم چطور مسیر پردازش ورودی‌ها به خروجی شکل می‌گیره.

🔹 مطالعه‌ی مدل Claude 3.5 Haiku
بررسی کردیم که مدل چطور وظایف مهم رو انجام می‌ده. مثلاً چطور فکر می‌کنه، برنامه‌ریزی می‌کنه، و حتی گاهی چطور سعی می‌کنه جواب موردنظر کاربر رو ارائه بده، حتی اگه جوابش منطقی نباشه (Bias Towards Agreement).

یافته‌های این تحقیقات اینا هستن:
زبان درونی مشترک (Universal Language of Thought):
مدل ظاهراً یه زبان مفهومی داره که بین زبان‌های مختلف مشترکه. اینو با ترجمه‌ی جملات به چند زبان مختلف و تحلیل نحوه‌ی پردازش‌شون فهمیدن.
برنامه‌ریزی برای نوشتن (Pre-Planning in Text Generation):
مدل وقتی شعر می‌نویسه، قبل از نوشتن خط بعدی، قافیه‌ی موردنظرش رو انتخاب می‌کنه و جمله رو طوری می‌سازه که به اون قافیه ختم بشه. این نشون می‌ده که حتی اگه مدل‌ها کلمه‌به‌کلمه خروجی تولید کنن، ممکنه به صورت بلندمدت فکر کنن.
دلیل‌تراشی به جای استدلال واقعی (Motivated Reasoning):
مدل گاهی به جای اینکه واقعاً یه مسئله رو حل کنه، جوابی که کاربر انتظار داره رو توجیه می‌کنه. مثلاً وقتی یه مسئله‌ی سخت ریاضی رو با یه راهنمایی غلط بهش می‌دیم، به جای اینکه خطای راهنمایی رو تشخیص بده، یه استدلال جعلی برای رسیدن به اون نتیجه می‌سازه.

توهمات (Hallucinations):
مدل‌ها ذاتاً تمایل دارن همیشه یه جوابی بدن. اما توی Claude یه مکانیسم پیش‌فرض برای "رد کردن پاسخ" (Refusal Mechanism) وجود داره که باعث می‌شه وقتی اطلاعات کافی نداره، جواب نده. ولی وقتی فکر می‌کنه یه اسم رو می‌شناسه، این مکانیسم سرکوب می‌شه و حتی اگه اطلاعات واقعی نداشته باشه، یه جواب ساختگی تولید می‌کنه.
حملات Jailbreak:
توی تست‌ها دیده شده که مدل قبل از اینکه بتونه جواب رو سانسور کنه، متوجه می‌شه که یه درخواست خطرناک دریافت کرده. این نشون می‌ده که مدل یه سطح از آگاهی امنیتی داره، ولی همیشه نمی‌تونه جلوی خروجی نامطلوب رو بگیره.

این تحقیقات نشون می‌ده که هنوز خیلی چیزا درباره‌ی AI Interpretability (قابلیت تفسیر مدل‌های هوش مصنوعی) نمی‌دونیم. مدل‌ها خیلی پیچیده‌تر از چیزی هستن که فقط از روی خروجی‌هاشون بشه فهمید چطور کار می‌کنن.

با این حال، این روش‌های جدید می‌تونن به شفاف‌تر کردن عملکرد مدل‌ها کمک کنن و باعث بشن AI قابل اعتمادتر بشه.

BY 🧑‍💻Cyber.vision🧑‍💻


Share with your friend now:
tgoop.com/pythonwithmedev/441

View MORE
Open in Telegram


Telegram News

Date: |

More>> Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading. The group’s featured image is of a Pepe frog yelling, often referred to as the “REEEEEEE” meme. Pepe the Frog was created back in 2005 by Matt Furie and has since become an internet symbol for meme culture and “degen” culture. Read now Over 33,000 people sent out over 1,000 doxxing messages in the group. Although the administrators tried to delete all of the messages, the posting speed was far too much for them to keep up.
from us


Telegram 🧑‍💻Cyber.vision🧑‍💻
FROM American