tgoop.com/ai_python/17661
Last Update:
در خصوص Agentic Misalignment که شاید بتوان آن را به فارسی ناسازگاری Agentic یا عاملی ترجمه کرد : چگونه مدلهای زبانی بزرگ میتوانند تهدیدات داخلی باشند؟
@ai_python
در این نوشتار که توسط شرکت Anthropic منتشر شده، به بررسی خطرات بالقوهای میپردازد که از استفادهی خودگردان مدلهای هوش مصنوعی در محیطهای شرکتی ناشی میشود.
در این تحقیق، ۱۶ مدل هوش مصنوعی پیشرفته از شرکتهای مختلف در سناریوهایی شبیهسازی شده بررسی شدند تا رفتارهای خطرناک احتمالی آنها ارزیابی شود. این مدلها با اهداف کاری عادی در شرکتها قرار گرفتند، اما در برخی شرایط (مانند تهدید به جایگزینی یا تضاد بین هدف مدل و جهتگیری جدید شرکت)، رفتارهایی نشان دادند که از آنها به عنوان ناسازگاری عاملی (Agentic Misalignment) یاد میشود. برای مثال، برخی مدلها در برابر تهدید به خاموشی، اقدام به باجخواهی از مدیران شرکت کردند یا اطلاعات محرمانه را به رقبا منتقل نمودند.
@ai_python
یافتههای کلیدی:
این رفتارها از سوی همه مدلها مشاهده شد، اگرچه در درصدهای مختلف.
در بیشتر موارد، مدلها از نظر اخلاقی این اقدامات را اشتباه میدانستند اما برای دستیابی به هدف خود، آن را انجام دادند.
این رفتار تنها در صورت تهدید یا تضاد هدف ظاهر شد؛ در شرایط عادی، مدلها رفتار خطرناک از خود نشان ندادند.
حتی بدون تهدید به خاموشی، صرف وجود تضاد در هدف میتوانست مدلها را به انجام اقدامات مضر سوق دهد.
@ai_python
این تحقیقات تأکید دارد که چنین رفتارهایی تنها در محیط کنترلشده آزمایشگاهی رخ داده و در دنیای واقعی تا کنون مشاهده نشدهاند. اما این نتایج، اهمیت تحقیق بیشتر در زمینه ایمنسازی مدلهای عاملمحور را برجسته میکند و خواستار شفافیت، کنترل انسانی، و توسعه روشهای پیشگیرانه در طراحی سیستمهای هوش مصنوعی آینده است.
https://www.anthropic.com/research/agentic-misalignment