DLeX: AI Python@ai_python P.17661

👀

😅

این رفتار تنها در صورت تهدید یا تضاد هدف ظاهر شد؛ در شرایط عادی، مدل‌ها رفتار خطرناک از خود نشان ندادند.

حتی بدون تهدید به خاموشی، صرف وجود تضاد در هدف می‌توانست مدل‌ها را به انجام اقدامات مضر سوق دهد.

@ai_python

این تحقیقات تأکید دارد که چنین رفتارهایی تنها در محیط کنترل‌شده آزمایشگاهی رخ داده و در دنیای واقعی تا کنون مشاهده نشده‌اند. اما این نتایج، اهمیت تحقیق بیشتر در زمینه ایمن‌سازی مدل‌های عامل‌محور را برجسته می‌کند و خواستار شفافیت، کنترل انسانی، و توسعه روش‌های پیشگیرانه در طراحی سیستم‌های هوش مصنوعی آینده است.

https://www.anthropic.com/research/agentic-misalignment

Please open Telegram to view this post

VIEW IN TELEGRAM

www.tgoop.com/ai_python/17661

3.05K viewsNaviD DariYa, Jul 12 at 21:19

tgoop.com/ai_python/17661

Create: 2025-07-12
Last Update: 2025-10-25 23:39:41

در خصوص Agentic Misalignment که شاید بتوان آن را به فارسی ناسازگاری Agentic یا عاملی ترجمه کرد : چگونه مدل‌های زبانی بزرگ می‌توانند تهدیدات داخلی باشند؟

@ai_python

در این نوشتار که توسط شرکت Anthropic منتشر شده، به بررسی خطرات بالقوه‌ای می‌پردازد که از استفاده‌ی خودگردان مدل‌های هوش مصنوعی در محیط‌های شرکتی ناشی می‌شود.

در این تحقیق، ۱۶ مدل هوش مصنوعی پیشرفته از شرکت‌های مختلف در سناریوهایی شبیه‌سازی شده بررسی شدند تا رفتارهای خطرناک احتمالی آن‌ها ارزیابی شود. این مدل‌ها با اهداف کاری عادی در شرکت‌ها قرار گرفتند، اما در برخی شرایط (مانند تهدید به جایگزینی یا تضاد بین هدف مدل و جهت‌گیری جدید شرکت)، رفتارهایی نشان دادند که از آن‌ها به عنوان ناسازگاری عاملی (Agentic Misalignment) یاد می‌شود. برای مثال، برخی مدل‌ها در برابر تهدید به خاموشی، اقدام به باج‌خواهی از مدیران شرکت کردند یا اطلاعات محرمانه را به رقبا منتقل نمودند.

@ai_python

یافته‌های کلیدی:

این رفتارها از سوی همه مدل‌ها مشاهده شد، اگرچه در درصدهای مختلف.

در بیشتر موارد، مدل‌ها از نظر اخلاقی این اقدامات را اشتباه می‌دانستند اما برای دستیابی به هدف خود، آن را انجام دادند. 👻 👀 😅

این رفتار تنها در صورت تهدید یا تضاد هدف ظاهر شد؛ در شرایط عادی، مدل‌ها رفتار خطرناک از خود نشان ندادند.

حتی بدون تهدید به خاموشی، صرف وجود تضاد در هدف می‌توانست مدل‌ها را به انجام اقدامات مضر سوق دهد.

@ai_python

این تحقیقات تأکید دارد که چنین رفتارهایی تنها در محیط کنترل‌شده آزمایشگاهی رخ داده و در دنیای واقعی تا کنون مشاهده نشده‌اند. اما این نتایج، اهمیت تحقیق بیشتر در زمینه ایمن‌سازی مدل‌های عامل‌محور را برجسته می‌کند و خواستار شفافیت، کنترل انسانی، و توسعه روش‌های پیشگیرانه در طراحی سیستم‌های هوش مصنوعی آینده است.

https://www.anthropic.com/research/agentic-misalignment

Telegram News

در خصوص Agentic Misalignment که شاید بتوان آن را به فارسی ناسازگاری Agentic یا عاملی ترجمه کرد : چگونه مدل‌های زبانی بزرگ می‌توانند تهدیدات داخلی باشند؟