tgoop.com/Rasheditacademy/5480
Last Update:
🔸کمپانی OpenAI با معرفی آزمون جدیدی که GDPval نام دارد، عملکرد مدلهای هوش مصنوعی را در وظایف واقعی و شغلی بررسی کرده است. نتایج این آزمون نشان میدهد که GPT-5 و Claude Opus 4.1 به سطحی نزدیک شدهاند که میتوانند خروجیهایی مشابه متخصصان انسانی ارائه کنند.
🔸براساس توضیحات این شرکت، GDPval شامل ١٣٢٠ وظیفه واقعی از ۴۴ شغل مختلف مانند مهندسی نرمافزار، وکالت و پرستاری میشود. این وظایف توسط گروهی از متخصصان با میانگین ١۴ سال تجربه کاری طراحی شدهاند. همچنین از یک نقشه مهندسی گرفته تا لایحه حقوقی و طرحی برای مراقبتهای پرستاری، فرمت خروجی مدلها میتواند متفاوت باشد.
🔸کمپانی #OpenAI تأکید کرده که برخلاف بنچمارکهای متداول که اغلب ماهیت آکادمیک دارند، GDPval مدلها را با فایلها و ارائههای چندرسانهای مانند اسلاید و اسناد به چالش میکشد. با این کار، غول هوش مصنوعی تلاش کرده تا وظایف مدلها را به وظایف یک نیروی کار واقعی نزدیکتر کند.
🌐 Rashed.ir

