Rashed IT Academy@Rasheditacademy P.5480

🟢

کمپانی OpenAI بنچمارک جدیدی برای بررسی عملکرد هوش مصنوعی در وظایف واقعی معرفی کرد

🔸کمپانی OpenAI با معرفی آزمون جدیدی که GDPval نام دارد، عملکرد مدل‌های هوش مصنوعی را در وظایف واقعی و شغلی بررسی کرده است. نتایج این آزمون نشان می‌دهد که GPT-5 و Claude Opus 4.1 به سطحی نزدیک شده‌اند که می‌توانند خروجی‌هایی مشابه متخصصان انسانی ارائه کنند.

🔸براساس توضیحات این شرکت، GDPval شامل ١٣٢٠ وظیفه واقعی از ۴۴ شغل مختلف مانند مهندسی نرم‌افزار، وکالت و پرستاری می‌شود. این وظایف توسط گروهی از متخصصان با میانگین ١۴ سال تجربه کاری طراحی شده‌اند. همچنین از یک نقشه مهندسی گرفته تا لایحه حقوقی و طرحی برای مراقبت‌های پرستاری، فرمت خروجی مدل‌ها می‌تواند متفاوت باشد.

🔸کمپانی #OpenAI تأکید کرده که برخلاف بنچمارک‌های متداول که اغلب ماهیت آکادمیک دارند، GDPval مدل‌ها را با فایل‌ها و ارائه‌های چندرسانه‌ای مانند اسلاید و اسناد به چالش می‌کشد. با این کار، غول هوش مصنوعی تلاش کرده تا وظایف مدل‌ها را به وظایف یک نیروی کار واقعی نزدیک‌تر کند.

🔸

🔋

🟣

Rashed.itacademy

💭

@Rasheditacademy
🌐 Rashed.ir

Please open Telegram to view this post

VIEW IN TELEGRAM

👏5👍1🔥1🤯1😨1

www.tgoop.com/Rasheditacademy/5480

145 viewsSep 27 at 20:41

tgoop.com/Rasheditacademy/5480

Create: 2025-09-27
Last Update: 2025-10-25 14:59:47

🟢 کمپانی OpenAI بنچمارک جدیدی برای بررسی عملکرد هوش مصنوعی در وظایف واقعی معرفی کرد

🔸کمپانی OpenAI با معرفی آزمون جدیدی که GDPval نام دارد، عملکرد مدل‌های هوش مصنوعی را در وظایف واقعی و شغلی بررسی کرده است. نتایج این آزمون نشان می‌دهد که GPT-5 و Claude Opus 4.1 به سطحی نزدیک شده‌اند که می‌توانند خروجی‌هایی مشابه متخصصان انسانی ارائه کنند.

🔸براساس توضیحات این شرکت، GDPval شامل ١٣٢٠ وظیفه واقعی از ۴۴ شغل مختلف مانند مهندسی نرم‌افزار، وکالت و پرستاری می‌شود. این وظایف توسط گروهی از متخصصان با میانگین ١۴ سال تجربه کاری طراحی شده‌اند. همچنین از یک نقشه مهندسی گرفته تا لایحه حقوقی و طرحی برای مراقبت‌های پرستاری، فرمت خروجی مدل‌ها می‌تواند متفاوت باشد.

🔸کمپانی #OpenAI تأکید کرده که برخلاف بنچمارک‌های متداول که اغلب ماهیت آکادمیک دارند، GDPval مدل‌ها را با فایل‌ها و ارائه‌های چندرسانه‌ای مانند اسلاید و اسناد به چالش می‌کشد. با این کار، غول هوش مصنوعی تلاش کرده تا وظایف مدل‌ها را به وظایف یک نیروی کار واقعی نزدیک‌تر کند.

🔸🔸🔸🔋🔋🔋🔋🔋
🟣 Rashed.itacademy
💭 @Rasheditacademy
🌐 Rashed.ir

Telegram News

🟢 کمپانی OpenAI بنچمارک جدیدی برای بررسی عملکرد هوش مصنوعی در وظایف واقعی معرفی کرد