tgoop.com/AlgorithmDesign_DataStructuer/1742
Create:
Last Update:
Last Update:
بعد از برگزاری المپیاد ریاضی آمریکا در سال ۲۰۲۵، محققها سوالات آزمون رو به چند مدل زبانی پیشرفته که توانایی استدلال منطقی دارن، دادن تا ببینن چطور از پس حل مسائل برمیان. نتیجه اما خیلی غافلگیرکننده بود: هیچکدوم از مدلها نتونستن بیشتر از ۵ درصد نمره بگیرن.
این موضوع نشون میده که عملکرد بالا و درخشان این مدلها تو آزمونهای دیگه، ممکنه بیشتر به خاطر شباهت سوالها با دیتای آموزشیشون بوده باشه یا اینکه فقط تونستن به جواب درست برسن بدون اینکه واقعاً اثبات درستی ارائه بدن.
Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad
#هوش_مصنوعی
📣👨💻 @AlgorithmDesign_DataStructuer
BY Algorithm design & data structure

Share with your friend now:
tgoop.com/AlgorithmDesign_DataStructuer/1742