tgoop.com/data_math/881
Last Update:
LLM берет золото на олимпиаде по астрофизике
Исследователи проверили, как современные большие языковые модели (LLM) справятся с задачами Международной олимпиады по астрономии и астрофизике (IOAA) за 2022–2025 годы.
Результаты впечатляют.
🧠 Тестировались модели:
GPT-5, OpenAI o3, Gemini 2.5 Pro, Claude 4.1 Opus и Claude 4 Sonnet.
📊 Что показали:
- GPT-5 и Gemini 2.5 Pro набрали 85–88 % - это уровень золотой медали .
- Остальные модели показали результат в диапазоне 48–76 %.
- Особенно сильны GPT-5 в анализе данных и Gemini в теории.
💡 Почему это важно:
- LLM впервые достигли уровня лучших олимпиадников по астрофизике.
- Это демонстрирует, что модели уже решают не только текстовые, но и научные, количественные и логические задачи.
- Потенциал таких систем — помощь в научных исследованиях, автоматическом анализе данных и обучении.
⚠️ Ограничения:
- Олимпиадные задачи не охватывают весь спектр реальной астрофизики.
- Возможны «угадывания» и шаблонные решения.
- Неясно, насколько стабильно поведение моделей при реальных данных с шумом и погрешностями.