tgoop.com/ai_volution/1319
Last Update:
Вероятно на прошлой неделе вы натыкались на упоминания статьи от Apple, где рассказывалось про «ограниченность» мышления рассуждающих моделей. Может быть вы даже видели разгромные разборы этой статьи, где в красках описывалось, где именно авторы налажали (ну например давали задачу, где доказано, что начиная с определенной сложности решений не существует в принципе — а авторы-то выносили это в ограничение моделей). Почитать можно, например, тут (или вот более детальный пост на LW с контекстом).
Решил об этом написать, когда увидел вот этот твит от Dan Hendrycks, который на бенчмаркинге моделей собаку съел (он был авторов нескольких самых именитых бенчей).
«Apple недавно опубликовала статью, показывающую, что современные системы искусственного интеллекта не способны решать простые для людей головоломки.
Люди: 92,7%
GPT-4o: 69,9%
Однако они не проводили оценку самых свежих рассуждающих моделей. Если бы они это сделали, то обнаружили бы, что OpenAI o3 набирает 96,5%, опережая людей»