AI_VOLUTION Telegram 1319
Forwarded from Сиолошная
Вероятно на прошлой неделе вы натыкались на упоминания статьи от Apple, где рассказывалось про «ограниченность» мышления рассуждающих моделей. Может быть вы даже видели разгромные разборы этой статьи, где в красках описывалось, где именно авторы налажали (ну например давали задачу, где доказано, что начиная с определенной сложности решений не существует в принципе — а авторы-то выносили это в ограничение моделей). Почитать можно, например, тут (или вот более детальный пост на LW с контекстом).

Решил об этом написать, когда увидел вот этот твит от Dan Hendrycks, который на бенчмаркинге моделей собаку съел (он был авторов нескольких самых именитых бенчей).

«Apple недавно опубликовала статью, показывающую, что современные системы искусственного интеллекта не способны решать простые для людей головоломки.
Люди: 92,7%
GPT-4o: 69,9%

Однако они не проводили оценку самых свежих рассуждающих моделей. Если бы они это сделали, то обнаружили бы, что OpenAI o3 набирает 96,5%, опережая людей»

😂 every single time
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/ai_volution/1319
Create:
Last Update:

Вероятно на прошлой неделе вы натыкались на упоминания статьи от Apple, где рассказывалось про «ограниченность» мышления рассуждающих моделей. Может быть вы даже видели разгромные разборы этой статьи, где в красках описывалось, где именно авторы налажали (ну например давали задачу, где доказано, что начиная с определенной сложности решений не существует в принципе — а авторы-то выносили это в ограничение моделей). Почитать можно, например, тут (или вот более детальный пост на LW с контекстом).

Решил об этом написать, когда увидел вот этот твит от Dan Hendrycks, который на бенчмаркинге моделей собаку съел (он был авторов нескольких самых именитых бенчей).

«Apple недавно опубликовала статью, показывающую, что современные системы искусственного интеллекта не способны решать простые для людей головоломки.
Люди: 92,7%
GPT-4o: 69,9%

Однако они не проводили оценку самых свежих рассуждающих моделей. Если бы они это сделали, то обнаружили бы, что OpenAI o3 набирает 96,5%, опережая людей»

😂 every single time

BY ИИволюция 👾




Share with your friend now:
tgoop.com/ai_volution/1319

View MORE
Open in Telegram


Telegram News

Date: |

So far, more than a dozen different members have contributed to the group, posting voice notes of themselves screaming, yelling, groaning, and wailing in various pitches and rhythms. Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group. Channel login must contain 5-32 characters To view your bio, click the Menu icon and select “View channel info.”
from us


Telegram ИИволюция 👾
FROM American