Warning: file_put_contents(aCache/aDaily/post/ai_volution/-875-876-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
ИИволюция 👾@ai_volution P.876

AI_VOLUTION Telegram 876

ИИволюция 👾

Forwarded from Data Secrets

Там обновленная o1 появилась на Livebench и просто порвала всех

Livebench примечателен тем, что он постоянно обновляется, минимизируя всевозможные лики и гарантируя, что задачи не устаревают и не становятся слишком простыми.

Так вот с появлением на борде o1 Gemini Exp 1206, Sonnet 3.5 v2 и предыдущие o1-mini и o1-preview остаются позади с большим отрывом как на главном замере, так и на, конечно, ризонинге. Сравните: о1-preview демонстрирует 67%, и была раньше безусловным лидером, а у полной o1 насчитали… аж 91.58%!

В кодинге прирост тоже есть, но не такой невероятный. Предыдущим лидером был Claude-3.6 Sonnet с 67%. Теперь он уступает o1, но всего на 2.5 процентных пункта. А по математике в лидерах все еще Gemini. Кстати, обратите внимание, как у обеих Gemini резко растут метрики с появлением второго промпта с подсказкой (последний столбец IF).

👍4❤2

www.tgoop.com/ai_volution/876

2.74K viewsСергей Пахандрин, Dec 25, 2024 at 07:54

tgoop.com/ai_volution/876

Create: 2024-12-25
Last Update: 2025-07-27 02:02:58

Там обновленная o1 появилась на Livebench и просто порвала всех

Livebench примечателен тем, что он постоянно обновляется, минимизируя всевозможные лики и гарантируя, что задачи не устаревают и не становятся слишком простыми.

Так вот с появлением на борде o1 Gemini Exp 1206, Sonnet 3.5 v2 и предыдущие o1-mini и o1-preview остаются позади с большим отрывом как на главном замере, так и на, конечно, ризонинге. Сравните: о1-preview демонстрирует 67%, и была раньше безусловным лидером, а у полной o1 насчитали… аж 91.58%!

В кодинге прирост тоже есть, но не такой невероятный. Предыдущим лидером был Claude-3.6 Sonnet с 67%. Теперь он уступает o1, но всего на 2.5 процентных пункта. А по математике в лидерах все еще Gemini. Кстати, обратите внимание, как у обеих Gemini резко растут метрики с появлением второго промпта с подсказкой (последний столбец IF).

BY ИИволюция 👾

Share with your friend now:
tgoop.com/ai_volution/876

Open in Telegram

Telegram News

Date: 2025-07-27|

Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police. Users are more open to new information on workdays rather than weekends. A Hong Kong protester with a petrol bomb. File photo: Dylan Hollingsworth/HKFP. "Doxxing content is forbidden on Telegram and our moderators routinely remove such content from around the world," said a spokesman for the messaging app, Remi Vaughn. How to create a business channel on Telegram? (Tutorial)
from us

Warning: filemtime(): stat failed for aCache/aDaily/post/ai_volution/-875-876- in /var/www/tgoop/post.php on line 323

Warning: filemtime(): stat failed for aCache/aDaily/post/ai_volution/-875-876- in /var/www/tgoop/post.php on line 324

Там обновленная o1 появилась на Livebench и просто порвала всех

ИИволюция 👾 TG
web: 876
ИИволюция 👾.Telegram web
ИИволюция 👾 Telegram TG Channel
Telegram Updated: 1970-01-01 00:00:00

Telegram ИИволюция 👾
FROM American