Warning: file_put_contents(aCache/aDaily/post/ai_volution/-875-876-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
ИИволюция 👾@ai_volution P.876
AI_VOLUTION Telegram 876
Forwarded from Data Secrets
Там обновленная o1 появилась на Livebench и просто порвала всех

Livebench примечателен тем, что он постоянно обновляется, минимизируя всевозможные лики и гарантируя, что задачи не устаревают и не становятся слишком простыми.

Так вот с появлением на борде o1 Gemini Exp 1206, Sonnet 3.5 v2 и предыдущие o1-mini и o1-preview остаются позади с большим отрывом как на главном замере, так и на, конечно, ризонинге. Сравните: о1-preview демонстрирует 67%, и была раньше безусловным лидером, а у полной o1 насчитали… аж 91.58%!

В кодинге прирост тоже есть, но не такой невероятный. Предыдущим лидером был Claude-3.6 Sonnet с 67%. Теперь он уступает o1, но всего на 2.5 процентных пункта. А по математике в лидерах все еще Gemini. Кстати, обратите внимание, как у обеих Gemini резко растут метрики с появлением второго промпта с подсказкой (последний столбец IF).
👍42



tgoop.com/ai_volution/876
Create:
Last Update:

Там обновленная o1 появилась на Livebench и просто порвала всех

Livebench примечателен тем, что он постоянно обновляется, минимизируя всевозможные лики и гарантируя, что задачи не устаревают и не становятся слишком простыми.

Так вот с появлением на борде o1 Gemini Exp 1206, Sonnet 3.5 v2 и предыдущие o1-mini и o1-preview остаются позади с большим отрывом как на главном замере, так и на, конечно, ризонинге. Сравните: о1-preview демонстрирует 67%, и была раньше безусловным лидером, а у полной o1 насчитали… аж 91.58%!

В кодинге прирост тоже есть, но не такой невероятный. Предыдущим лидером был Claude-3.6 Sonnet с 67%. Теперь он уступает o1, но всего на 2.5 процентных пункта. А по математике в лидерах все еще Gemini. Кстати, обратите внимание, как у обеих Gemini резко растут метрики с появлением второго промпта с подсказкой (последний столбец IF).

BY ИИволюция 👾





Share with your friend now:
tgoop.com/ai_volution/876

View MORE
Open in Telegram


Telegram News

Date: |

Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police. Users are more open to new information on workdays rather than weekends. A Hong Kong protester with a petrol bomb. File photo: Dylan Hollingsworth/HKFP. "Doxxing content is forbidden on Telegram and our moderators routinely remove such content from around the world," said a spokesman for the messaging app, Remi Vaughn. How to create a business channel on Telegram? (Tutorial)
from us


Telegram ИИволюция 👾
FROM American