tgoop.com/ai_machinelearning_big_data/6813
Last Update:
Сейчас он доступен всем «пока серверы не рухнут», так что самое время протестировать его в деле
Вот главное:
- Вышло два варианта модели: Grok‑3 mini и полноразмерный Grok‑3.
- Беспрецедентные достижения: Первая модель, преодолевшая 1400 очков, и лидирует по всем категориям на арене.
- Режим рассуждений: Хотя базовая модель не «ризонинг», можно активировать режим рассуждений с двумя настройками – «Thinking» и «Thinking Hard»
. Процесс рассуждения почти полностью прозрачен.
- Выдающаяся производительность: На тестах Math24 hard Grok‑3 показывает результаты лучше, чем R1, o1 и даже o3‑mini high. AIME 24 — 52% [96% с обоснованием!]
GPQA —75% [85%]
Кодинг (LiveCodeBench) — 57% [80%].
- На бенчмарках версия mini сравнима с DeepSeek 3, GPT‑4o и Gemini Pro.
- Новый агент Deep (Re)search: Встроенный инструмент для быстрого интернет-поиска, кросс-валидации источников и корректировки плана, который на демонстрации справился всего за минуту.
https://x.com/i/grok
@ai_machinelearning_big_data
#grok #elonmusk #ai #ml #llm #reasoning #xAI