tgoop.com/data_analysis_ml/3836
Last Update:
🧠 MetaStone‑S1 — первая открытая Reflective Generative Model, сопоставимая с OpenAI o3
Новая модель MetaStone‑S1 от MetaStone-AI представляет собой рефлексивную генеративную архитектуру, ориентированную на эффективное масштабирование при инференсе (TTS).
🔍 Ключевые особенности:
▪ SPRM (Self-supervised Process Reward Model)
Позволяет модели самостоятельно оценивать качество промежуточных шагов рассуждения — без ручной разметки процесса. Это объединяет policy‑модель и reward‑модель в одном бэкенде, экономя 99% параметров PRM.
▪ Три режима рассуждения (TTS Modes)
Выбирайте уровень усилия: low / medium / high — для контроля глубины reasoning на инференсе.
▪ Масштабируемость и производительность
MetaStone‑S1 (32B параметров) показывает результаты на уровне OpenAI o3-mini, при этом оставаясь полностью открытой.
📐 Scaling Law
Авторы выявили эмпирическую закономерность между вычислительной нагрузкой и качеством reasoning — и нашли "aha-момент", где резкий рост качества наступает при определённой глубине мышления.
📊 Бенчмарки:
Модель достигает SOTA-результатов на:
- AIME24 / AIME25
- LiveCodeBench
- C-EVAL и др.
💡 Если вы работаете над LLM-агентами, интерпретируемыми системами или reasoning-моделями — MetaStone‑S1 обязательно к изучению. Это новая парадигма в генеративных ИИ: мышление + самооценка = устойчивое, масштабируемое поведение.
https://huggingface.co/papers/2507.01951
BY Анализ данных (Data analysis)

Share with your friend now:
tgoop.com/data_analysis_ml/3836