tgoop.com/bigdata_1/976
Create:
Last Update:
Last Update:
🧠 ThinkPRM — умный верификатор решений через цепочки рассуждений
Новая модель ThinkPRM проверяет решения пошагово, генерируя цепочку верификации (Chain-of-Thought) — и делает это точнее и в разы дешевле, чем классические PRM, требующие дорогой разметки.
Что нового:
— Использует всего 1% разметки от PRM800K
— Превзошла LLM-as-a-Judge и дискриминативные PRM на задачах из ProcessBench, MATH-500 и AIME'24
— Лучше справляется с зацикливанием, форматом вывода и «переосмыслением»
📊 Вне домена: +8% на GPQA-Diamond, +4.5% на LiveCodeBench
📦 Модель доступна:
👉 [ThinkPRM-14B]
👉 [ThinkPRM-1.5B]
🔗 [Блог] | [Статья] | [Датасет]
👉 @bigdata_1
BY BigData

Share with your friend now:
tgoop.com/bigdata_1/976
