BigData@bigdata

BigData

🧠 ThinkPRM: Новый стандарт в верификации решений через Chain-of-Thought

🤖 Верификаторы пошаговых рассуждений (PRMs) — мощный инструмент масштабирования проверки решений на этапе инференса. Но их обучение требует дорогостоящей покадровой разметки.

🔍 Представляем ThinkPRM — data-efficient PRM, который генерирует цепочку верификации (Chain-of-Thought) для каждого шага решения, опираясь на всего 1% меток из PRM800K — и при этом превосходит LLM-as-a-Judge и дискриминативные PRM.

❗️Что не так с LLM-as-a-Judge:

* чувствительность к формулировке инструкции
* ошибки в логике и невалидные итоговые решения
* неправильный формат ответа
* зацикливание и “overthinking”, приводящее к превышению лимита токенов

🧪 Метод ThinkPRM:

1️⃣ Синтетические данные:

* Модель QwQ-32B-Preview генерирует цепочки верификации
* Отбираются только те, где шаги соответствуют PRM800K и укладываются в токен-бюджет

2️⃣ Обучение на 1K цепочках:

* Модель тонко настраивается на выбранных верификациях
* Тестируется на ProcessBench и сравнивается с LLM-as-a-Judge

📊 Результаты:

* 🔝 ThinkPRM превосходит базовые модели на ProcessBench, MATH-500 и AIME’24
* 🧬 На GPQA-Diamond и LiveCodeBench — выигрывает у дискриминативных моделей на 8% и 4.5%
* 📈 При том же токен-бюджете ThinkPRM эффективнее масштабирует верификацию, +7.2% на ProcessBench

💡 ThinkPRM показывает, что меньшее — значит умнее.
Настраивай, не размечай.
Проверяй умно, шаг за шагом.

✅ Blog: https://medium.com/@techsachin/thinkprm-generative-process-reward-model-for-solution-verification-via-long-cot-reasoning-2016f1e1387d

✅ Paper: https://arxiv.org/abs/2504.16828

✅ Dataset: https://huggingface.co/datasets/launch/thinkprm-1K-verification-cots

✅ Models:
- ThinkPRM-14B: https://huggingface.co/launch/ThinkPRM-14B
- ThinkPRM-1.5B: https://huggingface.co/launch/ThinkPRM-1.5B

👉 @bigdata_1

❤1👍1

www.tgoop.com/bigdata_1/968

975 viewsMay 6 at 09:21

tgoop.com/bigdata_1/968

Create: 2025-05-06
Last Update: 2025-10-25 20:41:03

BY BigData

Share with your friend now:
tgoop.com/bigdata_1/968

Telegram News

🧠 ThinkPRM: Новый стандарт в верификации решений через Chain-of-Thought