tgoop.com/bigdata_1/957
Last Update:
🧠 Agentic Reward Modeling — новый подход к обучению LLM, который объединяет человеческие предпочтения с проверяемыми сигналами корректности (фактология и следование инструкциям) для более надежных и точных наград.
🔧 Реализован в виде агента RewardAgent, состоящего из:
- Маршрутизатора — решает, какие проверки запускать
- Агентов верификации — проверяют факты и выполнение инструкций
- Оценщика — объединяет результаты в финальную награду
📊 В экспериментах на GPT-4o-mini и Llama3–8B Instruct:
✅ Существенное улучшение по сравнению с базовой моделью вознаграждений (ArmoRM)
🔍 Проверка фактологии — через Google API и параметры LLM
🧾 Инструкции проверяются даже с помощью Python-кода
Blog: https://medium.com/@techsachin/agentic-reward-modeling-combine-human-preferences-with-verifiable-correctness-signals-for-reliable-76c408b3491c
Paper: https://arxiv.org/abs/2502.19328
Code: https://github.com/THU-KEG/Agentic-Reward-Modeling
👉 @bigdata_1
BY BigData

Share with your friend now:
tgoop.com/bigdata_1/957