BIGDATA_1 Telegram 962
EvalPlanner: модель Thinking-LLM-as-a-Judge, которая учится думать путём планирования и рассуждения при оценке

Модели LLM-as-a-Judge (LLM в роли судьи) генерируют цепочки рассуждений (Chain-of-Thought, CoT), отражающие пошаговый процесс размышлений, лежащий в основе финальной оценки ответа. Однако отсутствие размеченных вручную цепочек CoT затрудняет обучение таких моделей.

Чтобы решить эту проблему, в данной работе представлена EvalPlanner — алгоритм оптимизации предпочтений для Thinking-LLM-as-a-Judge. Он сначала генерирует неограниченный план оценки, затем исполняет его, и только потом выносит итоговый вердикт.


Компоненты
EvalPlanner предполагает, что эффективная цепочка рассуждений для оценки должна состоять из трёх компонентов:

1. План оценки z
— Для данной инструкции план задаёт рецепт оценки предложенных ответов на инструкцию.

2. Исполнение плана
— Отвечает за пошаговое проведение оценки по плану, анализируя пару ответов (a и b) и формируя итоговое суждение y.

3. Итоговый вердикт
— При использовании LLM в роли судьи, параметризованной θ, план z и исполнение e считаются скрытыми переменными.


Генерация синтетических обучающих данных

1. Выбираются общие инструкции и задачи на математическое рассуждение, и генерируются пары ответов.
2. Создаётся универсальный и неограниченный промпт для генерации плана, который задаётся модели-источнику, основываясь только на инструкции.
3. Та же модель-источник используется для выполнения плана на основе инструкции и пары ответов с целью получения вердикта.
4. Формируются пары предпочтений между планами и их исполнениями.


Оптимизация предпочтений планов и исполнений

Включает цикл самообучения:
- Начинается с модели-источника, на которой проводится SFT (Supervised Fine-Tuning) на подмножестве «выбранных» CoT, чтобы получить модель \( M₁^{SFT} \).
- Затем выполняются две итерации Direct Preference Optimization (DPO) на парах предпочтений CoT, в результате чего получаются модели \( M₁^{DPO} \) и \( M₂^{DPO} \).


Результаты

- EvalPlanner достигает нового SOTA (state-of-the-art) результата для генеративных reward-моделей на бенчмарке RewardBench (со счётом 93.9), несмотря на меньшее количество и синтетическую природу пар предпочтений.
- Планы EvalPlanner адаптированы под конкретную инструкцию, эффективны с точки зрения данных и выигрывают от итеративной оптимизации рассуждений.

- 📄 Blog
- 🛠️ Paper

👉 @bigdata_1
👍1



tgoop.com/bigdata_1/962
Create:
Last Update:

EvalPlanner: модель Thinking-LLM-as-a-Judge, которая учится думать путём планирования и рассуждения при оценке

Модели LLM-as-a-Judge (LLM в роли судьи) генерируют цепочки рассуждений (Chain-of-Thought, CoT), отражающие пошаговый процесс размышлений, лежащий в основе финальной оценки ответа. Однако отсутствие размеченных вручную цепочек CoT затрудняет обучение таких моделей.

Чтобы решить эту проблему, в данной работе представлена EvalPlanner — алгоритм оптимизации предпочтений для Thinking-LLM-as-a-Judge. Он сначала генерирует неограниченный план оценки, затем исполняет его, и только потом выносит итоговый вердикт.


Компоненты
EvalPlanner предполагает, что эффективная цепочка рассуждений для оценки должна состоять из трёх компонентов:

1. План оценки z
— Для данной инструкции план задаёт рецепт оценки предложенных ответов на инструкцию.

2. Исполнение плана
— Отвечает за пошаговое проведение оценки по плану, анализируя пару ответов (a и b) и формируя итоговое суждение y.

3. Итоговый вердикт
— При использовании LLM в роли судьи, параметризованной θ, план z и исполнение e считаются скрытыми переменными.


Генерация синтетических обучающих данных

1. Выбираются общие инструкции и задачи на математическое рассуждение, и генерируются пары ответов.
2. Создаётся универсальный и неограниченный промпт для генерации плана, который задаётся модели-источнику, основываясь только на инструкции.
3. Та же модель-источник используется для выполнения плана на основе инструкции и пары ответов с целью получения вердикта.
4. Формируются пары предпочтений между планами и их исполнениями.


Оптимизация предпочтений планов и исполнений

Включает цикл самообучения:
- Начинается с модели-источника, на которой проводится SFT (Supervised Fine-Tuning) на подмножестве «выбранных» CoT, чтобы получить модель \( M₁^{SFT} \).
- Затем выполняются две итерации Direct Preference Optimization (DPO) на парах предпочтений CoT, в результате чего получаются модели \( M₁^{DPO} \) и \( M₂^{DPO} \).


Результаты

- EvalPlanner достигает нового SOTA (state-of-the-art) результата для генеративных reward-моделей на бенчмарке RewardBench (со счётом 93.9), несмотря на меньшее количество и синтетическую природу пар предпочтений.
- Планы EvalPlanner адаптированы под конкретную инструкцию, эффективны с точки зрения данных и выигрывают от итеративной оптимизации рассуждений.

- 📄 Blog
- 🛠️ Paper

👉 @bigdata_1

BY BigData




Share with your friend now:
tgoop.com/bigdata_1/962

View MORE
Open in Telegram


Telegram News

Date: |

The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.” The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information. fire bomb molotov November 18 Dylan Hollingsworth yau ma tei With Bitcoin down 30% in the past week, some crypto traders have taken to Telegram to “voice” their feelings. How to create a business channel on Telegram? (Tutorial)
from us


Telegram BigData
FROM American