tgoop.com/bigdata_1/961
Last Update:
🧩 Critique Fine-Tuning (CFT): новая парадигма обучения LLM
Вместо классического Supervised Fine-Tuning (SFT), где модель учится имитировать «правильные» ответы, авторы предлагают Critique Fine-Tuning (CFT) — обучение через генерацию критики к шумным (и часто ошибочным) ответам.
🔬 Суть подхода:
- Вход: (инструкция x + ответ y)
- Цель: сгенерировать содержательную критику c
- Модель обучается анализировать, а не повторять
📦 Данные:
🔹 WebInstruct-CFT (50K) — критику сгенерировал GPT-4o к оригинальным, часто ошибочным ответам
🔹 Также сформированы baseline-наборы:
- WebInstruct-SFT
(ошибочные ответы, 50K)
- WebInstruct-verified
(вручную верифицированные GPT-4o, 50K)
- WebInstruct-GPT-4o
(ответы от GPT-4o, 50K)
Дополнительно:
- WebInstruct-CFT-Tiny
(4K) — для экономного fine-tuning моделей 32B
- Сгенерированы критики к MetaMathQA и NuminaMath
🧠 Обучение:
Модели: Qwen2.5, Qwen2.5-Math, DeepSeekMath (7B и 32B)
Обучение — генерация критики, а не ответов
Формат: concat(x, y) → c
📈 Результаты:
7B модели:
- Qwen2.5-Math-7B (base)
→ 37.8% avg accuracy
- +CFT
→ 56.0% — лучший результат среди 7B
32B модели:
- Qwen2.5–32B-Instruct-CFT (4K)
превзошла Sky-T1–32B-Preview (17K)
🔗 Ресурсы:
- 📄 Blog
- 🛠️ Paper
- 📊 Code
- 📝 Dataset
CFT показывает, что генерация критики — мощный способ учить модели анализу и обоснованности, а не только подражанию. Подход уже сегодня улучшает производительность на математических задачах с ограниченным количеством данных.
👉 @bigdata_1
BY BigData

Share with your friend now:
tgoop.com/bigdata_1/961