BIGDATA_1 Telegram 961
🧩 Critique Fine-Tuning (CFT): новая парадигма обучения LLM

Вместо классического Supervised Fine-Tuning (SFT), где модель учится имитировать «правильные» ответы, авторы предлагают Critique Fine-Tuning (CFT) — обучение через генерацию критики к шумным (и часто ошибочным) ответам.

🔬 Суть подхода:
- Вход: (инструкция x + ответ y)
- Цель: сгенерировать содержательную критику c
- Модель обучается анализировать, а не повторять


📦 Данные:
🔹 WebInstruct-CFT (50K) — критику сгенерировал GPT-4o к оригинальным, часто ошибочным ответам
🔹 Также сформированы baseline-наборы:
- WebInstruct-SFT (ошибочные ответы, 50K)
- WebInstruct-verified (вручную верифицированные GPT-4o, 50K)
- WebInstruct-GPT-4o (ответы от GPT-4o, 50K)

Дополнительно:
- WebInstruct-CFT-Tiny (4K) — для экономного fine-tuning моделей 32B
- Сгенерированы критики к MetaMathQA и NuminaMath


🧠 Обучение:
Модели: Qwen2.5, Qwen2.5-Math, DeepSeekMath (7B и 32B)

Обучение — генерация критики, а не ответов
Формат: concat(x, y) → c


📈 Результаты:
7B модели:
- Qwen2.5-Math-7B (base) → 37.8% avg accuracy
- +CFT56.0% — лучший результат среди 7B

32B модели:
- Qwen2.5–32B-Instruct-CFT (4K) превзошла Sky-T1–32B-Preview (17K)


🔗 Ресурсы:
- 📄 Blog
- 🛠️ Paper
- 📊 Code
- 📝 Dataset

CFT показывает, что генерация критики — мощный способ учить модели анализу и обоснованности, а не только подражанию. Подход уже сегодня улучшает производительность на математических задачах с ограниченным количеством данных.

👉 @bigdata_1
👍3



tgoop.com/bigdata_1/961
Create:
Last Update:

🧩 Critique Fine-Tuning (CFT): новая парадигма обучения LLM

Вместо классического Supervised Fine-Tuning (SFT), где модель учится имитировать «правильные» ответы, авторы предлагают Critique Fine-Tuning (CFT) — обучение через генерацию критики к шумным (и часто ошибочным) ответам.

🔬 Суть подхода:
- Вход: (инструкция x + ответ y)
- Цель: сгенерировать содержательную критику c
- Модель обучается анализировать, а не повторять


📦 Данные:
🔹 WebInstruct-CFT (50K) — критику сгенерировал GPT-4o к оригинальным, часто ошибочным ответам
🔹 Также сформированы baseline-наборы:
- WebInstruct-SFT (ошибочные ответы, 50K)
- WebInstruct-verified (вручную верифицированные GPT-4o, 50K)
- WebInstruct-GPT-4o (ответы от GPT-4o, 50K)

Дополнительно:
- WebInstruct-CFT-Tiny (4K) — для экономного fine-tuning моделей 32B
- Сгенерированы критики к MetaMathQA и NuminaMath


🧠 Обучение:
Модели: Qwen2.5, Qwen2.5-Math, DeepSeekMath (7B и 32B)

Обучение — генерация критики, а не ответов
Формат: concat(x, y) → c


📈 Результаты:
7B модели:
- Qwen2.5-Math-7B (base) → 37.8% avg accuracy
- +CFT56.0% — лучший результат среди 7B

32B модели:
- Qwen2.5–32B-Instruct-CFT (4K) превзошла Sky-T1–32B-Preview (17K)


🔗 Ресурсы:
- 📄 Blog
- 🛠️ Paper
- 📊 Code
- 📝 Dataset

CFT показывает, что генерация критики — мощный способ учить модели анализу и обоснованности, а не только подражанию. Подход уже сегодня улучшает производительность на математических задачах с ограниченным количеством данных.

👉 @bigdata_1

BY BigData




Share with your friend now:
tgoop.com/bigdata_1/961

View MORE
Open in Telegram


Telegram News

Date: |

Concise The creator of the channel becomes its administrator by default. If you need help managing your channel, you can add more administrators from your subscriber base. You can provide each admin with limited or full rights to manage the channel. For example, you can allow an administrator to publish and edit content while withholding the right to add new subscribers. 4How to customize a Telegram channel? Today, we will address Telegram channels and how to use them for maximum benefit. The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information.
from us


Telegram BigData
FROM American