Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/bigdata_1/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
BigData@bigdata_1 P.961
BIGDATA_1 Telegram 961
🧩 Critique Fine-Tuning (CFT): новая парадигма обучения LLM

Вместо классического Supervised Fine-Tuning (SFT), где модель учится имитировать «правильные» ответы, авторы предлагают Critique Fine-Tuning (CFT) — обучение через генерацию критики к шумным (и часто ошибочным) ответам.

🔬 Суть подхода:
- Вход: (инструкция x + ответ y)
- Цель: сгенерировать содержательную критику c
- Модель обучается анализировать, а не повторять


📦 Данные:
🔹 WebInstruct-CFT (50K) — критику сгенерировал GPT-4o к оригинальным, часто ошибочным ответам
🔹 Также сформированы baseline-наборы:
- WebInstruct-SFT (ошибочные ответы, 50K)
- WebInstruct-verified (вручную верифицированные GPT-4o, 50K)
- WebInstruct-GPT-4o (ответы от GPT-4o, 50K)

Дополнительно:
- WebInstruct-CFT-Tiny (4K) — для экономного fine-tuning моделей 32B
- Сгенерированы критики к MetaMathQA и NuminaMath


🧠 Обучение:
Модели: Qwen2.5, Qwen2.5-Math, DeepSeekMath (7B и 32B)

Обучение — генерация критики, а не ответов
Формат: concat(x, y) → c


📈 Результаты:
7B модели:
- Qwen2.5-Math-7B (base) → 37.8% avg accuracy
- +CFT56.0% — лучший результат среди 7B

32B модели:
- Qwen2.5–32B-Instruct-CFT (4K) превзошла Sky-T1–32B-Preview (17K)


🔗 Ресурсы:
- 📄 Blog
- 🛠️ Paper
- 📊 Code
- 📝 Dataset

CFT показывает, что генерация критики — мощный способ учить модели анализу и обоснованности, а не только подражанию. Подход уже сегодня улучшает производительность на математических задачах с ограниченным количеством данных.

👉 @bigdata_1



tgoop.com/bigdata_1/961
Create:
Last Update:

🧩 Critique Fine-Tuning (CFT): новая парадигма обучения LLM

Вместо классического Supervised Fine-Tuning (SFT), где модель учится имитировать «правильные» ответы, авторы предлагают Critique Fine-Tuning (CFT) — обучение через генерацию критики к шумным (и часто ошибочным) ответам.

🔬 Суть подхода:
- Вход: (инструкция x + ответ y)
- Цель: сгенерировать содержательную критику c
- Модель обучается анализировать, а не повторять


📦 Данные:
🔹 WebInstruct-CFT (50K) — критику сгенерировал GPT-4o к оригинальным, часто ошибочным ответам
🔹 Также сформированы baseline-наборы:
- WebInstruct-SFT (ошибочные ответы, 50K)
- WebInstruct-verified (вручную верифицированные GPT-4o, 50K)
- WebInstruct-GPT-4o (ответы от GPT-4o, 50K)

Дополнительно:
- WebInstruct-CFT-Tiny (4K) — для экономного fine-tuning моделей 32B
- Сгенерированы критики к MetaMathQA и NuminaMath


🧠 Обучение:
Модели: Qwen2.5, Qwen2.5-Math, DeepSeekMath (7B и 32B)

Обучение — генерация критики, а не ответов
Формат: concat(x, y) → c


📈 Результаты:
7B модели:
- Qwen2.5-Math-7B (base) → 37.8% avg accuracy
- +CFT56.0% — лучший результат среди 7B

32B модели:
- Qwen2.5–32B-Instruct-CFT (4K) превзошла Sky-T1–32B-Preview (17K)


🔗 Ресурсы:
- 📄 Blog
- 🛠️ Paper
- 📊 Code
- 📝 Dataset

CFT показывает, что генерация критики — мощный способ учить модели анализу и обоснованности, а не только подражанию. Подход уже сегодня улучшает производительность на математических задачах с ограниченным количеством данных.

👉 @bigdata_1

BY BigData




Share with your friend now:
tgoop.com/bigdata_1/961

View MORE
Open in Telegram


Telegram News

Date: |

“Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group. Step-by-step tutorial on desktop: Avoid compound hashtags that consist of several words. If you have a hashtag like #marketingnewsinusa, split it into smaller hashtags: “#marketing, #news, #usa. A new window will come up. Enter your channel name and bio. (See the character limits above.) Click “Create.” Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020.
from us


Telegram BigData
FROM American