Machine learning Interview@machinelearning_interview P.2149

MACHINELEARNING_INTERVIEW Telegram 2149

Machine learning Interview

🚀 Новая работа по обучению моделей с ограниченным бюджетом разметки: Group Relative Policy Optimization (GRPO)

💡 Идея проста: самые большие улучшения достигаются, если обучать модель именно на самых сложных задачах.

Что показали эксперименты:
- 📈 +30–40 баллов на reasoning-задачах
- 🔥 +20% lift на out-of-distribution тестах
- ✅ Только hardest 10% данных даёт лучший результат, чем easy, middle или случайный выбор

Как это работает:
- Трудность задачи оценивается по *pass rate* — сколько ответов base-модели проходят из нескольких сэмплов
- Промпты ранжируются на easy / middle / hard
- GRPO обучается только на hard-срезе
- Обучение идёт за счёт нескольких rollout’ов: награда выдаётся только тем, кто превысил средний уровень группы
- На лёгких задачах сигнал быстро исчезает, на сложных остаётся вариативность и полезные градиенты

📊 Результаты:
- GSM8K, Tracking Shuffled Objects → hardest 10% всегда лучше остальных
- AIME-2025 → только hard-обученная модель превзошла base, с ~20% приростом

🔑 Практическое правило: покупайте задачи, которые базовая модель *редко* решает, но *иногда* угадывает правильно. Именно они приносят максимальную отдачу.

🟢

Paper: https://arxiv.org/abs/2508.14094

🟢

Github: https://github.com/Pikus16/grpo_difficulty

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14❤6🥰3👌1

www.tgoop.com/machinelearning_interview/2149

4.58K viewsSep 5 at 14:21

tgoop.com/machinelearning_interview/2149

Create: 2025-09-05
Last Update: 2025-10-17 00:42:10

🚀 Новая работа по обучению моделей с ограниченным бюджетом разметки: Group Relative Policy Optimization (GRPO)

💡 Идея проста: самые большие улучшения достигаются, если обучать модель именно на самых сложных задачах.

Что показали эксперименты:
- 📈 +30–40 баллов на reasoning-задачах
- 🔥 +20% lift на out-of-distribution тестах
- ✅ Только hardest 10% данных даёт лучший результат, чем easy, middle или случайный выбор

Как это работает:
- Трудность задачи оценивается по *pass rate* — сколько ответов base-модели проходят из нескольких сэмплов
- Промпты ранжируются на easy / middle / hard
- GRPO обучается только на hard-срезе
- Обучение идёт за счёт нескольких rollout’ов: награда выдаётся только тем, кто превысил средний уровень группы
- На лёгких задачах сигнал быстро исчезает, на сложных остаётся вариативность и полезные градиенты

📊 Результаты:
- GSM8K, Tracking Shuffled Objects → hardest 10% всегда лучше остальных
- AIME-2025 → только hard-обученная модель превзошла base, с ~20% приростом

🔑 Практическое правило: покупайте задачи, которые базовая модель *редко* решает, но *иногда* угадывает правильно. Именно они приносят максимальную отдачу.

🟢Paper: https://arxiv.org/abs/2508.14094
🟢Github: https://github.com/Pikus16/grpo_difficulty

BY Machine learning Interview

Share with your friend now:
tgoop.com/machinelearning_interview/2149

Open in Telegram

Telegram News

Date: 2025-10-17|

Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select “New Channel” from the drop-down menu. But a Telegram statement also said: "Any requests related to political censorship or limiting human rights such as the rights to free speech or assembly are not and will not be considered." Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators. With the administration mulling over limiting access to doxxing groups, a prominent Telegram doxxing group apparently went on a "revenge spree." It’s easy to create a Telegram channel via desktop app or mobile app (for Android and iOS):
from us

Telegram Machine learning Interview
FROM American