Machine learning Interview@machinelearning

Machine learning Interview

🚀 В ByteDance Seed представили новую технику для обучения LLM - Knapsack RL

Проблема: в классическом RL-тренинге распределение rollout-ов идёт равномерно.

✅ Простые задачи всегда решаются → нет градиента

❌ Сложные задачи всегда проваливаются → тоже нет градиента

💡 Решение: рассматривать exploration как задачу рюкзака (knapsack) и распределять вычислительный бюджет туда, где это реально даёт сигнал обучения.

✨ Результаты:

🔼 +20–40% больше ненулевых градиентов

🧮 До 93 rollout-ов на сложные задачи (без доп. вычислений)

📈 +2–4 средних балла, до +9 на пике в математических бенчмарках

💰 ~в 2 раза дешевле, чем равномерное распределение

📄 Подробности: huggingface.co/papers/2509.25849

👍12❤5🔥2

www.tgoop.com/machinelearning_interview/2224

2.16K viewsOct 2 at 10:10

tgoop.com/machinelearning_interview/2224

Create: 2025-10-02
Last Update: 2025-10-04 20:58:34

BY Machine learning Interview

Share with your friend now:
tgoop.com/machinelearning_interview/2224

Telegram News

🚀 В ByteDance Seed представили новую технику для обучения LLM - Knapsack RL