MACHINELEARNING_INTERVIEW Telegram 2224
🚀 В ByteDance Seed представили новую технику для обучения LLM - Knapsack RL

Проблема: в классическом RL-тренинге распределение rollout-ов идёт равномерно.

Простые задачи всегда решаются → нет градиента

Сложные задачи всегда проваливаются → тоже нет градиента

💡 Решение: рассматривать exploration как задачу рюкзака (knapsack) и распределять вычислительный бюджет туда, где это реально даёт сигнал обучения.

Результаты:

🔼 +20–40% больше ненулевых градиентов

🧮 До 93 rollout-ов на сложные задачи (без доп. вычислений)

📈 +2–4 средних балла, до +9 на пике в математических бенчмарках

💰 ~в 2 раза дешевле, чем равномерное распределение

📄 Подробности: huggingface.co/papers/2509.25849
👍125🔥2



tgoop.com/machinelearning_interview/2224
Create:
Last Update:

🚀 В ByteDance Seed представили новую технику для обучения LLM - Knapsack RL

Проблема: в классическом RL-тренинге распределение rollout-ов идёт равномерно.

Простые задачи всегда решаются → нет градиента

Сложные задачи всегда проваливаются → тоже нет градиента

💡 Решение: рассматривать exploration как задачу рюкзака (knapsack) и распределять вычислительный бюджет туда, где это реально даёт сигнал обучения.

Результаты:

🔼 +20–40% больше ненулевых градиентов

🧮 До 93 rollout-ов на сложные задачи (без доп. вычислений)

📈 +2–4 средних балла, до +9 на пике в математических бенчмарках

💰 ~в 2 раза дешевле, чем равномерное распределение

📄 Подробности: huggingface.co/papers/2509.25849

BY Machine learning Interview





Share with your friend now:
tgoop.com/machinelearning_interview/2224

View MORE
Open in Telegram


Telegram News

Date: |

Judge Hui described Ng as inciting others to “commit a massacre” with three posts teaching people to make “toxic chlorine gas bombs,” target police stations, police quarters and the city’s metro stations. This offence was “rather serious,” the court said. Choose quality over quantity. Remember that one high-quality post is better than five short publications of questionable value. Concise Hashtags
from us


Telegram Machine learning Interview
FROM American