MACHINELEARNING_INTERVIEW Telegram 2223
🚀 В ByteDance Seed представили новую технику для обучения LLM - Knapsack RL

Проблема: в классическом RL-тренинге распределение rollout-ов идёт равномерно.

Простые задачи всегда решаются → нет градиента

Сложные задачи всегда проваливаются → тоже нет градиента

💡 Решение: рассматривать exploration как задачу рюкзака (knapsack) и распределять вычислительный бюджет туда, где это реально даёт сигнал обучения.

Результаты:

🔼 +20–40% больше ненулевых градиентов

🧮 До 93 rollout-ов на сложные задачи (без доп. вычислений)

📈 +2–4 средних балла, до +9 на пике в математических бенчмарках

💰 ~в 2 раза дешевле, чем равномерное распределение

📄 Подробности: huggingface.co/papers/2509.25849
👍125🔥2



tgoop.com/machinelearning_interview/2223
Create:
Last Update:

🚀 В ByteDance Seed представили новую технику для обучения LLM - Knapsack RL

Проблема: в классическом RL-тренинге распределение rollout-ов идёт равномерно.

Простые задачи всегда решаются → нет градиента

Сложные задачи всегда проваливаются → тоже нет градиента

💡 Решение: рассматривать exploration как задачу рюкзака (knapsack) и распределять вычислительный бюджет туда, где это реально даёт сигнал обучения.

Результаты:

🔼 +20–40% больше ненулевых градиентов

🧮 До 93 rollout-ов на сложные задачи (без доп. вычислений)

📈 +2–4 средних балла, до +9 на пике в математических бенчмарках

💰 ~в 2 раза дешевле, чем равномерное распределение

📄 Подробности: huggingface.co/papers/2509.25849

BY Machine learning Interview





Share with your friend now:
tgoop.com/machinelearning_interview/2223

View MORE
Open in Telegram


Telegram News

Date: |

Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members. Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.” While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020. Matt Hussey, editorial director at NEAR Protocol also responded to this news with “#meIRL”. Just as you search “Bear Market Screaming” in Telegram, you will see a Pepe frog yelling as the group’s featured image.
from us


Telegram Machine learning Interview
FROM American