MACHINELEARNING_RU Telegram 2900
♟️ UC Berkeley: RL чуть улучшает шахматную тактику LLM, но не учит стратегии

В работе обучали Qwen2.5 3B и 7B, а также Llama3.1 8B с Group Relative Policy Optimization. Каждое действие оценивалось с помощью заранее обученного «шахматного критика» — трансформера на 270M параметров, натренированного на 15 млрд позиций со Stockfish-оценками. Такой критик даёт плотную (dense) и градуированную награду — не просто «верно/неверно», а вероятность победы.

📈 Результаты
- Dense-награда ускоряет обучение и даёт лучшие результаты, чем чистый supervised fine tuning.
- Но точность на шахматных задачах упирается в 25–30% (против 66.5% у 1800 ELO), вне зависимости от модели.
- Добавление reasoning-трейсов от более сильной модели при SFT потолок не пробивает, а иногда даже ухудшает результат.

🔍 Почему потолок
- Модели не могут надёжно «держать в голове» позицию и применять базовую тактику.
- В тестах: на задаче обновления доски — 0.0% у всех, на задаче «мат в 1» (2 варианта ответа) — Instruct-модели ~52%, базовые — 12.7–42.7%.

⚙️ Анализ
- Моделям нужно «ведение за руку» — без списка легальных ходов обучение рушится.
- SAN (Standard Algebraic Notation) лучше UCI, формат FEN vs PGN не влияет.

💡 Вывод
RL в основном усиливает то, что уже есть после предобучения. Без глубоких шахматных знаний на этапе пре-трейна LLM не способны строить стабильные долгосрочные планы.

https://arxiv.org/abs/2507.00726
4👍3🥰1



tgoop.com/machinelearning_ru/2900
Create:
Last Update:

♟️ UC Berkeley: RL чуть улучшает шахматную тактику LLM, но не учит стратегии

В работе обучали Qwen2.5 3B и 7B, а также Llama3.1 8B с Group Relative Policy Optimization. Каждое действие оценивалось с помощью заранее обученного «шахматного критика» — трансформера на 270M параметров, натренированного на 15 млрд позиций со Stockfish-оценками. Такой критик даёт плотную (dense) и градуированную награду — не просто «верно/неверно», а вероятность победы.

📈 Результаты
- Dense-награда ускоряет обучение и даёт лучшие результаты, чем чистый supervised fine tuning.
- Но точность на шахматных задачах упирается в 25–30% (против 66.5% у 1800 ELO), вне зависимости от модели.
- Добавление reasoning-трейсов от более сильной модели при SFT потолок не пробивает, а иногда даже ухудшает результат.

🔍 Почему потолок
- Модели не могут надёжно «держать в голове» позицию и применять базовую тактику.
- В тестах: на задаче обновления доски — 0.0% у всех, на задаче «мат в 1» (2 варианта ответа) — Instruct-модели ~52%, базовые — 12.7–42.7%.

⚙️ Анализ
- Моделям нужно «ведение за руку» — без списка легальных ходов обучение рушится.
- SAN (Standard Algebraic Notation) лучше UCI, формат FEN vs PGN не влияет.

💡 Вывод
RL в основном усиливает то, что уже есть после предобучения. Без глубоких шахматных знаний на этапе пре-трейна LLM не способны строить стабильные долгосрочные планы.

https://arxiv.org/abs/2507.00726

BY Машинное обучение RU




Share with your friend now:
tgoop.com/machinelearning_ru/2900

View MORE
Open in Telegram


Telegram News

Date: |

How to build a private or public channel on Telegram? ‘Ban’ on Telegram A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first. Healing through screaming therapy The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said.
from us


Telegram Машинное обучение RU
FROM American