INSIDE_AI_TECH Telegram 48
Что такое RL-агенты и как они работают?

Reinforcement Learning (RL) — подход, в котором модель обучается действовать в среде, получая положительные и отрицательные награды. Система учится получать максимальную суммарную награду за весь процесс, а не в моменте. Какие-то действия могут приводить к отрицательной награде, но суммарный результат все равно будет лучше. Понятный пример — «инвестиции»: в процессе где-то мы теряем, но в сумме по итогу стремимся получить больше, чем вложили.

Пример классической задачи для RL — CartPole

RL-агенту нужно сбалансировать шест на движущейся тележке. Как это выглядит, можно посмотреть по ссылке. Агент получает числовое «фото»: где находится тележка, с какой скоростью она едет, под каким углом наклонён шест.
У агента есть два действия на выбор: толкнуть тележку влево или вправо. Если шест не упал, а тележка не выехала за край, агент получает награду и запоминает ситуацию.

После тысяч итераций алгоритм подстраивает свою внутреннюю политику под максимизацию награды — учится заранее определять наклон шеста и двигаться так, чтобы он не упал. За счет подкрепления бонусами и постоянной обратной связи у агента рождается устойчивое чувство равновесия.

Почему CartPole решает RL, а не обычная ML или LLM

CartPole — это не разовая классификация «картинка → ярлык», а динамическая игра, где каждое действие влияет на будущие состояния. У нас нет готовых «правильных ответов» для каждого кадра, зато есть цепочка наград за долговременное удержание шеста. RL учится на последовательных взаимодействиях и оптимизирует политику под накопленную награду. Классический ML на статичном датасете не справится с задачей, так как не поймет, что считать успехом.

Между RL агентами и LLM агентами можно провести параллель:

RL-агент перебирает доступные действия, чтобы заработать максимальную награду.
LLM-агент делает то же самое, только его «действия» — это выбор генерировать ответ на основе текущей информации или вызвать дополнительные инструменты (search, code-exec, image-ген), которые изменяют информационную среду и приближают агента к лучшему ответу.

В обычной жизни вы уже сталкивались с RL, но могли не знать об этом:

Роботы — учатся хватать предметы или ходить на ногах.
Автопилоты — просчитывают траектории, избегают столкновений, адаптируются в реальном времени.
Игровые боты — побеждают людей, потому что играют миллионы матчей и учатся на каждом.

Почему мы решили упомянуть про RL? Алгоритм reinforcement learning from human feedback (RLHF) позволил GPT следовать инструкциям и превратиться в универсальный инструмент, которым сегодня пользуются миллиарды людей — ChatGPT от OpenAI, Claude от Anthropic, Gemini, Grok и далее. С помощью такого подхода можно fine tune”ить модели и обучать их решать более сложные “агентские” задачи, но об этом в следующих постах.
🔥96👍5



tgoop.com/inside_ai_tech/48
Create:
Last Update:

Что такое RL-агенты и как они работают?

Reinforcement Learning (RL) — подход, в котором модель обучается действовать в среде, получая положительные и отрицательные награды. Система учится получать максимальную суммарную награду за весь процесс, а не в моменте. Какие-то действия могут приводить к отрицательной награде, но суммарный результат все равно будет лучше. Понятный пример — «инвестиции»: в процессе где-то мы теряем, но в сумме по итогу стремимся получить больше, чем вложили.

Пример классической задачи для RL — CartPole

RL-агенту нужно сбалансировать шест на движущейся тележке. Как это выглядит, можно посмотреть по ссылке. Агент получает числовое «фото»: где находится тележка, с какой скоростью она едет, под каким углом наклонён шест.
У агента есть два действия на выбор: толкнуть тележку влево или вправо. Если шест не упал, а тележка не выехала за край, агент получает награду и запоминает ситуацию.

После тысяч итераций алгоритм подстраивает свою внутреннюю политику под максимизацию награды — учится заранее определять наклон шеста и двигаться так, чтобы он не упал. За счет подкрепления бонусами и постоянной обратной связи у агента рождается устойчивое чувство равновесия.

Почему CartPole решает RL, а не обычная ML или LLM

CartPole — это не разовая классификация «картинка → ярлык», а динамическая игра, где каждое действие влияет на будущие состояния. У нас нет готовых «правильных ответов» для каждого кадра, зато есть цепочка наград за долговременное удержание шеста. RL учится на последовательных взаимодействиях и оптимизирует политику под накопленную награду. Классический ML на статичном датасете не справится с задачей, так как не поймет, что считать успехом.

Между RL агентами и LLM агентами можно провести параллель:

RL-агент перебирает доступные действия, чтобы заработать максимальную награду.
LLM-агент делает то же самое, только его «действия» — это выбор генерировать ответ на основе текущей информации или вызвать дополнительные инструменты (search, code-exec, image-ген), которые изменяют информационную среду и приближают агента к лучшему ответу.

В обычной жизни вы уже сталкивались с RL, но могли не знать об этом:

Роботы — учатся хватать предметы или ходить на ногах.
Автопилоты — просчитывают траектории, избегают столкновений, адаптируются в реальном времени.
Игровые боты — побеждают людей, потому что играют миллионы матчей и учатся на каждом.

Почему мы решили упомянуть про RL? Алгоритм reinforcement learning from human feedback (RLHF) позволил GPT следовать инструкциям и превратиться в универсальный инструмент, которым сегодня пользуются миллиарды людей — ChatGPT от OpenAI, Claude от Anthropic, Gemini, Grok и далее. С помощью такого подхода можно fine tune”ить модели и обучать их решать более сложные “агентские” задачи, но об этом в следующих постах.

BY Внутри AI | Кейсы ИИ Агентов в бизнесе


Share with your friend now:
tgoop.com/inside_ai_tech/48

View MORE
Open in Telegram


Telegram News

Date: |

The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.” Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator. Polls Telegram is a leading cloud-based instant messages platform. It became popular in recent years for its privacy, speed, voice and video quality, and other unmatched features over its main competitor Whatsapp. As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces.
from us


Telegram Внутри AI | Кейсы ИИ Агентов в бизнесе
FROM American