DS_INTERVIEW_LIB Telegram 595
Объясните, как система может играть в шахматы, используя обучение с подкреплением (reinforcement learning)

Обучение с подкреплением подразумевает наличие среды и агента. Агент выполняет определённые действия для достижения конкретной цели. Каждый раз, когда агент совершает действие, приближающее его к цели, он получает вознаграждение. И каждый раз, когда он делает шаг, отдаляющий его от цели, он получает штраф.

В случае с шахматами агент учится, играя в игру. Система делает ход (совершает действие), проверяет, правильный ли это ход (получает обратную связь) и сохраняет результат для следующего шага (обучается). Вознаграждение даётся за каждый хороший ход, а наказание — за каждый плохой.

#машинное_обучение
😁3



tgoop.com/ds_interview_lib/595
Create:
Last Update:

Объясните, как система может играть в шахматы, используя обучение с подкреплением (reinforcement learning)

Обучение с подкреплением подразумевает наличие среды и агента. Агент выполняет определённые действия для достижения конкретной цели. Каждый раз, когда агент совершает действие, приближающее его к цели, он получает вознаграждение. И каждый раз, когда он делает шаг, отдаляющий его от цели, он получает штраф.

В случае с шахматами агент учится, играя в игру. Система делает ход (совершает действие), проверяет, правильный ли это ход (получает обратную связь) и сохраняет результат для следующего шага (обучается). Вознаграждение даётся за каждый хороший ход, а наказание — за каждый плохой.

#машинное_обучение

BY Библиотека собеса по Data Science | вопросы с собеседований


Share with your friend now:
tgoop.com/ds_interview_lib/595

View MORE
Open in Telegram


Telegram News

Date: |

Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators. Click “Save” ; 4How to customize a Telegram channel? 1What is Telegram Channels? Telegram users themselves will be able to flag and report potentially false content.
from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM American