KANTOR_AI Telegram 589
Мучал тут СhatGPT на тему алгоритмов reinforcement learning, и заметил, что он ловко опустил константу в policy gradient theorem, которая возникает при избавлении от суммы по шагам в траектории.

Спрашиваю: ты же константу засунул в размер шага градиентного подъема? Он такой: нет, что вы, тут точная формула, а константу я засунул в распределение состояний. Спрашиваю - но ведь если распределение домножить на константу, отличную от единицы, ты испортишь нормировку, как так? Говорит - ну можно матожидание по любой мере написать, даже с точностью до константы, а на константу пофиг, ведь направление градиента то же, и можно считать, что константа ушла в размер шага 😂

По скорости переобувки напомнило либо студента на экзамене, либо очень большого начальника
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁69🤩15👍8💯3🔥1



tgoop.com/kantor_ai/589
Create:
Last Update:

Мучал тут СhatGPT на тему алгоритмов reinforcement learning, и заметил, что он ловко опустил константу в policy gradient theorem, которая возникает при избавлении от суммы по шагам в траектории.

Спрашиваю: ты же константу засунул в размер шага градиентного подъема? Он такой: нет, что вы, тут точная формула, а константу я засунул в распределение состояний. Спрашиваю - но ведь если распределение домножить на константу, отличную от единицы, ты испортишь нормировку, как так? Говорит - ну можно матожидание по любой мере написать, даже с точностью до константы, а на константу пофиг, ведь направление градиента то же, и можно считать, что константа ушла в размер шага 😂

По скорости переобувки напомнило либо студента на экзамене, либо очень большого начальника

BY Kantor.AI


Share with your friend now:
tgoop.com/kantor_ai/589

View MORE
Open in Telegram


Telegram News

Date: |

Don’t publish new content at nighttime. Since not all users disable notifications for the night, you risk inadvertently disturbing them. How to build a private or public channel on Telegram? Add up to 50 administrators Ng was convicted in April for conspiracy to incite a riot, public nuisance, arson, criminal damage, manufacturing of explosives, administering poison and wounding with intent to do grievous bodily harm between October 2019 and June 2020. A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first.
from br


Telegram Kantor.AI
FROM Brazil