Что вы знаете о проблемах взрывающегося и затухающего градиента?

Библиотека собеса по Data Science | вопросы с собеседований

Что вы знаете о проблемах взрывающегося и затухающего градиента?

▪️Взрывающийся градиент

Эта проблема возникает, когда градиенты функции потерь начинают расти экспоненциально во время обучения. В результате это приводит к тому, что веса становятся огромными и приходят в NaN. Конечно, сеть с такими параметрами не может моделировать зависимости корректно.

Почему это происходит?

Если говорить о математических причинах, то это случается, когда произведение частных производных функции активации и весов на каждом слое превышает единицу. Если матрица весов W имеет большое собственное значение, то при умножении этого значения на градиенты потерь происходит экспоненциальный рост величины градиентов.

▪️Исчезающий градиент

Это проблема, обратная предыдущей. Градиенты функции потерь наоборот становятся слишком маленькими, близкими к нулю, и веса нейросети в принципе перестают обновляться. При таких условиях качество работы модели не растёт.

Почему это происходит?

Исчезающий градиент возникает, когда произведение частных производных функции активации и весов на каждом слое меньше единицы. В этом случае градиенты уменьшаются экспоненциально по мере прохождения через каждый слой сети. В конечном итоге, градиенты становятся настолько малыми, что обновления весов практически не происходят.

#машинное_обучение

❤9🔥5👍1

www.tgoop.com/ds_interview_lib/437

1.17K viewsJun 17, 2024 at 12:02

tgoop.com/ds_interview_lib/437

Create: 2024-06-17
Last Update: 2025-07-14 09:20:55

BY Библиотека собеса по Data Science | вопросы с собеседований

Share with your friend now:
tgoop.com/ds_interview_lib/437

Telegram News

Что вы знаете о проблемах взрывающегося и затухающего градиента?