DS_INTERVIEW_LIB Telegram 940
Как размер батча взаимодействует с Batch Normalization и может ли он негативно повлиять на статистику слоя

При использовании слоёв Batch Normalization среднее значение и дисперсия обычно вычисляются по каждому мини-батчу.

🟧 Если размер батча слишком маленький, вычисленные средние и дисперсии могут быть очень шумными, что приводит к нестабильному обучению и плохой сходимости модели.

🟧 С другой стороны, если батч слишком большой, статистики становятся очень стабильными, но могут не отражать разнообразие подраспределений в данных. Это снижает способность модели быть устойчивой к изменениям распределения входных данных.

🔎 Тонкий момент — поведение модели при переходе в режим инференса. В этом режиме вместо статистик текущего батча используются накопленные скользящие средние. Если в процессе обучения использовались очень большие батчи, эти усреднённые значения могут оказаться слишком «узкими» и не охватывать полное распределение данных. В результате модель может плохо работать на реальных данных, распределение которых отличается от обучающего.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/ds_interview_lib/940
Create:
Last Update:

Как размер батча взаимодействует с Batch Normalization и может ли он негативно повлиять на статистику слоя

При использовании слоёв Batch Normalization среднее значение и дисперсия обычно вычисляются по каждому мини-батчу.

🟧 Если размер батча слишком маленький, вычисленные средние и дисперсии могут быть очень шумными, что приводит к нестабильному обучению и плохой сходимости модели.

🟧 С другой стороны, если батч слишком большой, статистики становятся очень стабильными, но могут не отражать разнообразие подраспределений в данных. Это снижает способность модели быть устойчивой к изменениям распределения входных данных.

🔎 Тонкий момент — поведение модели при переходе в режим инференса. В этом режиме вместо статистик текущего батча используются накопленные скользящие средние. Если в процессе обучения использовались очень большие батчи, эти усреднённые значения могут оказаться слишком «узкими» и не охватывать полное распределение данных. В результате модель может плохо работать на реальных данных, распределение которых отличается от обучающего.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Share with your friend now:
tgoop.com/ds_interview_lib/940

View MORE
Open in Telegram


Telegram News

Date: |

SUCK Channel Telegram So far, more than a dozen different members have contributed to the group, posting voice notes of themselves screaming, yelling, groaning, and wailing in various pitches and rhythms. The SUCK Channel on Telegram, with a message saying some content has been removed by the police. Photo: Telegram screenshot. Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator. To delete a channel with over 1,000 subscribers, you need to contact user support
from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM American