tgoop.com/stats_for_science/167
Last Update:
Про преобразования данных
В прошлый раз коротко затронула вопрос преобразований, которые делают, чтобы «привести данные к нормальности». Давайте разберём это чуть подробнее.
Дисклеймер: сама идея «приводить выборку к нормальному распределению» не всегда обоснованна. Нас обычно интересует не распределение самих наблюдений, а распределение выборочных средних, которое при достаточно больших выборках гарантируется центральной предельной теоремой (тут тоже есть нюансы, более подробно в статье).
Тем не менее бывают ситуации, где преобразования действительно уместны. Один из распространенных примеров — логарифмирование (частный случай Бокс–Кокс-преобразования).
Стоит отметить, что логарифмирование применимо только к положительным значениям, при нулях или отрицательных значениях обычно делают сдвиг на константу, про это нужно не забывать при интерпретации преобразованных данных.
🌱В биологических данных логарифмирование применяется регулярно к определенным типам данных. Например, в количественной ПЦР (qPCR) измеряют, сколько раз ДНК удваивается на каждом цикле амплификации. Получается экспоненциальный рост: с каждой итерацией количество продукта увеличивается в 2 раза. Чтобы было удобнее работать с такими данными, их переводят в логарифмическую шкалу, тогда экспоненциальный рост превращается в линейный. Это упрощает интерпретацию и уменьшает дисперсию. Кроме того, логарифмирование переводит отношения в разности, что облегчает сравнение образцов и расчёт изменений экспрессии.
То есть в науке часто используют более сложные преобразования, чем логарифмирование.
📊В продуктовой аналитике такие приёмы встречаются реже, но не исключены. Во-первых, логарифм среднего чека сам по себе интерпретируется иначе: он отражает относительные изменения, а не абсолютные рубли — это удобно для анализа эластичностей. Во-вторых, в A/B-тестах обычно большие выборки и нормальность распределения выборочных средних обеспечивает ЦПТ, поэтому ключевыми становятся дизайн эксперимента, корректное логгирование событие, проверка на SRM и тп, а не нормализация данных.
Однако иногда логарифмирование в аналитике оправдано — например, если метрика имеет сильно вытянутый правый хвост (ARPU, время сессии). Логарифм сжимает экстремальные значения и уменьшает влияние редких больших наблюдений на среднее и дисперсию; после лог-преобразования оценки и остатки модели нередко становятся более устойчивыми.
Но лично мне не доводилось применять такое на практике, расскажите, кто использовал, есть ли в этом смысл вообще?
#analytics