Статистика и R в науке и аналитике@stats_for

Статистика и R в науке и аналитике

Про преобразования данных

В прошлый раз коротко затронула вопрос преобразований, которые делают, чтобы «привести данные к нормальности». Давайте разберём это чуть подробнее.

Дисклеймер: сама идея «приводить выборку к нормальному распределению» не всегда обоснованна. Нас обычно интересует не распределение самих наблюдений, а распределение выборочных средних, которое при достаточно больших выборках гарантируется центральной предельной теоремой (тут тоже есть нюансы, более подробно в статье).

Тем не менее бывают ситуации, где преобразования действительно уместны. Один из распространенных примеров — логарифмирование (частный случай Бокс–Кокс-преобразования).
Стоит отметить, что логарифмирование применимо только к положительным значениям, при нулях или отрицательных значениях обычно делают сдвиг на константу, про это нужно не забывать при интерпретации преобразованных данных.

🌱В биологических данных логарифмирование применяется регулярно к определенным типам данных. Например, в количественной ПЦР (qPCR) измеряют, сколько раз ДНК удваивается на каждом цикле амплификации. Получается экспоненциальный рост: с каждой итерацией количество продукта увеличивается в 2 раза. Чтобы было удобнее работать с такими данными, их переводят в логарифмическую шкалу, тогда экспоненциальный рост превращается в линейный. Это упрощает интерпретацию и уменьшает дисперсию. Кроме того, логарифмирование переводит отношения в разности, что облегчает сравнение образцов и расчёт изменений экспрессии.

🧬В bulk RNA-seq логарифмирование тоже используется, но обычно для логарифма fold change — чтобы сделать данные более удобными для интерпретации и визуализации: например, если экспрессия гена в тестовой группе снизилась в два раза, log₂-fold-change будет равен -1 (а не 0.5). Такой формат проще интерпретировать и визуализировать, особенно при работе с тысячами генов. Что касается исходных данных (каунтов), для них характерно увеличение дисперсии вместе с увеличением средних значений (overdispersion), поэтому вместо логарифмирования обычно применяют модели на основе отрицательного биномиального распределения, которые это учитывают.

То есть в науке часто используют более сложные преобразования, чем логарифмирование.

📊В продуктовой аналитике такие приёмы встречаются реже, но не исключены. Во-первых, логарифм среднего чека сам по себе интерпретируется иначе: он отражает относительные изменения, а не абсолютные рубли — это удобно для анализа эластичностей. Во-вторых, в A/B-тестах обычно большие выборки и нормальность распределения выборочных средних обеспечивает ЦПТ, поэтому ключевыми становятся дизайн эксперимента, корректное логгирование событие, проверка на SRM и тп, а не нормализация данных.

Однако иногда логарифмирование в аналитике оправдано — например, если метрика имеет сильно вытянутый правый хвост (ARPU, время сессии). Логарифм сжимает экстремальные значения и уменьшает влияние редких больших наблюдений на среднее и дисперсию; после лог-преобразования оценки и остатки модели нередко становятся более устойчивыми.

Но лично мне не доводилось применять такое на практике, расскажите, кто использовал, есть ли в этом смысл вообще?

#analytics

Please open Telegram to view this post

VIEW IN TELEGRAM

15🔥16❤10👍10

www.tgoop.com/stats_for_science/167

928 viewsOct 12 at 09:10

tgoop.com/stats_for_science/167

Create: 2025-10-12
Last Update: 2025-10-13 03:27:03

Telegram News

Про преобразования данных