🔍 Как искать аномалии в данных без моделей1️⃣ Статистический анализ➡️ Значения за пределами 3σ (стандартных отклонений)Вычислите среднее и стандартное отклонение, найдите значения, выходящие за ±3σ — они часто считаются аномалиями.
➡️ Используйте квантильный анализ (IQR)Рассчитайте интерквартильный размах (IQR = Q3 – Q1).
Аномалии — это точки вне диапазона:
[Q1 - 1.5 * IQR, Q3 + 1.5 * IQR]
.
2️⃣ Визуализация данных➡️ Boxplot — визуально выявляет выбросы.
➡️ Гистограмма — смотрите на распределение и выбивающиеся столбцы.
➡️ Scatter plot — для выявления выбросов в двухмерных данных.
➡️ Парные графики — помогает понять аномалии в связях между переменными.
3️⃣ Логика и доменная экспертиза➡️ Проверяйте данные на логические ошибки: — отрицательные значения там, где их быть не может,
— даты в будущем или прошлом вне контекста,
— значения параметров вне физических или бизнес-ограничений.
4️⃣ Проверка на дубликаты➡️ Часто дубликаты могут «маскировать» аномалии или искажать статистику.
➡️ Используйте
.duplicated()
или аналогичные методы.
5️⃣ Сравнение с историческими данными➡️ Сравните текущие значения с типичными значениями за предыдущие периоды.
➡️ Внезапные резкие изменения — потенциальные аномалии.
6️⃣ Использование агрегированных метрик➡️ Анализируйте суммарные и средние значения по группам.
➡️ Если одна группа сильно выделяется — это может быть аномалия.
Библиотека дата-сайентиста #буст