tgoop.com/data_math/824
Last Update:
🎯 ЗАДАЧА: Восстановление распределения из агрегатов
У вас есть CSV-файл, содержащий агрегированные данные по группам пользователей в виде:
| Группа | Среднее значение | Стандартное отклонение | Кол-во наблюдений |
|--------|------------------|-------------------------|--------------------|
| A | 50.0 | 10.0 | 100 |
| B | 60.0 | 15.0 | 80 |
| C | 55.0 | 12.0 | 120 |
Ваша задача: восстановить вероятностное распределение внутри каждой группы (на уровне отдельных наблюдений) и проверить гипотезу: *"Среднее значение в группе B статистически выше, чем в группе A, на уровне значимости 0.05."*
Условия:
- У вас нет сырых данных — только агрегаты.
- Вы должны сгенерировать выборки из нормального распределения на основе предоставленных параметров и выполнить статистический тест.
💡 Разбор:
1️⃣ Генерация синтетических данных:
import numpy as np
np.random.seed(42)
a = np.random.normal(loc=50, scale=10, size=100)
b = np.random.normal(loc=60, scale=15, size=80)
2️⃣ Проверка гипотезы:
from scipy.stats import ttest_ind
stat, p_value = ttest_ind(b, a, equal_var=False)
print(f"p-value = {p_value:.4f}")
3️⃣ Вывод:
Если p_value < 0.05, гипотеза подтверждается: группа B значимо выше по среднему.
В противном случае — различие незначимо.
🧠 Подвох:
Вы не знаете, что данные на самом деле НЕ обязательно нормально распределены.
Также важно понимать, что при генерации данных по агрегатам вы делаете допущение, что выборки соответствуют нормальным законам — что может быть неверно.
📌 Дополнительный уровень:
Проведите 1000 симуляций и постройте распределение p-value, чтобы оценить устойчивость вывода при варьирующихся выборках.
🔍 Эта задача проверяет:
- знание статистики и генерации данных
- навыки формулировки гипотез
- понимание ограничений моделирования из агрегатов
- умение мыслить критически и ставить под сомнение исходные допущения
BY Математика Дата саентиста
Share with your friend now:
tgoop.com/data_math/824