Математика Дата саентиста@data

Математика Дата саентиста

🎯 ЗАДАЧА: Восстановление распределения из агрегатов

У вас есть CSV-файл, содержащий агрегированные данные по группам пользователей в виде:

| Группа | Среднее значение | Стандартное отклонение | Кол-во наблюдений |
|--------|------------------|-------------------------|--------------------|
| A | 50.0 | 10.0 | 100 |
| B | 60.0 | 15.0 | 80 |
| C | 55.0 | 12.0 | 120 |

Ваша задача: восстановить вероятностное распределение внутри каждой группы (на уровне отдельных наблюдений) и проверить гипотезу: *"Среднее значение в группе B статистически выше, чем в группе A, на уровне значимости 0.05."*

Условия:
- У вас нет сырых данных — только агрегаты.
- Вы должны сгенерировать выборки из нормального распределения на основе предоставленных параметров и выполнить статистический тест.

💡 Разбор:

1️⃣ Генерация синтетических данных:


import numpy as np

np.random.seed(42)
a = np.random.normal(loc=50, scale=10, size=100)
b = np.random.normal(loc=60, scale=15, size=80)

2️⃣ Проверка гипотезы:


from scipy.stats import ttest_ind

stat, p_value = ttest_ind(b, a, equal_var=False)
print(f"p-value = {p_value:.4f}")

3️⃣ Вывод:

Если p_value < 0.05, гипотеза подтверждается: группа B значимо выше по среднему.

В противном случае — различие незначимо.

🧠 Подвох:

Вы не знаете, что данные на самом деле НЕ обязательно нормально распределены.

Также важно понимать, что при генерации данных по агрегатам вы делаете допущение, что выборки соответствуют нормальным законам — что может быть неверно.

📌 Дополнительный уровень:
Проведите 1000 симуляций и постройте распределение p-value, чтобы оценить устойчивость вывода при варьирующихся выборках.

🔍 Эта задача проверяет:

- знание статистики и генерации данных
- навыки формулировки гипотез
- понимание ограничений моделирования из агрегатов
- умение мыслить критически и ставить под сомнение исходные допущения

🔥9👍6❤5

www.tgoop.com/data_math/824

2.78K viewsJul 24 at 12:35

tgoop.com/data_math/824

Create: 2025-07-24
Last Update: 2025-10-08 10:01:38


import numpy as np

np.random.seed(42)
a = np.random.normal(loc=50, scale=10, size=100)
b = np.random.normal(loc=60, scale=15, size=80)

2️⃣ Проверка гипотезы:


from scipy.stats import ttest_ind

stat, p_value = ttest_ind(b, a, equal_var=False)
print(f"p-value = {p_value:.4f}")

BY Математика Дата саентиста

Share with your friend now:
tgoop.com/data_math/824

Telegram News

🎯 ЗАДАЧА: Восстановление распределения из агрегатов