KANTOR_AI Telegram 295
Статзначимость в А/В тестах или немного о том, зачем нужна статистика (часть 1/3)

Сейчас я заканчиваю готовить математическую часть нашего курса «База ML» (в частности, модуль по теорверу) и очень плотно работаю с вопросом «а зачем оно надо?». Топ-1 ответом на вопрос, зачем нужны теорвер и статистика в ML (да и не только в нем) по-прежнему остается проверка статистической значимости. В современном мире мы чаще встречаемся с ней в контексте A/B тестов, когда части клиентов показывают одно, части другое, и из этого эксперимента пытаются сделать выводы. В этих постах вас ждет рассказ в трех частях: 1) введение, 2) непосредственно по теме и 3) некоторые интересные моменты, которые тоже полезно обсудить. Кто знает ответы на вопросы, выделенные жирным в этом посте, могут просто пролистать его и переходить сразу ко второму.

Зачем вообще нужны А/В тесты?

Потребность в А/В тестах возникает тогда, когда мы хотим что-то улучшить. Например, взамен какого-то существующего алгоритма персональных рекомендаций товаров или старого интерфейса мобильного приложения внедрить новую версию. А/В тесты как метод отвечают на вопрос: «Как понять, что это правда будет улучшать важные для нас показатели?»

Посмотреть «стало ли продаж больше» и удовлетвориться такой оценкой нововведения — это очень топорный подход, который сработает только когда бизнес-показатели не зависят от времени и нововведение лишь одно. Обычно это не так. Бизнес растет или угасает, бывает «сезон» и «не сезон». Бывает очень много изменений за месяц, и понять, какое именно из них вызвало эффект, невозможно. Однако многие вещи в коммерческих компаниях (даже самых технологичных) и в 2024 году делаются без А/В тестирования. А еще больше — без оценки статзначимости. К А/В тестам не нужно относиться теологически, но стоит понимать силу и возможности инструмента.

Что такое статистическая значимость и A/A тесты?

Допустим, нет пока никакого нововведения, которое вы будете оценивать в А/В тесте, есть пользователи вашего сайта или приложения, и вы просто делите их на две группы и смотрите на результат в каждой (например, на конверсию посещений в покупки на сайте). Такой тест называется А/А тестом, и, наверное, вас не удивит, что даже при хорошем разбиении на группы результаты в них будут немного отличаться.

Статистическая значимость эффекта в А/В тесте, грубо говоря, означает, что различие между группами заметно больше, чем было бы в А/А тесте, т.е. «есть реальный эффект», а не случайные отклонения. Что это значит для бизнеса? То, что хотя бы при сохранении тех же условий, что и во время проведения А/В теста, эффект от нововведения с большой вероятностью будет какое-то время сохраняться (важное уточнение: эффект может затухать со временем, никто не отменял «эффект новизны»).

#математика
👍229❤‍🔥3🙏1



tgoop.com/kantor_ai/295
Create:
Last Update:

Статзначимость в А/В тестах или немного о том, зачем нужна статистика (часть 1/3)

Сейчас я заканчиваю готовить математическую часть нашего курса «База ML» (в частности, модуль по теорверу) и очень плотно работаю с вопросом «а зачем оно надо?». Топ-1 ответом на вопрос, зачем нужны теорвер и статистика в ML (да и не только в нем) по-прежнему остается проверка статистической значимости. В современном мире мы чаще встречаемся с ней в контексте A/B тестов, когда части клиентов показывают одно, части другое, и из этого эксперимента пытаются сделать выводы. В этих постах вас ждет рассказ в трех частях: 1) введение, 2) непосредственно по теме и 3) некоторые интересные моменты, которые тоже полезно обсудить. Кто знает ответы на вопросы, выделенные жирным в этом посте, могут просто пролистать его и переходить сразу ко второму.

Зачем вообще нужны А/В тесты?

Потребность в А/В тестах возникает тогда, когда мы хотим что-то улучшить. Например, взамен какого-то существующего алгоритма персональных рекомендаций товаров или старого интерфейса мобильного приложения внедрить новую версию. А/В тесты как метод отвечают на вопрос: «Как понять, что это правда будет улучшать важные для нас показатели?»

Посмотреть «стало ли продаж больше» и удовлетвориться такой оценкой нововведения — это очень топорный подход, который сработает только когда бизнес-показатели не зависят от времени и нововведение лишь одно. Обычно это не так. Бизнес растет или угасает, бывает «сезон» и «не сезон». Бывает очень много изменений за месяц, и понять, какое именно из них вызвало эффект, невозможно. Однако многие вещи в коммерческих компаниях (даже самых технологичных) и в 2024 году делаются без А/В тестирования. А еще больше — без оценки статзначимости. К А/В тестам не нужно относиться теологически, но стоит понимать силу и возможности инструмента.

Что такое статистическая значимость и A/A тесты?

Допустим, нет пока никакого нововведения, которое вы будете оценивать в А/В тесте, есть пользователи вашего сайта или приложения, и вы просто делите их на две группы и смотрите на результат в каждой (например, на конверсию посещений в покупки на сайте). Такой тест называется А/А тестом, и, наверное, вас не удивит, что даже при хорошем разбиении на группы результаты в них будут немного отличаться.

Статистическая значимость эффекта в А/В тесте, грубо говоря, означает, что различие между группами заметно больше, чем было бы в А/А тесте, т.е. «есть реальный эффект», а не случайные отклонения. Что это значит для бизнеса? То, что хотя бы при сохранении тех же условий, что и во время проведения А/В теста, эффект от нововведения с большой вероятностью будет какое-то время сохраняться (важное уточнение: эффект может затухать со временем, никто не отменял «эффект новизны»).

#математика

BY Kantor.AI


Share with your friend now:
tgoop.com/kantor_ai/295

View MORE
Open in Telegram


Telegram News

Date: |

Select “New Channel” Concise With the administration mulling over limiting access to doxxing groups, a prominent Telegram doxxing group apparently went on a "revenge spree." As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces. How to create a business channel on Telegram? (Tutorial)
from us


Telegram Kantor.AI
FROM American