- Telegram Web

Не AБы какие тесты

Привет, товарищи-статистики!

На днях очень крутой чел, Саша Сахнов, глава стат. анализа в X5, выпустил полезное видео про t-test и мифы вокруг него. Я сразу отправлю на таймкод, который хотел бы прояснить исключительно в моменте, когда Саша будет показывать пример про логнормальное распределение. Хочется верить, я не окажу медвежью услугу коллеге)

Сначала посмотрите аккурат вместе с разбором примера с выборками до 30к из логнормального распределения, где проверка идет через кумулятив p-value (ожидается равномерное, так как верна H0). Посмотрели? Прекрасно, у Саши пример корректен, но если вы подумали, что "ага, y ну всё, вижу логнормальное - t-test не принимаю", то вы неправы.

Почему? Сейчас объясню

Telegraph

Почему логнормальное распределение иногда нам не "бро" ?

Во-первых, Саша намекает, мол, посмотрите самостоятельно, что это такое за распределение. Во-вторых, говорит, что в _среднем_ это распределение “не наш бро”. А не вообще всегда! Почему в примере даже при 30к выборках ничего не работает? Ведь, казалось бы…

❤14👍4

2.21K views14:13

Не AБы какие тесты

Хабр

Welch's test: он вам не замена Т-test'a

Привет! С вами команда аналитиков "Пятёрочки" X5 Tech. В данной статье мы расскажем про один из классических тестов в статистике – тест Уэлча (Welch’s Test). Постараемся максимально раскрыть, когда и...

Привет, товарищи-статистики!

Рад представить вам новую статью, уже 4-ую статью на Хабре, про Welch's test.
https://habr.com/ru/companies/X5Tech/articles/896182/

Писал я порядочно по времени; по ощущения ментально она меня опустошила не меньше, чем Mann-Whitney, и честно сказать, местами я еще сомневаюсь в некоторых частях, кроме, пожалуй, вывода оценки d, degrees of freedom.
Что вас ждет:
- Ряд сравнений с t-test'ом и то, где Welch может быть полезен.
- Разбор того, с чем на самом деле вы имеете дело, когда имеете дело со статистикой Welch'a
- Вывод корректировки d. Это будет долго, но я все постарался разжевать и сделать увлекательным
- Обзор литературы, который касается как предварительных тестов, так и о предположении изменчивости дисперсии

Вышло, как всегда, много: достойный соперник Mann-Whitney и Мета-анализу :)

❤23🔥10

2.52K viewsedited 11:10

Не AБы какие тесты

Привет, товарищи-статистики!

Вчера мой товарищ Влад, с которым мы работали в X5 и который теперь работает в Авито, выдал ML-базу: bias-variance decomposition через очень последовательное переписывание MSE - среднеквадратичной ошибки как метрики, оценивающей результатах нашего моделирования.

Я встречался с этой метрикой много раз в рамках материалов про ML, как и с идей bias-variance tradeoff, но в таком виде MSE, в котором и есть буквально bias и variance, признаюсь, увидел впервые. Выглядит как очень красиво, наконец-то есть связь с tradeoff не просто на уровне логического осмысления, но и через метрику!

Влад очень последовательно показывает вывод с применением классических свойств дисперсии и мат. ожидания, поэтому за преобразованием следить очень легко! К тому же есть промежуточные пояснения и подробные комментарии - всё как я люблю, в общем.

P.S. И как-то странно получается, но не так давно видел замечательное видео про то, почему у MSE именно квадрат (это тоже считается классикой вывода), к материалу будет только в плюс, видео на английском

🔥12❤4👎1

2.05K views07:03

Не AБы какие тесты

С прошедшим Днём международной солидарности трудящихся, товарищи!

Раз уж у нас идут последовательно праздники за праздниками, то почему бы не поговорить вновь и про последовательное тестирование, которое может позволить нам совершенно валидно остановить тест раньше времени?

На этот раз поговорим о Group Sequential Testing, который легко интерпретировать и внедрить, да и честно сказать, он мне стал нравится куда больше из-за своей простоты, чем mSPRT.

Вас ждут:
- Разбор Alpha-spending функции
- границы по Pocock
- метод Lan, Kim и DeMets
- Futility как возможность остановить тест, когда тщетны наши попытки эффект обнаружить
- Beta-spending от Pampallona и Kim как раз для Futility

В общем, читайте про Group Sequential Testing

Telegraph

Group Sequential Tests: очередное ускорение тестов

Наивная Alpha-Spending Для начала имеет смысл рассмотреть базовый наивный подход к снаряду, он нам нужен только для того, чтобы от него потом оттолкнуться в плане теории и не возвращаться! В момент подглядывания (оно же промежуточный анализ, interim analysis)…

🔥12❤1

2.32K views11:15

Не AБы какие тесты

Не AБы какие тесты pinned a photo

13:32

Не AБы какие тесты

Привет, сomrads-statisticians!

Пока пишу очередной пост-разбор по статистике, хочу порекомедовать конференцию по аналитике Aha!25, так считаю, что и как Матемаркетинг, это действительно мероприятие стоящие вашего времени и денег. Она пройдет 29-30 мая в Москве, МГУ, кластер «Ломоносов» (Раменский бульвар, 1).

Программа по ссылке

Сам я буду в этот раз слушателем онлайн, поэтому не смогу увидеть никого из аналитической тусочки, эх. Но расскажу, что хочу послушать, тут не будет ничего неожиданного, я бы сказал, тут прям база:

- Артем Ерохин, X5 Tech "Проксимируй это: как использовать прокси-метрики умнее?". Метрики - это самое сложное на мой взгляд в AB, с ними больше подводных, чем с критериями, а с прокси так вообще: пойди еще докажи, что они прокси для целевой. Артем расскажет про современный подход в работе с ними так, что fit - use (но это неточно)

- Диля Хакимова, Яндекс, "Формула доверия: аналитические доверительные интервалы для Ratio- и Uplift-метрик". Диля говорит, что ее материал уникален с точки зрения вывода, плюс будет полный гайд, ну посмотрим. Если все понравится - напишу может даже пост.

- Дарья Леонова, Garage8, "A/B-тесты для миддлов и продактов: как выйти за рамки "Просто запускаем эксперименты". Там хоть и будет про типичные ошибки и сценарии, но мало ли что-то новое проскочит. Главное, что обещала Дарья, это показать системный подход. Интересно его сравнить с нашим, можем дополню последний.

Ну и еще про временные ряды, то, что мне по душе уж который год:
- Александр Исаков, Яндекс.Лавка, "Как прогнозировать тысячи временных рядов и не сойти с ума". Во-первых, это опыт конкурента :), во-вторых, временные ряды, камон! Посмотрим, насколько Саша будет конкретен в своем докладе.

Билеты можно купить тут.
Да, недешево, но подразумевается, что купит их вам компания, в которой вы работаете: поэтому идите к HR и просите обещанное когда-то в вакансии - возможность посетить конференцию для собственного роста!

Промокод 15%
ABBATESTING15

👍6🔥3❤2

1.84K viewsedited 15:00

Не AБы какие тесты

Не пропускаем понедельник, товарищи-статистики!

Хотел продолжить серию про секвентальное тестирование, но уже довольно свежий (!) и интересный алгоритм показался мне прям сильно сложнее для объяснения, чем тот, что был ранее, поэтому сегодня поговорим про оценку кумулятивного эффекта - то, как несколько изменений, по которым были тесты, повлияли совместо.

Классическая и очень простая история это выделить глобальную контрольную группу, - holdout, - на которую какое-то время не будет распространяться никаких улучшений.

Но что если такую группу выделить по каким-то причинам невозможно, а оценить нужно?
Причины могут быть от технических до ~~прое~~ "забыли".

В начале года столкнулся с тем, что нужно было продумать, как оценить кумулятив при сценарии невозможности выделения holdout'a. И на методологию от Airbnb, которая мне очень пришлась по душе (так как математически выведена оценка!), меня навел Влад. Статья ниже написана в том числе благодаря его материалам, большое ему спасибо!

Статья начинается со слов "Winner's Curse", Проклятье победителя: смысл в том, что в рамках аукциона, где продается неких товар, победитель аукциона (а это часто наибольшая ставка) скорее всего заплатит больше, чем фактическая стоимость товара. Так и в рамках наивного суммирования эффектов от прошедших тестов - скорее всего оценка будет завышенной.

Разберем Winner's Curse: Bias Estimation for Total Effects of Features in Online Controlled Experiments

Telegraph

Оценка кумулятивного эффекта

Объяснение будет следовать согласно докладам как Влада, так и ребят из Airb'n'b. Пускай у нас есть ряд экспериментов, в которых мы получили следущее: Observed - это та дельта, что мы наблюдаем, а True - это истинная дельта, "что есть на самом деле". Как видно…

❤6👍4🔥1

2.56K views07:00

Не AБы какие тесты

Привет, товарищи-статистики!

Наконец-то написал про еще один метод последовательного тестирования, но очень свежий!

YEAST - YEt Another Sequential Test от ребят из Zalando от 2024-го года.

Это вам не методы из 40-х / 70-х / 80-х, которые индустрия переоткрыла для себя (хоть я и считаю, что Group Sequential Testing + "тщеность" ~~бытия~~ усилий самый простой, лаконичный и понятный из них + легче реализовывается)

Я наткнулся на него случайно: решил посмотреть на создателя известного калькулятора по AB - Эвана Миллера, в его ленте в Линкедин наткнулся на пост как раз про этот тест. И это оказалось - красиво!

Кажется, ребята смогли реализовать мечту многих начинающих AB-щников, а точнее даже типичного заказчика: при какой конкретно сумме транзакций / РТО / конверсий (условно, по B, но там чуть хитрее) мы сможем сказать, что результаты действительно лучше и надо катить. Так-то обычно заказчиками и начинающим после в ответ начинают рассказывать про критерии, и те немного начинают унывать от каких-то статистик, t-распределений..

Метод "идеалогически" является альтернативой всем ранее представленным тестам, работает с аблютной величиной метрики, - максимальная конкретика вместо t, лямбд и пр., - не нуждается в определении моделей данных как тот же (m)SPRT.

Метод уже внедрен в AB-платформу Zalando и является их стандартом.

Подготовил для вас, дорогие товарищи, максимально разжеванный разбор метода, в том числе математики, а она там может привести в уныние и бывалого :) Даже Эван намекнул: "they (Zalando) do real math instead of my 18th century aristocratic hand-waving" (он пытался что-то такое реализовать давненько)

Давайте поймём YEAST: Yet Another Sequential Test

Telegraph

YEAST: Yet Another Sequential Test

Часть 1. Построение базового критерия Сначала мы выведем стат. тест, который бы использовали для нашей процедуры. Поэтому надо начать со статистики ~ метрики для нашего тестирования. Определение метрики В рамках эксперимента мы может на некоторый момент времени…

👍15❤7🔥6👏1

2.07K viewsedited 07:00

Не AБы какие тесты

Привет, товарищи!

Пока у меня готовится ряд постов на предстоящую неделю, в том числе с аноном следующего потока по AB, хочу попиарить оффлайн-мероприятие "I see ML", которое пройдет в Москве, в среду, 27 августа, в 19:00 в "Сфера X5", Парк Горького, ул. Крымский Вал, 9.

Что будет: обсуждение 3-х докладов, - заявленных как научные открытия, - которые были на 26-й Международной конференции по машинному обучению (ICML), в формате кинопоказа. Как я понял, будут смотреть доклад и комментировать!

Доклады, которые будут комментировать:
- Position: AI Safety should prioritize the Future of Work (ICML outstanding paper 2025!)
Влияние ИИ на будущее рынка труда, о рисках, которые создает ИИ для интересов простых трудящихся, и о том, как это можно было бы преодолеть.

Чем полезно (как это понял я): возможно, будет меньше определенности в контексте "нас всех скоро заменит ИИ".

- Re-Imagine: Symbolic Benchmark Synthesis for Reasoning Evaluation
LLM-ки поражают (меня так уж частенько!) тем, как отвечают на заданные промпты, что задает вопрос, являются ли наблюдаемые результаты результатом истинного рассуждения или статистическим воспроизведением обучающей выборки. Чтобы, условно, отделить одно от другого, авторы предлагают фреймворк Re-Imagine для описания иерархии способностей к рассуждению у LLM и не только.

Чем полезно: возможно, фреймворк даст лучше понимание, насколько ваша модель зависит от памяти выборки, на которой она обучалась, и насколько в ней действительно есть потенциал рассуждать.

- Building Production Ready Agentic Systems: Architecture, LLM-based Evaluation, and GRPO Training
Spopity здесь рассказывает, как используют LLM и агентные шаблоны для создания помощника Shopify Sidekick с множеством навыков. В общем, они сделали ультра-умного помощника с многозадачностью, будут погружать в архитектуру, методы обучения, задачи и пр.

Чем полезно: таких помощников будут внедрять всюду и везде компании среднего уровня и больше; аналогичное будут делать и гос.учреждения. Возможно, внедрять это будете непосредственно вы. Неплохо бы поэтому иметь представление, как это делают другие. Возможно, кое-что расскажут и комментаторы.

Комментаторы: специалисты из X5, T-Банка, Яндекса

В целом, я надеюсь, ребята будут пытаться это обсудить с заземлением на наши реалии и степени развитости внедрения ИИ.

Регистрация тут.

x5-tech-event.timepad.ru

ИИнсомния: I see ML / События на TimePad.ru

Мы в X5 Tech | AI держим руку на пульсе технологий, поэтому предлагаем собраться 27 августа в 19:00 в Парке Горького, чтобы обсудить научные открытия в области искусственного интеллекта в кругу единомышленников.

❤5🔥4👍2👏1

1.09K viewsedited 17:06

Не AБы какие тесты

Привет, товарищи-статистики!

На днях Дима Лунин из Авито выпустил свою 5-ую статью на хабре (с чем и поздравим!) по базе AB: "Методичка по AB-тестированию от аналитиков Авито". И когда пишет такой специалист как Дима, то прочитать стоит вне зависимости от того, база это или нет, так как, возможно, какие-то очень хорошо знакомые понятия предстанут вам под другим углом, такие углы ищу и я, корректируя и уточняя формулировки для курса.

Со своей стороны оставил ряд комментариев к статье (и не только к ней, кстати!), думаю, они могут быть полезны.

Читать комментарии к статье от Димы

P.S. В пятницу ждите пост про новый поток по AB, пора, мои товарищи, пора!

Telegraph

Комментарии по механике AB-тестирования от Авито

1.Почему чаще всего сравниваем средние? Мне очень понравилось объяснение, почему чтобы определить, приносит ли больше денег наша фича, достаточно сравнить математические ожидания наших выборок A и B. А ведь для бизнеса это может быть неочевидно! Действительно…

❤21

1.01K views15:00

Не AБы какие тесты

———
Привет, товарищи-статистики!

Возрадуемся! У нас новые укушенные статистикой и A/B: в начале августа завершил свое превращение 8-ой поток, самый большой из прошедших, отзывы на скринах.

Из основного, что выделил из отзывов для себя в качестве зоны улучшения это все-таки “дать практики”. Поэтому август я старался уделить части практики больше внимания, чем переработке теор. материалов, сделал, где это уместно, ДЗ + с некоторой темы будут проекты, ожидаемо, что это ряд дизайнов по AB. С трудом, но получалось: ну просто не та эта область, не та! И все же у людей есть запрос, штош, посмотрим на результаты.

А так, по отзывам приятно было читать уже классическое “так вот как под капотом это работает”, “читаю статьи и понимаю написанное!”, также приятно, что кто-то назвал это лучшим вложением в свое образование, а кто-то, будучи хедом в одном известном банке, который просто пришел на разведку, сказал, что будет отправлять на обучение ко мне ребят. Значит, пока делаю все в нужном направлении!

Теперь только поднажму с практикой!

Что будет в версии v9:

1. Появились резюме встреч (почти все финализировал)

2. Появился и код, где надо а-ля бутстрап, линеаризация и пр. - бери и используй; сейчас расширяю до симуляций и пр., где уместно

3. Кажется, удалось через работу с материалом, наконец-то, замедлить темп повествования в рамках встречи, появилась ощутимая размеренность! Но время каждой встречи будет в среднем 1.5 часа.

4. Курс занимает полноценный учебный семестр, отчасти потому, что я чуть лучше стал понимать, как лучше дозировать объем материала в неделю.

5. Блок про множественное тестирование теперь обзавелся +1 встречей, в основном потому, что нужно было расширить подводку в многомерным стат.тестам, из-за добавления теста Kim’a как аналог теста Welch’a, а также модификат от ребят из Т-Банка “Kim5”. Все это вместе и без того много, разделять на две части было необходимо.

Также обогатил блок по вопросам зависимых и независимых гипотез, переработал вводную по FWER, где расписал уже аналитические выводы формул Бонферрони, Холма-Бонферрони и пр.; аналогично и тему про FDR, там тоже больше раскрыты логика работы формул, рассмотрена +1 поправка Benjamini-Yekutieli.

6. Текстовые заготовки занимают теперь на 30 страниц A4 больше (в сумме 130). В них мы вспоминаем школьный курс алгебры (если требует тема), читаем интересные заметки для любознательных и пр., которые релевантны моменту и теме, конечно.

7. Помощь супруги как модератора была неоценима, она будет помогать мне незримо для вас и впредь :)

Что планируется:

8. Материал про A/B Байесу пишется, очень рассчитываю его дополнительно прочитать на этом потоке.

9. Мне подумалось, что пора давать больше индустриального: рассказать про AB-платформы и их особенности, которые возможны в текущее время только в бизнесе, а не в науке. Также планирую на этот поток допом.

Попробовал МТС Link. В общем, вместо будет Talk от Контура, сравнительный фидбек напишу после, но МТС в важных моментах по планированию, сохранению видео и, особенно, выставки презентации мне прям не понравился. Последнее меня сильно расстроило: какие максимум 600 слайдов, алло!? - у меня это среднее значение на лекцию)) да-да, +-600 на встречу (коллеги на открытых мероприятиях постоянно шутят про сколько слайдов я принес сегодня))

Продолжение далее.

🔥10❤2👍2

929 views09:12

Не AБы какие тесты

Пора стартовать 9-ый поток "Наглядное АB-тестирование: от основ до современных стандартов" !

Старт я бы хотел сделать через неделю, то есть c 8-го сентября.

Список актуальных тем на скрине, о чем они кратко - тут.

- Обучение идет по вечерам, в 19 по Мск, 2-3 раза в неделю, не менее 3-х месяцев (скорее всего 4). Будние дни, обычно (но не всегда) в шахматном порядке 3x2: понедельник-среда-пятница, вторник-четверг
- Условия неизменны: "каждый поток веду лично, оказывая максимальное сопровождение по материалу; веду с удовольствием, в душе педагог; подача такая, будто надо объяснить детям, чтобы они могли объяснить это другим детям"
- Можно и нужно задавать вопросы, которые вам кажутся дурацкими, дебильным и пр. Это только приветствуется! Для стесняшек - всегда пожалуйста в личку)
- Все материалы, видео и презентации, будут доступны и после окончания в формате read.
- Цена 45к

Если есть желание - пишите мне в ЛС @smatrosov :) По курсу в начале вы будете общаться только со мной (!), далее подключу супругу в помощь.

На всякий случай: все официально, дорабатывается договор, расчет по реквизитам ИП; остерегайтесь плохих людей, сам я первый никому не напишу!

Отзывы в посте выше.

P.S. Те, кто писал мне ранее - о вас помню, вы записаны, свяжусь.

🔥16❤1

1.14K viewsedited 09:12

Не AБы какие тесты

Не AБы какие тесты pinned a photo

09:13

Не AБы какие тесты

Привет, товарищи-статистики!

Финальное промо курса, на котором я постараюсь из вас сделать скорее второго товарища из картинки, чем первого; так как статистика - это охуенно! Далее вернемся в ритм постов о статистике и не только, есть у меня пара занятных размышлений, думаю, вам будет по душе)

Итак, завтра, 8 сентября, стартует 9-ый поток курса по AB;
Дата следующего, 10-го, примерно середина января 2026-го.

Мы наглядно рассмотрим четыре блока по стат. проверке гипотез:
1. База: от введения в статистику до разбора работы с долевыми метриками
2. Продвинутые темы: любимая Ratio-метрика, линеариация, бутстрап, дельта-метод с повторением базы матанализа, конечно
3. Множественное тестирование: виды мультетеста, проблемы, поправки и пр.
4. Вишенки на торте: последовательное тестирование как "легальный" способ подглядывания в тесты, ошибки S, M, тест Welch’a и пр.

Календарь 9-го потока

Основная актуальная программа

Очень горжусь его нынешним состоянием, вложил душу в него, наверное, ц-дать раз!

—
Что говорят участники прошлых потоков?
- Не просто уверенное планирование и дизайн тест, а очень осмысленное, с возможность на пальцах объяснить бизнесу, как оно работает
- Офигенные примеры и простота изложение
- Стало кратно легче читать и понимать статьи по статистике
- Пройти собес по AB теперь не проблема, особенно, что ответы исходят из понимания, а не просто знания

Все отзывы

На этом 9-ом буду тестировать практику, очень интересно посмотреть, закроется ли нехватка ее для страждующих!

- Обучение идет по вечерам, в 19 по Мск, 2-3 раза в неделю, не менее 3-х месяцев (скорее всего 4). Будние дни, обычно (но не всегда) в шахматном порядке 3x2: понедельник-среда-пятница, вторник-четверг
- Условия неизменны: "каждый поток веду лично, оказывая максимальное сопровождение по материалу; веду с удовольствием, в душе педагог; подача такая, будто надо объяснить детям, чтобы они могли объяснить это другим детям"
- Можно и нужно задавать вопросы, которые вам кажутся дурацкими, дебильным и пр. Это только приветствуется! Для стесняшек - всегда пожалуйста в личку)
- Все материалы, видео и презентации, будут доступны и после окончания в формате read.
- Цена 45к

Есть желание принять участие - пишите мне в ЛС @smatrosov

🔥6

1.08K views15:04

Не AБы какие тесты

Привет, товарищи-статистики!

Кто понимает p-value, тот, простите, понимает его, а кто нет, тому формулировка про все эти нулевые гипотезы, какие-то экстремальности и прочее будут ну очень далекими и оторванными от простого сравнения A и B. Но что если есть какая-то другая мера, которая, возможно, поможет лучше объясниться с теми, кто не особо понимает за статистику?

E-value — кажется, та самая мера, которая аналогично p-value говорит о значимости, но отвечает на на другой вопрос: "Насколько сильным должен быть некоторый неучтённый фактор, а не тритмент, чтобы полностью объяснить мой результат?".

Разберемся как следует в очередном большом посте!

Telegraph

E-value: возможно, понятнее, чем p-value (или нет)

Определение p-value не особо помогает заказчику что-то понять в наблюдаемых результатах, просто поставьте себя на место того, кто смутно понимает что-то в статистике и произнесите в слух определение p-value. Ну какая-то абстракция, чес слово! Однако в принципе…

👍13❤1

857 views07:04

2025/10/04 03:42:03
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>