Telegram Web
💘 Увеличить чувствительность А/В теста без смс и регистрации

CUPED (Controlled-experiment Using Pre-Experiment Data) - техника увеличения чувствительности А/Б тестов за счет использования данных, полученных ранее


Мы уже делали посты про CUPED:
1) Статья от аналитиков Авито
2) Выступление Валерия Бабушкина

Эти материалы классные, но могут быть сложноваты для новичка.

Недавно от аналитиков Х5 Group вышла новая статья про CUPED - прочитав которую, как будто, даже новичку станет понятно, что это за зверь такой.

Авторы дают не только интуитивное понимание метода, но и математическое обоснование, пример кода и советы по применению

Ставьте огоньки под этим постом (давайте наберём 50🔥), и обязательно читайте статью!
🔥54👍63
👁 Мягкий вход в Computer Vision

Мы в SCiDS много пишем про классические алгоритмы машинного обучения. Но очень часто у нас спрашивают "А вот как зашарить DL?", "Хочу в NLP/CV - что читать?" и т.д. Решили писать про это больше 🙂

А тут у недавно вышло крутое видео от Бориса про то, что происходит в архитектурах Computer Vision моделей. Причём начинается всё с логистической регрессии, а заканчивается трансформерами. В общем, для первого погружения в CV (при условии что вы понимаете классическую машинку) - самое то.

[Ссылка на видео]

Накидывайте 🔥 если хотите больше постов про NLP/CV!
🔥43❤‍🔥52🤩2👍1
🌐 Как выйти за пределы юпитер ноутбука?

Большинство начинающих дата-саентистов разрабатывают модельки в юпитер ноутбуках. Но на практике, как правило, используют модели не в ноутбуках, а запускают скрипты из различных систем. Что же нужно для для этого делать?

Во-первых, для выхода из ноутбука нужно научиться создавать такой код, который запускается одним нажатием Run All. Впоследствии это уже можно сохранить в виде скрипта с расширением .py и работать с ним.

Далее есть два уровня выхода из ноутбука:

1. Запуск скриптов по расписанию
a) В unix-системах есть команда cron, которая позволяет регулярно запускать скрипты. В своём скрипте вы, соответственно, можете собирать актуальные данные, прогонять их через модель и отправлять эти данные туда, куда вам нужно.
Можно настроить cron как на локалхосте, так и на каком-нибудь удаленном сервере. Подробнее про cron можно почитать здесь

b) Можно делать регулярные операции с данными в скрипте с помощью библиотеки scheduler, закинув скрипт на Амверу/ Render/ какие-то подобные сервисы, где он будет крутиться

2. Запуск пайплайнов по расписанию
1) Apache Airflow - система, с помощью которой можно запускать пайплайны по расписанию: автоматически собирать данные, передавать в модель и что-то делать с выходными данными модели

2) MLFlow - запуск пайплайнов по расписанию + мониторинг (на смещение скора, на входные фичи и т. д.)
Про него и другие опенсорсные решения для MLOps на Хабре есть классная статья

Еще про продуктивизацию ml моделей есть классный плейлист, стоит посмотреть, если хотите разобраться в этой теме 🙂

Ставьте огоньки, если было полезно (наберем 70 🔥?) и пишите в комментариях, про что бы вам еще хотелось увидеть посты
🔥114👍116🤩4
🔍 Поиск оптимальных гиперпараметров для модели

Гиперпараметры модели – это настройки, которые определяют как саму структуру модели, так и способ её обучения.

Например, у случайного леса они могут быть такими:
– Количество деревьев (n_estimators)
– Максимальная глубина деревьев (max_depth)
– Минимальное количество объектов в листе (min_samples_leaf)
– Максимальное количество признаков для разбиения (max_features)

Чтобы получить самую лучшую модель, нужно как-то подобрать эти гиперпараметры. Есть несколько способов:

🤪 «Тупой» перебор гиперпараметров
Grid Search - просто перебор всевозможных комбинаций значений гиперпараметров
Random Search - перебор случайных наборов гиперпараметров (в том случае, когда Grid Search слишком долгий)

🤓 «Умный» перебор гиперпараметров
Bayesian Optimization - метод, который сочетает вероятностные модели с методами оптимизации для эффективного поиска оптимальных гиперпараметров
Другие умные методы - реализованы, например, во фреймворке Optuna - библиотеке, которая представляет высокоуровневый интерфейс для оптимизации гиперпараметров

Причем иногда «тупой» рандомный перебор работает лучше, чем «умный» (так бывает, потому что рандомный может случайно найти глобальный минимум, а умный может зациклиться на локальном). Чтобы понять, что лучше подойдёт в вашем случае, можно попробовать оба способа

Подробнее про подбор гиперпараметров написано вот в этой статье, с примерами, инструментами и классными советами 🙂

Читайте статью и ставьте сердечки под этим постом!(наберем 70 ❤️?)
82👍6🔥5🤩1
💼 Как быстро вспомнить основные идеи в ML перед собеседованием?

Если вы только начинаете карьеру, то на собеседованиях в DS вас точно будут спрашивать про то, как работают конкретные алгоритмы.
Какое-то время назад мы решили сделать серию видео для того, чтобы быстро вспомнить все ключевые идеи!

Пока что вышло не так много видео, но если хотите какое-то особенное - пишите в комментариях 🙂

1. Линейная регрессия. Что спросят на собеседовании? ч.1 - про основные идеи линейной регресии, предобработку признаков, fit-predict и регуляризацию
2. Линейная регрессия. Что внутри sklearn? Зачем градиентный спуск? Что спросят на собеседовании? ч.2 - про то, какие реализации линейной регрессии есть и как они работают под капотом
3. Функционалы потерь и метрики регрессии. Простым языком! - все базовые метрики и функционалы потерь регрессии в одном видео
4. Логистическая регрессия, самое простое объяснение! - как устроена логистическая регрессия, что оптимизирует и почему аппроксимирует вероятности.

Оставляйте 🔥 под видео, каждый из них приблизит момент выпуска следующих видео!)
🔥8612👍12❤‍🔥6
🐶 Пет-проекты для начинающего Data Scientistа

Pet-project
- это небольшой личный проект в любой отрасли для портфолио и/или собственного удовольствия. Начинающему дата саентисту почти что необходимо сделать какой-нибудь
(пусть даже совсем небольшой)
пет-проект

Во-первых, это позволит вам понять, действительно ли вы заинтересованы в этой сфере.
Во-вторых, точно прокачает ваши навыки.
Ну и в-третьих, его можно будет указать в резюме, если у вас не было опыта работы. Собеседующий точно заметит, если вы будете с энтузиазмом рассказывать про свои проекты

В идеале в вашем проекте должны быть затронуты все этапы работы с данными:
1. Получение данных:
- Можно спарсить данные, например, с помощью библиотек BeautifulSoup, Scrapy или Selenium (если под этим постом наберётся 100 сердечек ❤️, мы расскажем про парсинг подробнее)
- Можно поработать с какой-нибудь APIшкой для получения данных (например, с api ХедХантера для вакансий)
- Можно скачать датасет из открытых источников, например, с Kaggle или Google Dataset Search

2. Исследовательский анализ данных (EDA):
- Повизуализировать данные с помощью библиотек вроде Matplotlib, Seaborn или Plotly для нахождения закономерностей и аномалий
- Поприменять статистический анализ для понимания распределений и тестирования гипотез

3. Предобработка данных:
- Почистить данные от пропусков и выбросов
- Преобразовать типы данных, нормализировать и стандартизировать их
- Попробовать придумать новые признаки для повышения точности моделей

4. Построение моделей:
- Понять, какой алгоритм машинного обучения будет эффективнее в вашей задаче (от линейной регрессии до градиентного бустинга и глубокого обучения)
- Оптимизировать его гиперапараметры

5. Настройка регулярных процессов (про это, кстати, у нас был пост):
- Автоматизировать сбор и обновление данных через скрипты
- Настроить автоматическое переобучение моделей с новыми данными

6. Работа с большими данными:
- Попробовать поработать с Hadoop/Spark для обработки большого объема данных (если под этим постом наберётся 150 сердечек❤️, мы расскажем подробнее про MapReduce)
- Понять, что в вашем проекте это совсем ни к чему и использовать для хранения и обработки данных, например, PostgreSQL или MongoDB

7. Деплой модели:
- Юзануть Docker контейнеры для упаковки и деплоя моделей и приложений
- Познакомиться с облачными платформами, такими как AWS, Google Cloud или Azure для развертывания моделей

Будет очень классно, если идея проекта придет к вам в процессе решения какой-нибудь задачи из жизни. Если же идей нет, можно взять их отсюда:
10 проектов по data science для начинающих
36 идей для проектов по аналитике данных
(просто вбиваете в поиск “идеи пет-проекта для data scientistа” 😁)

Ставьте сердечки❤️ под этим постом, если было полезно, и начинайте делать свой первый пет-проект, если еще не начали!
234👍13🔥4
💼 Как научиться проходить собесы?
Лучший способ - проходить собесы. Ну, или смотреть как это делают другие 🙂
Вот Вадим не щадит себя, проходит их везде где можно и выкладывает записи!

Самые интересные видео с канала:

1. Собес на DS'a в Сбер
2. Собес на Senior DS'a в Райф
3. Как составить резюме программисту. Полный гайд
4. Полный гайд по собеседованию в IT — рабочий алгоритм

Подписывайтесь на Вадима, в его каналах можно найти много интересного 🙂
Куда идти: Tg, YouTube
🔥45👍102❤‍🔥1😁1
💼 Вакансии в различные направления DS, Аналитики и ML

Наши друзья сделали канал с вакансиями для ребят всех уровней: от стажёров до лидов!

Чем он отличается от прочих подобных:
1. Заранее отметаются сомнительные компании и сомнительные вакансии
2. По каждой вакансии делается короткая выжимка, чтобы бытро понять надо оно вам или нет
3🌟. К каждой вакансии ребята цепляют подборку материалов по ней. Если компания малоизвестная - скажут где почитать про неё, если направление своеобразное - дадут статью/набор статей, которые позволят понять что происходит

В общем, ОЧЕНЬ рекомендуем подписаться на Your Dream Data Job!
❤‍🔥11👍97😁2
🐘 MapReduce - что это такое?

Если говорить по-простому, то MapReduce - это модель распределенных вычислений, которая необходима, чтобы считать то, что либо нужно делать быстрее, либо то, на что не хватает памяти (либо и то, и то)

Обычно системы MapReduce используются в больших компаниях, которым нужно обрабатывать петабайты данных. Самый распространенный фреймворк - Hadoop, но некоторые компании создают свои MapReduce системы (например, в Яндексе своя система называется Ыть)

Чтобы понять, что такое MapReduce, во-первых, советуем глянуть это видео [ENG]
А во-вторых, стоит по порядку прочитать эти две статьи, в которых автор (имхо) супер доступно, с примерами, объясняет, как устроена модель MapReduce:
MapReduce без зауми, ч.1 - автор статьи рассказывает, как он, столкнувшись с задачей посчитать количество всех слов в Википедии, сам еще раз “придумал” MapReduce
MapReduce без зауми, ч.2 - тут уже разбираются более-менее реальные SQL-ные операции

Если вы собираетесь работать в крупной IT-компании, вам нужно знать, что такое MapReduce. Поэтому смотрите видео, читайте статьи (раз, два) и оставляйте огонёчки 🔥 под этим постом, если он вам понравился))
🔥45👍116😁2
Побеждаем рутину в Data Science: как перестать быть недопрограммистами и недоисследователями

Ребята из Альфы во главе с Женей написали клёвую статью, которая позволит отлично понять как устроена работа в Data Science.

Про что рассказывают в статье:
👨‍🏫 Причины возникновения рутины с точки зрения пользователя, бизнеса и дата сайентистов
💪 Примеры процессов, в которых удалось побелить рутину внутри банка
📈 Тренды и новые вызовы области, как за ними угнаться

Мне статья понравилась, советую почитать 🙂
16👍7🔥5
✍️ Подробный пост про парсинг

В написании этого поста нам помог Семёнов Богдан, который имеет богатый опыт в парсинге 🙂. Давайте отблагодарим его сердечками под этим постом! ❤️

Вообще, процесс парсинга вебсайта можно разделить на два этапа:
1. Получение html-документа
2. Выбор нужной информации из этого документа

Для получения html-ины используют:
1. Обычный requests, если на сайте вообще нет защиты от парсинга
2. Инструменты для автоматизации веб-браузера, чтобы сайт пропустил вас:
- Selenium - читайте актуальную документацию, потому что, например, ChatGPT-3.5 выдает функции, которых уже нет
- Puppeteer

Для того, чтобы распарсить html-ину, можно использовать:
1. BeautifulSoup
2. Scrapy

📜 5 советов для парсинга:
1. Если на сайте стоит капча, то можно использовать патч Selenium, который не запускает антиботовые сервисы. Вот видос, как с его помощью можно распарсить LinkedIn (внимание, некоторые методы Selenium-а оттуда устарели)
2. Для того, чтобы не быть забаненным по IP, нужно использовать прокси. Вообще, есть разные виды прокси. В идеале использовать ротирующиеся прокси, чтобы они постоянно менялись, и их не банили.
А можно делать так:
– Закупаете несколько (штук 5) прокси (например, тут)
– Пишете код, чтобы менять их с некоторой частотой (норм руководство)
3. Если капча кастомная, то вам, скорее всего придётся вводить её вручную. Для того, чтобы пришёл сигнал, что с парсером что-то пошло не так, можно сделать простенького бота в телеграме, который будет уведомлять вас (если хотите пост про создание тг ботов - давайте наберем 50 огоньков🔥)
4. Seleniumом парсить долго. Ускорить парсинг можно, забирая cookies и headers из Selenium-а, и кидая их в requests. Но это может работать не на всех сайтах(
5. Иногда Selenium залагивает, чтобы бороться с этим, можно ставить ему таймауты –, например, если страница не прогрузилась за 60 секунд, стопать процесс селениума и пересоздавать с этого же урла новый.

Ещё несколько классных советов есть в этой статье, обязательно прочитайте её 🙂
И ставьте сердечки ❤️ под этим постом, если было полезно (если наберем 250, расскажем про парсинг с мобильных приложений)
76🔥47👍12
Лучшее что вы можете сделать когда начинаете искать работы на рынке IT как в РФ, так и не РФ - прочитать методичку Бори. И начать применять знания оттуда. Очень рекомендую :)
Forwarded from Борис опять
#работа

# Методичка по поиску работы в ML/DS и IT в целом

В канале накопилось немало материала про поиск работы. Я собрал, дополнил и превратил всё в небольшую книжку.

Все кратко и по делу. Чтения минут на 30. Внутри рассматриваю поиск работы с самых азов и до деталей с примерами из жизни.

https://btseytlin.github.io/intro.html

Если вы давно читаете этот канал и хотели бы ему помочь, то вот лучший способ: скиньте методичку кому-то из друзей.

@boris_again
👍40🔥25😁2🤩1
🐈 CatBoost - супер удобный градиентный бустинг
Градиентный бустинг
- это техника машинного обучения для задач классификации и регрессии, которая строит модель предсказания в форме ансамбля слабых предсказывающих моделей, обычно деревьев решений.
Каждая следующая модель в ансамбле уменьшает ошибку предыдущей модели


Про то, как работает градиентный бустинг можно почитать, например, в статье с обзором ансамблей машинного обучения или в хендбуке от Яндекса. Одна из самых лучших библиотек для градиентного бустинга над деревьями решений – CatBoost. С этой библиотекой побеждают в соревнованиях на kaggle, она используется для решения задач классификации в крупных компаниях

Её преимущества:
– Встроенная обработка категориальных данных (их не нужно предобрабатывать, просто выставить гиперпараметры)
– Уменьшенный риск переобучения
– Высокая скорость работы и эффективность на больших объемах данных
– Встроенная обработка пропущенных значений
– Классная визуализация

Чтобы разобраться с этой библиотекой, стоит:
– Почитать официальную документацию
– [ENG] Посмотреть тетрадку с обзором катбуста
– Почитать статью про катбуст
🦖[ENG] Посмотреть видео от StatQuest (часть 1 и часть 2)
🌶 Посмотреть видео от Computer Science Club

Ставьте огоньки 🔥 под этим постом, и пишите в комментариях, про что написать ещё)
🔥656👍6
🌐 ML на графах для решения задачи матчинга

Один из наших подписчиков, Иван, написал очень крутую статью про решение задач матчинга с помощью графовых нейронных сетей.

А если конкретнее - про применение алгоритмов кластеризации на графах при поиске одинаковых товаров в онлайн-магазине.

Классический подход для  решения такой задачи состоит из двух этапов:
1. Подбор кандидатов. На этом этапе используется грубый, но быстрый алгоритм для подбора большого количества схожих объектов, потенциальных пар
2. Проверка пар моделью (т. н. матчинг) — более точная проверка того, действительно ли в паре одинаковые объекты.

У объекта может быть более одного дубликата, и хочется их объединять в одну группу, один кластер.

Просто склеить все найденные пары в один кластер — не лучшая идея, поскольку предсказания модели на 2 этапе имеют не нулевой процент ошибок, а такая склейка их только размножит.

В статье рассказывается про то, как алгоритмы Community Detection позволяют эту проблему решать

Статья на хабре тут
29🔥19❤‍🔥4👍3
🧑‍🎓 Leetcode по ML/DS

Думаю, все знают про leetcode, с помощью которого можно отлично натаскаться на алгоритмические задачки.
Нашли аналогичный сервис по ML/DS задачкам, на котором можно попрактиковаться в решении задач по SQL, Python, Теории вероятностей и статистике. В нём собраны задачки, которые спрашивают топовых компаниях вроде Tesla/Twitter/Facebook/Linkedin и т.д.

Отличная штука для того, чтобы попрактиковаться перед собеседованием 🙂

https://datalemur.com/questions
🔥132👍238❤‍🔥1
📉 Кажется, мы стали забывать БАЗУ

За последнее время я несколько раз почувствовал себя олдом. Один из них - когда понял, что многие не знают про великие курсы Анатолия Карпова по статистике!

В них Толя (один из создателей школы karpov courses) рассказывает на пальцах про все ключевые темы в статистике, которые нужно знать для начала карьеры в DS. И именно по этим курсам огромное количество людей (если верить степику, 271к+) изучали статистику :)

Все эти курсы бесплатные и лежат на степике тут:
Часть 1, Часть 2, Часть 3
🔥116👍17😁9❤‍🔥53
🎓 Где можно потренироваться писать код на SQL?

Если вы только изучили основы SQL (или собираетесь это сделать), то очень советуем закрепить знания на практике.
В рамках собеседований на DS позиции очень часто просят реализовывать различные запросы, попрактиковаться с этим перед интервью всегда полезно.

1. Тренажер ДВФУ на Степике
В начале есть теория, можешь начинать разбираться прям с нуля
Хорошая база чтобы понять базовый синтаксис, но практически нет заковыристых задач

2. Классика жанра, sql-ex.ru
Огромное количество задач, на которых можно поупражняться с самыми разными запросами.
Иногда причиняет боль. На sql-ex есть будто бы вообще всё, что только можно придумать. Это и плюс, и недостаток. Иногда сложно найти то, что нужно именно вам

2. SQLTest - наглядный сервис для нарешивания задачек
Ограниченное число задач, которые очень похожи на то, что реально приходится считать в жизни. Из минусов - их относительно немного и все они крутятся вокруг одного набора данных

4. SQL Academy - Сервис с очень приятным и понятным интерфейсом, частично платный
Из крутого - в нём можно повизуализировать связи таблиц, интерактивно порассматривать схемы данных и т.д. Задач много и они разбиты по уровням

5. Симулятор SQL от Karpov.Courses
В нём есть и блок теории, и блок практики, в котором можно потыкаться с реальными задачками

Если хотите больше подобных подборок - накидывайте 🔥 под постом!
🔥74❤‍🔥126👍2
🚀Вакансия в Яндекс Лавку

На связи Рома Васильев, создатель этого канала 🙂
Ищу себе человека в команду аналитики ассортимента Яндекс.Лавки.
Формальное описание вакансии можно почитать тут

Чем предстоит заниматься:
- Аналитика матчинга товаров, разработка алгоритмов матчинга, метрик и отчетов поверх них
- Автоматизация процессов запуска новых товаров
- Разработка новых метрик и отчетов для оценки эффективности ассортимента

Что нужно знать, что будет на собесах:
- SQL, Python
- Статистику и теор. вер (используем для оптимизации алгоритмов и проведения тестов)

Ищу кандидатов уровня middle/middle+, если у вас есть опыт работы в е-коме - вдвойне круто.
За подробностями и с откликами можно приходить в личку
❤‍🔥24🔥10😁32
2025/10/13 02:21:53
Back to Top
HTML Embed Code: