💘 Увеличить чувствительность А/В теста без смс и регистрации
Мы уже делали посты про CUPED:
1) Статья от аналитиков Авито
2) Выступление Валерия Бабушкина
Эти материалы классные, но могут быть сложноваты для новичка.
Недавно от аналитиков Х5 Group вышла новая статья про CUPED - прочитав которую, как будто, даже новичку станет понятно, что это за зверь такой.
Авторы дают не только интуитивное понимание метода, но и математическое обоснование, пример кода и советы по применению
Ставьте огоньки под этим постом (давайте наберём 50🔥), и обязательно читайте статью!
CUPED (Controlled-experiment Using Pre-Experiment Data) - техника увеличения чувствительности А/Б тестов за счет использования данных, полученных ранее
Мы уже делали посты про CUPED:
1) Статья от аналитиков Авито
2) Выступление Валерия Бабушкина
Эти материалы классные, но могут быть сложноваты для новичка.
Недавно от аналитиков Х5 Group вышла новая статья про CUPED - прочитав которую, как будто, даже новичку станет понятно, что это за зверь такой.
Авторы дают не только интуитивное понимание метода, но и математическое обоснование, пример кода и советы по применению
Ставьте огоньки под этим постом (давайте наберём 50🔥), и обязательно читайте статью!
Хабр
А/Б тестирование с CUPED: детальный разбор
Хабр, привет! Сегодня обсудим, как применять CUPED для повышения чувствительности А/Б тестов. Рассмотрим на простом примере принцип работы CUPED, покажем теоретически за счёт чего снижается дисперсия...
🔥54👍6❤3
👁 Мягкий вход в Computer Vision
Мы в SCiDS много пишем про классические алгоритмы машинного обучения. Но очень часто у нас спрашивают "А вот как зашарить DL?", "Хочу в NLP/CV - что читать?" и т.д. Решили писать про это больше 🙂
А тут у недавно вышло крутое видео от Бориса про то, что происходит в архитектурах Computer Vision моделей. Причём начинается всё с логистической регрессии, а заканчивается трансформерами. В общем, для первого погружения в CV (при условии что вы понимаете классическую машинку) - самое то.
[Ссылка на видео]
Накидывайте 🔥 если хотите больше постов про NLP/CV!
Мы в SCiDS много пишем про классические алгоритмы машинного обучения. Но очень часто у нас спрашивают "А вот как зашарить DL?", "Хочу в NLP/CV - что читать?" и т.д. Решили писать про это больше 🙂
А тут у недавно вышло крутое видео от Бориса про то, что происходит в архитектурах Computer Vision моделей. Причём начинается всё с логистической регрессии, а заканчивается трансформерами. В общем, для первого погружения в CV (при условии что вы понимаете классическую машинку) - самое то.
[Ссылка на видео]
Накидывайте 🔥 если хотите больше постов про NLP/CV!
YouTube
История архитектур Computer Vision моделей от AlexNet до ViT // Курс «Компьютерное зрение»
Как развивались архитектуры нейронных сетей для компьютерного зрения, какие были самые значимые повороты и какие модели можно взять ""с полки"" для практических задач сегодня.
Результаты урока:
- какая история развития мысли в Computer Vision
- какие…
Результаты урока:
- какая история развития мысли в Computer Vision
- какие…
🔥43❤🔥5❤2🤩2👍1
🌐 Как выйти за пределы юпитер ноутбука?
Большинство начинающих дата-саентистов разрабатывают модельки в юпитер ноутбуках. Но на практике, как правило, используют модели не в ноутбуках, а запускают скрипты из различных систем. Что же нужно для для этого делать?
Во-первых, для выхода из ноутбука нужно научиться создавать такой код, который запускается одним нажатием Run All. Впоследствии это уже можно сохранить в виде скрипта с расширением .py и работать с ним.
Далее есть два уровня выхода из ноутбука:
1. Запуск скриптов по расписанию
a) В unix-системах есть команда cron, которая позволяет регулярно запускать скрипты. В своём скрипте вы, соответственно, можете собирать актуальные данные, прогонять их через модель и отправлять эти данные туда, куда вам нужно.
Можно настроить cron как на локалхосте, так и на каком-нибудь удаленном сервере. Подробнее про cron можно почитать здесь
b) Можно делать регулярные операции с данными в скрипте с помощью библиотеки scheduler, закинув скрипт на Амверу/ Render/ какие-то подобные сервисы, где он будет крутиться
2. Запуск пайплайнов по расписанию
1) Apache Airflow - система, с помощью которой можно запускать пайплайны по расписанию: автоматически собирать данные, передавать в модель и что-то делать с выходными данными модели
2) MLFlow - запуск пайплайнов по расписанию + мониторинг (на смещение скора, на входные фичи и т. д.)
Про него и другие опенсорсные решения для MLOps на Хабре есть классная статья
Еще про продуктивизацию ml моделей есть классный плейлист, стоит посмотреть, если хотите разобраться в этой теме 🙂
Ставьте огоньки, если было полезно (наберем 70 🔥?) и пишите в комментариях, про что бы вам еще хотелось увидеть посты
Большинство начинающих дата-саентистов разрабатывают модельки в юпитер ноутбуках. Но на практике, как правило, используют модели не в ноутбуках, а запускают скрипты из различных систем. Что же нужно для для этого делать?
Во-первых, для выхода из ноутбука нужно научиться создавать такой код, который запускается одним нажатием Run All. Впоследствии это уже можно сохранить в виде скрипта с расширением .py и работать с ним.
Далее есть два уровня выхода из ноутбука:
1. Запуск скриптов по расписанию
a) В unix-системах есть команда cron, которая позволяет регулярно запускать скрипты. В своём скрипте вы, соответственно, можете собирать актуальные данные, прогонять их через модель и отправлять эти данные туда, куда вам нужно.
Можно настроить cron как на локалхосте, так и на каком-нибудь удаленном сервере. Подробнее про cron можно почитать здесь
b) Можно делать регулярные операции с данными в скрипте с помощью библиотеки scheduler, закинув скрипт на Амверу/ Render/ какие-то подобные сервисы, где он будет крутиться
2. Запуск пайплайнов по расписанию
1) Apache Airflow - система, с помощью которой можно запускать пайплайны по расписанию: автоматически собирать данные, передавать в модель и что-то делать с выходными данными модели
2) MLFlow - запуск пайплайнов по расписанию + мониторинг (на смещение скора, на входные фичи и т. д.)
Про него и другие опенсорсные решения для MLOps на Хабре есть классная статья
Еще про продуктивизацию ml моделей есть классный плейлист, стоит посмотреть, если хотите разобраться в этой теме 🙂
Ставьте огоньки, если было полезно (наберем 70 🔥?) и пишите в комментариях, про что бы вам еще хотелось увидеть посты
Хабр
Cron в Linux: история, использование и устройство
Классик писал, что счастливые часов не наблюдают. В те дикие времена ещё не было ни программистов, ни Unix, но в наши дни программисты знают твёрдо: вместо них за временем проследит cron. Утилиты...
🔥114👍11❤6🤩4
🔍 Поиск оптимальных гиперпараметров для модели
Гиперпараметры модели – это настройки, которые определяют как саму структуру модели, так и способ её обучения.
Например, у случайного леса они могут быть такими:
– Количество деревьев (n_estimators)
– Максимальная глубина деревьев (max_depth)
– Минимальное количество объектов в листе (min_samples_leaf)
– Максимальное количество признаков для разбиения (max_features)
Чтобы получить самую лучшую модель, нужно как-то подобрать эти гиперпараметры. Есть несколько способов:
🤪 «Тупой» перебор гиперпараметров
– Grid Search - просто перебор всевозможных комбинаций значений гиперпараметров
– Random Search - перебор случайных наборов гиперпараметров (в том случае, когда Grid Search слишком долгий)
🤓 «Умный» перебор гиперпараметров
– Bayesian Optimization - метод, который сочетает вероятностные модели с методами оптимизации для эффективного поиска оптимальных гиперпараметров
– Другие умные методы - реализованы, например, во фреймворке Optuna - библиотеке, которая представляет высокоуровневый интерфейс для оптимизации гиперпараметров
Причем иногда «тупой» рандомный перебор работает лучше, чем «умный» (так бывает, потому что рандомный может случайно найти глобальный минимум, а умный может зациклиться на локальном). Чтобы понять, что лучше подойдёт в вашем случае, можно попробовать оба способа
Подробнее про подбор гиперпараметров написано вот в этой статье, с примерами, инструментами и классными советами 🙂
Читайте статью и ставьте сердечки под этим постом!(наберем 70 ❤️?)
Гиперпараметры модели – это настройки, которые определяют как саму структуру модели, так и способ её обучения.
Например, у случайного леса они могут быть такими:
– Количество деревьев (n_estimators)
– Максимальная глубина деревьев (max_depth)
– Минимальное количество объектов в листе (min_samples_leaf)
– Максимальное количество признаков для разбиения (max_features)
Чтобы получить самую лучшую модель, нужно как-то подобрать эти гиперпараметры. Есть несколько способов:
🤪 «Тупой» перебор гиперпараметров
– Grid Search - просто перебор всевозможных комбинаций значений гиперпараметров
– Random Search - перебор случайных наборов гиперпараметров (в том случае, когда Grid Search слишком долгий)
🤓 «Умный» перебор гиперпараметров
– Bayesian Optimization - метод, который сочетает вероятностные модели с методами оптимизации для эффективного поиска оптимальных гиперпараметров
– Другие умные методы - реализованы, например, во фреймворке Optuna - библиотеке, которая представляет высокоуровневый интерфейс для оптимизации гиперпараметров
Причем иногда «тупой» рандомный перебор работает лучше, чем «умный» (так бывает, потому что рандомный может случайно найти глобальный минимум, а умный может зациклиться на локальном). Чтобы понять, что лучше подойдёт в вашем случае, можно попробовать оба способа
Подробнее про подбор гиперпараметров написано вот в этой статье, с примерами, инструментами и классными советами 🙂
Читайте статью и ставьте сердечки под этим постом!(наберем 70 ❤️?)
Хабр
Гиперпараметрический поиск и оптимизация моделей
При создании моделей машинного обучения существует одна важная составляющая, которая часто остается за кадром, но имеет решающее значение для достижения высокой производительности и точности — это...
❤82👍6🔥5🤩1
💼 Как быстро вспомнить основные идеи в ML перед собеседованием?
Если вы только начинаете карьеру, то на собеседованиях в DS вас точно будут спрашивать про то, как работают конкретные алгоритмы.
Какое-то время назад мы решили сделать серию видео для того, чтобы быстро вспомнить все ключевые идеи!
Пока что вышло не так много видео, но если хотите какое-то особенное - пишите в комментариях 🙂
1. Линейная регрессия. Что спросят на собеседовании? ч.1 - про основные идеи линейной регресии, предобработку признаков, fit-predict и регуляризацию
2. Линейная регрессия. Что внутри sklearn? Зачем градиентный спуск? Что спросят на собеседовании? ч.2 - про то, какие реализации линейной регрессии есть и как они работают под капотом
3. Функционалы потерь и метрики регрессии. Простым языком! - все базовые метрики и функционалы потерь регрессии в одном видео
4. Логистическая регрессия, самое простое объяснение! - как устроена логистическая регрессия, что оптимизирует и почему аппроксимирует вероятности.
Оставляйте 🔥 под видео, каждый из них приблизит момент выпуска следующих видео!)
Если вы только начинаете карьеру, то на собеседованиях в DS вас точно будут спрашивать про то, как работают конкретные алгоритмы.
Какое-то время назад мы решили сделать серию видео для того, чтобы быстро вспомнить все ключевые идеи!
Пока что вышло не так много видео, но если хотите какое-то особенное - пишите в комментариях 🙂
1. Линейная регрессия. Что спросят на собеседовании? ч.1 - про основные идеи линейной регресии, предобработку признаков, fit-predict и регуляризацию
2. Линейная регрессия. Что внутри sklearn? Зачем градиентный спуск? Что спросят на собеседовании? ч.2 - про то, какие реализации линейной регрессии есть и как они работают под капотом
3. Функционалы потерь и метрики регрессии. Простым языком! - все базовые метрики и функционалы потерь регрессии в одном видео
4. Логистическая регрессия, самое простое объяснение! - как устроена логистическая регрессия, что оптимизирует и почему аппроксимирует вероятности.
Оставляйте 🔥 под видео, каждый из них приблизит момент выпуска следующих видео!)
YouTube
Линейная регрессия. Что спросят на собеседовании? ч.1
0:00 - О чём видео, дисклеймер
0:39 - План видео
1:09 - Что такое линейная регрессия? Основные идеи и особенности алгоритма
2:57 - Нужно ли предобрабатывать признаки моя линейных моделей? Если да, то как?
4:57 - Что подразумевается под fit() и predict() в…
0:39 - План видео
1:09 - Что такое линейная регрессия? Основные идеи и особенности алгоритма
2:57 - Нужно ли предобрабатывать признаки моя линейных моделей? Если да, то как?
4:57 - Что подразумевается под fit() и predict() в…
🔥86❤12👍12❤🔥6
🐶 Пет-проекты для начинающего Data Scientistа
Во-первых, это позволит вам понять, действительно ли вы заинтересованы в этой сфере.
Во-вторых, точно прокачает ваши навыки.
Ну и в-третьих, его можно будет указать в резюме, если у вас не было опыта работы. Собеседующий точно заметит, если вы будете с энтузиазмом рассказывать про свои проекты
В идеале в вашем проекте должны быть затронуты все этапы работы с данными:
1. Получение данных:
- Можно спарсить данные, например, с помощью библиотек BeautifulSoup, Scrapy или Selenium (если под этим постом наберётся 100 сердечек ❤️, мы расскажем про парсинг подробнее)
- Можно поработать с какой-нибудь APIшкой для получения данных (например, с api ХедХантера для вакансий)
- Можно скачать датасет из открытых источников, например, с Kaggle или Google Dataset Search
2. Исследовательский анализ данных (EDA):
- Повизуализировать данные с помощью библиотек вроде Matplotlib, Seaborn или Plotly для нахождения закономерностей и аномалий
- Поприменять статистический анализ для понимания распределений и тестирования гипотез
3. Предобработка данных:
- Почистить данные от пропусков и выбросов
- Преобразовать типы данных, нормализировать и стандартизировать их
- Попробовать придумать новые признаки для повышения точности моделей
4. Построение моделей:
- Понять, какой алгоритм машинного обучения будет эффективнее в вашей задаче (от линейной регрессии до градиентного бустинга и глубокого обучения)
- Оптимизировать его гиперапараметры
5. Настройка регулярных процессов (про это, кстати, у нас был пост):
- Автоматизировать сбор и обновление данных через скрипты
- Настроить автоматическое переобучение моделей с новыми данными
6. Работа с большими данными:
- Попробовать поработать с Hadoop/Spark для обработки большого объема данных (если под этим постом наберётся 150 сердечек❤️, мы расскажем подробнее про MapReduce)
- Понять, что в вашем проекте это совсем ни к чему и использовать для хранения и обработки данных, например, PostgreSQL или MongoDB
7. Деплой модели:
- Юзануть Docker контейнеры для упаковки и деплоя моделей и приложений
- Познакомиться с облачными платформами, такими как AWS, Google Cloud или Azure для развертывания моделей
Будет очень классно, если идея проекта придет к вам в процессе решения какой-нибудь задачи из жизни. Если же идей нет, можно взять их отсюда:
– 10 проектов по data science для начинающих
– 36 идей для проектов по аналитике данных
(просто вбиваете в поиск “идеи пет-проекта для data scientistа” 😁)
Ставьте сердечки❤️ под этим постом, если было полезно, и начинайте делать свой первый пет-проект, если еще не начали!
Pet-project
- это небольшой личный проект в любой отрасли для портфолио и/или собственного удовольствия. Начинающему дата саентисту почти что необходимо сделать какой-нибудь
(пусть даже совсем небольшой)
пет-проект
Во-первых, это позволит вам понять, действительно ли вы заинтересованы в этой сфере.
Во-вторых, точно прокачает ваши навыки.
Ну и в-третьих, его можно будет указать в резюме, если у вас не было опыта работы. Собеседующий точно заметит, если вы будете с энтузиазмом рассказывать про свои проекты
В идеале в вашем проекте должны быть затронуты все этапы работы с данными:
1. Получение данных:
- Можно спарсить данные, например, с помощью библиотек BeautifulSoup, Scrapy или Selenium (если под этим постом наберётся 100 сердечек ❤️, мы расскажем про парсинг подробнее)
- Можно поработать с какой-нибудь APIшкой для получения данных (например, с api ХедХантера для вакансий)
- Можно скачать датасет из открытых источников, например, с Kaggle или Google Dataset Search
2. Исследовательский анализ данных (EDA):
- Повизуализировать данные с помощью библиотек вроде Matplotlib, Seaborn или Plotly для нахождения закономерностей и аномалий
- Поприменять статистический анализ для понимания распределений и тестирования гипотез
3. Предобработка данных:
- Почистить данные от пропусков и выбросов
- Преобразовать типы данных, нормализировать и стандартизировать их
- Попробовать придумать новые признаки для повышения точности моделей
4. Построение моделей:
- Понять, какой алгоритм машинного обучения будет эффективнее в вашей задаче (от линейной регрессии до градиентного бустинга и глубокого обучения)
- Оптимизировать его гиперапараметры
5. Настройка регулярных процессов (про это, кстати, у нас был пост):
- Автоматизировать сбор и обновление данных через скрипты
- Настроить автоматическое переобучение моделей с новыми данными
6. Работа с большими данными:
- Попробовать поработать с Hadoop/Spark для обработки большого объема данных (если под этим постом наберётся 150 сердечек❤️, мы расскажем подробнее про MapReduce)
- Понять, что в вашем проекте это совсем ни к чему и использовать для хранения и обработки данных, например, PostgreSQL или MongoDB
7. Деплой модели:
- Юзануть Docker контейнеры для упаковки и деплоя моделей и приложений
- Познакомиться с облачными платформами, такими как AWS, Google Cloud или Azure для развертывания моделей
Будет очень классно, если идея проекта придет к вам в процессе решения какой-нибудь задачи из жизни. Если же идей нет, можно взять их отсюда:
– 10 проектов по data science для начинающих
– 36 идей для проектов по аналитике данных
(просто вбиваете в поиск “идеи пет-проекта для data scientistа” 😁)
Ставьте сердечки❤️ под этим постом, если было полезно, и начинайте делать свой первый пет-проект, если еще не начали!
Хабр
Data Science Pet Projects. FAQ
Привет! Меня зовут Клоков Алексей, сегодня поговорим о пет-проектах по анализу данных. Идея написать эту статью родилась после многочисленных вопросов о личных проектах в сообществе Open Data Science...
❤234👍13🔥4
💼 Как научиться проходить собесы?
Лучший способ -проходить собесы. Ну, или смотреть как это делают другие 🙂
Вот Вадим не щадит себя, проходит их везде где можно и выкладывает записи!
Самые интересные видео с канала:
1. Собес на DS'a в Сбер
2. Собес на Senior DS'a в Райф
3. Как составить резюме программисту. Полный гайд
4. Полный гайд по собеседованию в IT — рабочий алгоритм
Подписывайтесь на Вадима, в его каналах можно найти много интересного 🙂
Куда идти: Tg, YouTube
Лучший способ -
Вот Вадим не щадит себя, проходит их везде где можно и выкладывает записи!
Самые интересные видео с канала:
1. Собес на DS'a в Сбер
2. Собес на Senior DS'a в Райф
3. Как составить резюме программисту. Полный гайд
4. Полный гайд по собеседованию в IT — рабочий алгоритм
Подписывайтесь на Вадима, в его каналах можно найти много интересного 🙂
Куда идти: Tg, YouTube
YouTube
Как составить резюме программисту. Полный гайд
https://offer.gernar.ru/?utm_source=youtube&utm_content=1ZBdnUKeIGg — ОФФЕР ПОД КЛЮЧ 🔑
Возможно-ли, сделать идеальное резюме начинающего программиста без опыта так, чтобы не облажаться на первых же шагах в поиске работы в IT? Да, это не просто возможно —…
Возможно-ли, сделать идеальное резюме начинающего программиста без опыта так, чтобы не облажаться на первых же шагах в поиске работы в IT? Да, это не просто возможно —…
🔥45👍10❤2❤🔥1😁1
💼 Вакансии в различные направления DS, Аналитики и ML
Наши друзья сделали канал с вакансиями для ребят всех уровней: от стажёров до лидов!
Чем он отличается от прочих подобных:
1. Заранее отметаются сомнительные компании и сомнительные вакансии
2. По каждой вакансии делается короткая выжимка, чтобы бытро понять надо оно вам или нет
3🌟. К каждой вакансии ребята цепляют подборку материалов по ней. Если компания малоизвестная - скажут где почитать про неё, если направление своеобразное - дадут статью/набор статей, которые позволят понять что происходит
В общем, ОЧЕНЬ рекомендуем подписаться на Your Dream Data Job!
Наши друзья сделали канал с вакансиями для ребят всех уровней: от стажёров до лидов!
Чем он отличается от прочих подобных:
1. Заранее отметаются сомнительные компании и сомнительные вакансии
2. По каждой вакансии делается короткая выжимка, чтобы бытро понять надо оно вам или нет
3🌟. К каждой вакансии ребята цепляют подборку материалов по ней. Если компания малоизвестная - скажут где почитать про неё, если направление своеобразное - дадут статью/набор статей, которые позволят понять что происходит
В общем, ОЧЕНЬ рекомендуем подписаться на Your Dream Data Job!
Telegram
Your Dream Data Job
Рассказываем про офигенные вакансии напрямую.
Чтобы понять позицию, к каждой вакансии даём полезные материалы для чтения!
Чтобы понять позицию, к каждой вакансии даём полезные материалы для чтения!
❤🔥11👍9❤7😁2
🐘 MapReduce - что это такое?
Если говорить по-простому, то MapReduce - это модель распределенных вычислений, которая необходима, чтобы считать то, что либо нужно делать быстрее, либо то, на что не хватает памяти (либо и то, и то)
Обычно системы MapReduce используются в больших компаниях, которым нужно обрабатывать петабайты данных. Самый распространенный фреймворк - Hadoop, но некоторые компании создают свои MapReduce системы (например, в Яндексе своя система называется Ыть)
Чтобы понять, что такое MapReduce, во-первых, советуем глянуть это видео [ENG]
А во-вторых, стоит по порядку прочитать эти две статьи, в которых автор (имхо) супер доступно, с примерами, объясняет, как устроена модель MapReduce:
– MapReduce без зауми, ч.1 - автор статьи рассказывает, как он, столкнувшись с задачей посчитать количество всех слов в Википедии, сам еще раз “придумал” MapReduce
– MapReduce без зауми, ч.2 - тут уже разбираются более-менее реальные SQL-ные операции
Если вы собираетесь работать в крупной IT-компании, вам нужно знать, что такое MapReduce. Поэтому смотрите видео, читайте статьи (раз, два) и оставляйте огонёчки 🔥 под этим постом, если он вам понравился))
Если говорить по-простому, то MapReduce - это модель распределенных вычислений, которая необходима, чтобы считать то, что либо нужно делать быстрее, либо то, на что не хватает памяти (либо и то, и то)
Обычно системы MapReduce используются в больших компаниях, которым нужно обрабатывать петабайты данных. Самый распространенный фреймворк - Hadoop, но некоторые компании создают свои MapReduce системы (например, в Яндексе своя система называется Ыть)
Чтобы понять, что такое MapReduce, во-первых, советуем глянуть это видео [ENG]
А во-вторых, стоит по порядку прочитать эти две статьи, в которых автор (имхо) супер доступно, с примерами, объясняет, как устроена модель MapReduce:
– MapReduce без зауми, ч.1 - автор статьи рассказывает, как он, столкнувшись с задачей посчитать количество всех слов в Википедии, сам еще раз “придумал” MapReduce
– MapReduce без зауми, ч.2 - тут уже разбираются более-менее реальные SQL-ные операции
Если вы собираетесь работать в крупной IT-компании, вам нужно знать, что такое MapReduce. Поэтому смотрите видео, читайте статьи (раз, два) и оставляйте огонёчки 🔥 под этим постом, если он вам понравился))
YouTube
What is MapReduce?
Building efficient data centers that can hold thousands of machines is hard enough. Programming thousands of machines is even harder. One approach pioneered by Google is known as MapReduce. MapReduce provides a programming model that simplifies programming…
🔥45👍11❤6😁2
Побеждаем рутину в Data Science: как перестать быть недопрограммистами и недоисследователями
Ребята из Альфы во главе с Женей написали клёвую статью, которая позволит отлично понять как устроена работа в Data Science.
Про что рассказывают в статье:
👨🏫 Причины возникновения рутины с точки зрения пользователя, бизнеса и дата сайентистов
💪 Примеры процессов, в которых удалось побелить рутину внутри банка
📈 Тренды и новые вызовы области, как за ними угнаться
Мне статья понравилась, советую почитать 🙂
Ребята из Альфы во главе с Женей написали клёвую статью, которая позволит отлично понять как устроена работа в Data Science.
Про что рассказывают в статье:
👨🏫 Причины возникновения рутины с точки зрения пользователя, бизнеса и дата сайентистов
💪 Примеры процессов, в которых удалось побелить рутину внутри банка
📈 Тренды и новые вызовы области, как за ними угнаться
Мне статья понравилась, советую почитать 🙂
Хабр
Побеждаем рутину в Data Science: как перестать быть недопрограммистами и недоисследователями
Data Science ниндзя побеждает рутину и выводит зрелость своей функции на новый уровень. Профессия Data Scientist сейчас стала особенно привлекательна, вовлекая еще больше энтузиастов и даже...
❤16👍7🔥5
✍️ Подробный пост про парсинг
В написании этого поста нам помог Семёнов Богдан, который имеет богатый опыт в парсинге 🙂. Давайте отблагодарим его сердечками под этим постом! ❤️
Вообще, процесс парсинга вебсайта можно разделить на два этапа:
1. Получение html-документа
2. Выбор нужной информации из этого документа
Для получения html-ины используют:
1. Обычный requests, если на сайте вообще нет защиты от парсинга
2. Инструменты для автоматизации веб-браузера, чтобы сайт пропустил вас:
- Selenium - читайте актуальную документацию, потому что, например, ChatGPT-3.5 выдает функции, которых уже нет
- Puppeteer
Для того, чтобы распарсить html-ину, можно использовать:
1. BeautifulSoup
2. Scrapy
📜 5 советов для парсинга:
1. Если на сайте стоит капча, то можно использовать патч Selenium, который не запускает антиботовые сервисы. Вот видос, как с его помощью можно распарсить LinkedIn (внимание, некоторые методы Selenium-а оттуда устарели)
2. Для того, чтобы не быть забаненным по IP, нужно использовать прокси. Вообще, есть разные виды прокси. В идеале использовать ротирующиеся прокси, чтобы они постоянно менялись, и их не банили.
А можно делать так:
– Закупаете несколько (штук 5) прокси (например, тут)
– Пишете код, чтобы менять их с некоторой частотой (норм руководство)
3. Если капча кастомная, то вам, скорее всего придётся вводить её вручную. Для того, чтобы пришёл сигнал, что с парсером что-то пошло не так, можно сделать простенького бота в телеграме, который будет уведомлять вас (если хотите пост про создание тг ботов - давайте наберем 50 огоньков🔥)
4. Seleniumом парсить долго. Ускорить парсинг можно, забирая cookies и headers из Selenium-а, и кидая их в requests. Но это может работать не на всех сайтах(
5. Иногда Selenium залагивает, чтобы бороться с этим, можно ставить ему таймауты –, например, если страница не прогрузилась за 60 секунд, стопать процесс селениума и пересоздавать с этого же урла новый.
Ещё несколько классных советов есть в этой статье, обязательно прочитайте её 🙂
И ставьте сердечки ❤️ под этим постом, если было полезно (если наберем 250, расскажем про парсинг с мобильных приложений)
В написании этого поста нам помог Семёнов Богдан, который имеет богатый опыт в парсинге 🙂. Давайте отблагодарим его сердечками под этим постом! ❤️
Вообще, процесс парсинга вебсайта можно разделить на два этапа:
1. Получение html-документа
2. Выбор нужной информации из этого документа
Для получения html-ины используют:
1. Обычный requests, если на сайте вообще нет защиты от парсинга
2. Инструменты для автоматизации веб-браузера, чтобы сайт пропустил вас:
- Selenium - читайте актуальную документацию, потому что, например, ChatGPT-3.5 выдает функции, которых уже нет
- Puppeteer
Для того, чтобы распарсить html-ину, можно использовать:
1. BeautifulSoup
2. Scrapy
📜 5 советов для парсинга:
1. Если на сайте стоит капча, то можно использовать патч Selenium, который не запускает антиботовые сервисы. Вот видос, как с его помощью можно распарсить LinkedIn (внимание, некоторые методы Selenium-а оттуда устарели)
2. Для того, чтобы не быть забаненным по IP, нужно использовать прокси. Вообще, есть разные виды прокси. В идеале использовать ротирующиеся прокси, чтобы они постоянно менялись, и их не банили.
А можно делать так:
– Закупаете несколько (штук 5) прокси (например, тут)
– Пишете код, чтобы менять их с некоторой частотой (норм руководство)
3. Если капча кастомная, то вам, скорее всего придётся вводить её вручную. Для того, чтобы пришёл сигнал, что с парсером что-то пошло не так, можно сделать простенького бота в телеграме, который будет уведомлять вас (если хотите пост про создание тг ботов - давайте наберем 50 огоньков🔥)
4. Seleniumом парсить долго. Ускорить парсинг можно, забирая cookies и headers из Selenium-а, и кидая их в requests. Но это может работать не на всех сайтах(
5. Иногда Selenium залагивает, чтобы бороться с этим, можно ставить ему таймауты –, например, если страница не прогрузилась за 60 секунд, стопать процесс селениума и пересоздавать с этого же урла новый.
Ещё несколько классных советов есть в этой статье, обязательно прочитайте её 🙂
И ставьте сердечки ❤️ под этим постом, если было полезно (если наберем 250, расскажем про парсинг с мобильных приложений)
Хабр
Как спарсить любой сайт?
Меня зовут Даниил Охлопков , и я расскажу про свой подход к написанию скриптов, извлекающих данные из интернета: с чего начать, куда смотреть и что использовать. Написав тонну парсеров, я придумал...
❤76🔥47👍12
Лучшее что вы можете сделать когда начинаете искать работы на рынке IT как в РФ, так и не РФ - прочитать методичку Бори. И начать применять знания оттуда. Очень рекомендую :)
Forwarded from Борис опять
#работа
# Методичка по поиску работы в ML/DS и IT в целом
В канале накопилось немало материала про поиск работы. Я собрал, дополнил и превратил всё в небольшую книжку.
Все кратко и по делу. Чтения минут на 30. Внутри рассматриваю поиск работы с самых азов и до деталей с примерами из жизни.
https://btseytlin.github.io/intro.html
Если вы давно читаете этот канал и хотели бы ему помочь, то вот лучший способ: скиньте методичку кому-то из друзей.
@boris_again
# Методичка по поиску работы в ML/DS и IT в целом
В канале накопилось немало материала про поиск работы. Я собрал, дополнил и превратил всё в небольшую книжку.
Все кратко и по делу. Чтения минут на 30. Внутри рассматриваю поиск работы с самых азов и до деталей с примерами из жизни.
https://btseytlin.github.io/intro.html
Если вы давно читаете этот канал и хотели бы ему помочь, то вот лучший способ: скиньте методичку кому-то из друзей.
@boris_again
👍40🔥25😁2🤩1
🐈 CatBoost - супер удобный градиентный бустинг
Про то, как работает градиентный бустинг можно почитать, например, в статье с обзором ансамблей машинного обучения или в хендбуке от Яндекса. Одна из самых лучших библиотек для градиентного бустинга над деревьями решений – CatBoost. С этой библиотекой побеждают в соревнованиях на kaggle, она используется для решения задач классификации в крупных компаниях
Её преимущества:
– Встроенная обработка категориальных данных (их не нужно предобрабатывать, просто выставить гиперпараметры)
– Уменьшенный риск переобучения
– Высокая скорость работы и эффективность на больших объемах данных
– Встроенная обработка пропущенных значений
– Классная визуализация
Чтобы разобраться с этой библиотекой, стоит:
– Почитать официальную документацию
– [ENG] Посмотреть тетрадку с обзором катбуста
– Почитать статью про катбуст
🦖[ENG] Посмотреть видео от StatQuest (часть 1 и часть 2)
🌶 Посмотреть видео от Computer Science Club
Ставьте огоньки 🔥 под этим постом, и пишите в комментариях, про что написать ещё)
Градиентный бустинг
- это техника машинного обучения для задач классификации и регрессии, которая строит модель предсказания в форме ансамбля слабых предсказывающих моделей, обычно деревьев решений.
Каждая следующая модель в ансамбле уменьшает ошибку предыдущей модели
Про то, как работает градиентный бустинг можно почитать, например, в статье с обзором ансамблей машинного обучения или в хендбуке от Яндекса. Одна из самых лучших библиотек для градиентного бустинга над деревьями решений – CatBoost. С этой библиотекой побеждают в соревнованиях на kaggle, она используется для решения задач классификации в крупных компаниях
Её преимущества:
– Встроенная обработка категориальных данных (их не нужно предобрабатывать, просто выставить гиперпараметры)
– Уменьшенный риск переобучения
– Высокая скорость работы и эффективность на больших объемах данных
– Встроенная обработка пропущенных значений
– Классная визуализация
Чтобы разобраться с этой библиотекой, стоит:
– Почитать официальную документацию
– [ENG] Посмотреть тетрадку с обзором катбуста
– Почитать статью про катбуст
🦖[ENG] Посмотреть видео от StatQuest (часть 1 и часть 2)
🌶 Посмотреть видео от Computer Science Club
Ставьте огоньки 🔥 под этим постом, и пишите в комментариях, про что написать ещё)
catboost.ai
CatBoost is a machine learning algorithm that uses gradient boosting on decision trees. It is available as an open source library.
🔥65❤6👍6
🌐 ML на графах для решения задачи матчинга
Один из наших подписчиков, Иван, написал очень крутую статью про решение задач матчинга с помощью графовых нейронных сетей.
А если конкретнее - про применение алгоритмов кластеризации на графах при поиске одинаковых товаров в онлайн-магазине.
Классический подход для решения такой задачи состоит из двух этапов:
1. Подбор кандидатов. На этом этапе используется грубый, но быстрый алгоритм для подбора большого количества схожих объектов, потенциальных пар
2. Проверка пар моделью (т. н. матчинг) — более точная проверка того, действительно ли в паре одинаковые объекты.
У объекта может быть более одного дубликата, и хочется их объединять в одну группу, один кластер.
Просто склеить все найденные пары в один кластер — не лучшая идея, поскольку предсказания модели на 2 этапе имеют не нулевой процент ошибок, а такая склейка их только размножит.
В статье рассказывается про то, как алгоритмы Community Detection позволяют эту проблему решать
Статья на хабре тут
Один из наших подписчиков, Иван, написал очень крутую статью про решение задач матчинга с помощью графовых нейронных сетей.
А если конкретнее - про применение алгоритмов кластеризации на графах при поиске одинаковых товаров в онлайн-магазине.
Классический подход для решения такой задачи состоит из двух этапов:
1. Подбор кандидатов. На этом этапе используется грубый, но быстрый алгоритм для подбора большого количества схожих объектов, потенциальных пар
2. Проверка пар моделью (т. н. матчинг) — более точная проверка того, действительно ли в паре одинаковые объекты.
У объекта может быть более одного дубликата, и хочется их объединять в одну группу, один кластер.
Просто склеить все найденные пары в один кластер — не лучшая идея, поскольку предсказания модели на 2 этапе имеют не нулевой процент ошибок, а такая склейка их только размножит.
В статье рассказывается про то, как алгоритмы Community Detection позволяют эту проблему решать
Статья на хабре тут
Хабр
Два сапога — пара, а три — уже community: как алгоритмы на графах помогают собирать группы товаров
Привет, Хабр! Меня зовут Иван Антипов, я занимаюсь ML в команде матчинга Ozon. Наша команда разрабатывает алгоритмы поиска одинаковых товаров на сайте. Это позволяет покупателям находить более...
❤29🔥19❤🔥4👍3
🧑🎓 Leetcode по ML/DS
Думаю, все знают про leetcode, с помощью которого можно отлично натаскаться на алгоритмические задачки.
Нашли аналогичный сервис по ML/DS задачкам, на котором можно попрактиковаться в решении задач по SQL, Python, Теории вероятностей и статистике. В нём собраны задачки, которые спрашивают топовых компаниях вроде Tesla/Twitter/Facebook/Linkedin и т.д.
Отличная штука для того, чтобы попрактиковаться перед собеседованием 🙂
https://datalemur.com/questions
Думаю, все знают про leetcode, с помощью которого можно отлично натаскаться на алгоритмические задачки.
Нашли аналогичный сервис по ML/DS задачкам, на котором можно попрактиковаться в решении задач по SQL, Python, Теории вероятностей и статистике. В нём собраны задачки, которые спрашивают топовых компаниях вроде Tesla/Twitter/Facebook/Linkedin и т.д.
Отличная штука для того, чтобы попрактиковаться перед собеседованием 🙂
https://datalemur.com/questions
🔥132👍23❤8❤🔥1
📉 Кажется, мы стали забывать БАЗУ
За последнее время я несколько раз почувствовал себя олдом. Один из них - когда понял, что многие не знают про великие курсы Анатолия Карпова по статистике!
В них Толя (один из создателей школы karpov courses) рассказывает на пальцах про все ключевые темы в статистике, которые нужно знать для начала карьеры в DS. И именно по этим курсам огромное количество людей (если верить степику, 271к+) изучали статистику :)
Все эти курсы бесплатные и лежат на степике тут:
Часть 1, Часть 2, Часть 3
За последнее время я несколько раз почувствовал себя олдом. Один из них - когда понял, что многие не знают про великие курсы Анатолия Карпова по статистике!
В них Толя (один из создателей школы karpov courses) рассказывает на пальцах про все ключевые темы в статистике, которые нужно знать для начала карьеры в DS. И именно по этим курсам огромное количество людей (если верить степику, 271к+) изучали статистику :)
Все эти курсы бесплатные и лежат на степике тут:
Часть 1, Часть 2, Часть 3
🔥116👍17😁9❤🔥5❤3
💼 Лучший способ подготовиться к собеседованиям - проходить собеседования.
Или смотреть как это делают другие
1. A/B-тесты с Валерием Бабушкиным - собеседование с акцентом на АБ-тестах
2. Собеседование на аналитика данных от Толи Карпова
3. [ENG] Полноценное DS мок-интервью на английском
Предыдущие пачки моков в нашем канале можно найти тут и тут
1. A/B-тесты с Валерием Бабушкиным - собеседование с акцентом на АБ-тестах
2. Собеседование на аналитика данных от Толи Карпова
3. [ENG] Полноценное DS мок-интервью на английском
Предыдущие пачки моков в нашем канале можно найти тут и тут
YouTube
A/B-тесты с Валерием Бабушкиным | Собеседование | karpov.courses
Симулятор A/B-тестов: @
Представьте, что вы работаете в физическом ритейле. Команда машинного обучения разрабатывает алгоритм ценообразования. Как оценить его эффективность с помощью A/B-теста?
Смотрите новое собеседование, чтобы узнать, как с этой задачей…
Представьте, что вы работаете в физическом ритейле. Команда машинного обучения разрабатывает алгоритм ценообразования. Как оценить его эффективность с помощью A/B-теста?
Смотрите новое собеседование, чтобы узнать, как с этой задачей…
👍20🔥5❤4
🎓 Где можно потренироваться писать код на SQL?
Если вы только изучили основы SQL (или собираетесь это сделать), то очень советуем закрепить знания на практике.
В рамках собеседований на DS позиции очень часто просят реализовывать различные запросы, попрактиковаться с этим перед интервью всегда полезно.
1. Тренажер ДВФУ на Степике
В начале есть теория, можешь начинать разбираться прям с нуля
Хорошая база чтобы понять базовый синтаксис, но практически нет заковыристых задач
2. Классика жанра, sql-ex.ru
Огромное количество задач, на которых можно поупражняться с самыми разными запросами.
Иногда причиняет боль. На sql-ex есть будто бы вообще всё, что только можно придумать. Это и плюс, и недостаток. Иногда сложно найти то, что нужно именно вам
2. SQLTest - наглядный сервис для нарешивания задачек
Ограниченное число задач, которые очень похожи на то, что реально приходится считать в жизни. Из минусов - их относительно немного и все они крутятся вокруг одного набора данных
4. SQL Academy - Сервис с очень приятным и понятным интерфейсом, частично платный
Из крутого - в нём можно повизуализировать связи таблиц, интерактивно порассматривать схемы данных и т.д. Задач много и они разбиты по уровням
5. Симулятор SQL от Karpov.Courses
В нём есть и блок теории, и блок практики, в котором можно потыкаться с реальными задачками
Если хотите больше подобных подборок - накидывайте 🔥 под постом!
Если вы только изучили основы SQL (или собираетесь это сделать), то очень советуем закрепить знания на практике.
В рамках собеседований на DS позиции очень часто просят реализовывать различные запросы, попрактиковаться с этим перед интервью всегда полезно.
1. Тренажер ДВФУ на Степике
В начале есть теория, можешь начинать разбираться прям с нуля
Хорошая база чтобы понять базовый синтаксис, но практически нет заковыристых задач
2. Классика жанра, sql-ex.ru
Огромное количество задач, на которых можно поупражняться с самыми разными запросами.
Иногда причиняет боль. На sql-ex есть будто бы вообще всё, что только можно придумать. Это и плюс, и недостаток. Иногда сложно найти то, что нужно именно вам
2. SQLTest - наглядный сервис для нарешивания задачек
Ограниченное число задач, которые очень похожи на то, что реально приходится считать в жизни. Из минусов - их относительно немного и все они крутятся вокруг одного набора данных
4. SQL Academy - Сервис с очень приятным и понятным интерфейсом, частично платный
Из крутого - в нём можно повизуализировать связи таблиц, интерактивно порассматривать схемы данных и т.д. Задач много и они разбиты по уровням
5. Симулятор SQL от Karpov.Courses
В нём есть и блок теории, и блок практики, в котором можно потыкаться с реальными задачками
Если хотите больше подобных подборок - накидывайте 🔥 под постом!
Stepik: online education
Интерактивный тренажер по SQL
В курсе большинство шагов — это практические задания на создание SQL-запросов. Каждый шаг включает минимальные теоретические аспекты по базам данных или языку SQL, примеры похожих запросов и пояснение к реализации.
🔥74❤🔥12❤6👍2
🚀Вакансия в Яндекс Лавку
На связи Рома Васильев, создатель этого канала 🙂
Ищу себе человека в команду аналитики ассортимента Яндекс.Лавки.
Формальное описание вакансии можно почитать тут
Чем предстоит заниматься:
- Аналитика матчинга товаров, разработка алгоритмов матчинга, метрик и отчетов поверх них
- Автоматизация процессов запуска новых товаров
- Разработка новых метрик и отчетов для оценки эффективности ассортимента
Что нужно знать, что будет на собесах:
- SQL, Python
- Статистику и теор. вер (используем для оптимизации алгоритмов и проведения тестов)
Ищу кандидатов уровня middle/middle+, если у вас есть опыт работы в е-коме - вдвойне круто.
За подробностями и с откликами можно приходить в личку
На связи Рома Васильев, создатель этого канала 🙂
Ищу себе человека в команду аналитики ассортимента Яндекс.Лавки.
Формальное описание вакансии можно почитать тут
Чем предстоит заниматься:
- Аналитика матчинга товаров, разработка алгоритмов матчинга, метрик и отчетов поверх них
- Автоматизация процессов запуска новых товаров
- Разработка новых метрик и отчетов для оценки эффективности ассортимента
Что нужно знать, что будет на собесах:
- SQL, Python
- Статистику и теор. вер (используем для оптимизации алгоритмов и проведения тестов)
Ищу кандидатов уровня middle/middle+, если у вас есть опыт работы в е-коме - вдвойне круто.
За подробностями и с откликами можно приходить в личку
❤🔥24🔥10😁3❤2