Telegram Web
🖋 Решение задач со дня стажёра Яндекса, часть 2

Давайте наберём 160 огоньков 🔥, и мы сделаем третью часть решения задач с этого поста
P.S. Спасибо за внимательность телезрителю из Москвы))
🔥1595
🏆 Тренировки по ML и Yandex Cup!

Этой осенью Яндекс запускает 2 классных движа, в которых стоит поучаствовать:

1. Тренировки по Machine Learning
Помимо классических тренировок по алгоритмам, в этом году запускается новое направление тренировок по ML, созданное совместно с ШАДом.
Начало 30-го октября, успевайте зарегистрироваться!

2. Yandex Cup
В этом чемпионате стоит поучаствовать как продвинутым data scientist’ам, так и новичкам, чтобы прокачать свои навыки (а возможно и выиграть приз). Всего есть 6 направлений, в которые входят Аналитика и Машинное обучение. Соревнование делится на 3 этапа:
1) 23-29 октября - Квалификация
2) 4 ноября - Полуфинал
3) 2-3 декабря - Финал

Примеры задач на аналитику: *тык*
Аннотации к ML задачам: *тык*
Регистрация открыта до 23:00 29 октября по МСК!

Ставьте:
❤️ – если записались на тренировки
🔥– если зарегались на Yandex Cup
❤️‍🔥 – если зарегистрировались и туда, и туда
26❤‍🔥14👍6🔥3
Про ML-секции в Яндексе

Нашлось старое, но вполне ещё актуальное видео про то, как проходить ML-секции в Я.
На примере кейса (система подсказка географических объектов) разбирается то, какие вопросы задавать и на что обращать внимание.

Короткий план решения:
1. Стоит уточнить постановку задачи и узнать, где решение будет использовать реализованы ли уже какие-то элементы решения
2. Метрики: бизнес-метрики и технические метрики
3. Что делать на старте? Нужно ли здесь вообще машинное обучение?
4. Если всё-таки хотим обучать модель: данные для обучения, разбиение на train-test, какую модель стоит обучать, как её принимать


Видео тут

Если хотите больше историй про прохождение собеседований - накидайте 🔥 этому посту!)
🔥578👍6❤‍🔥1
​​🎨 Классный ресурс, чтобы освежить в памяти темы по ML

Если вы более-менее знаете английский и хотите быстро повторить темы по Machine Learning - вам сюда
Всего тут три больших блока, в каждом из которых есть много интересных визуализаций:
– ML
– ML-Engineering
– Проективная геометрия
– Еще немного по DL

Ставьте огоньки 🔥, если штука и вправду полезная, и сердечки ❤️, если добавили пост себе в избранное))
🔥4323👍1
🎲 50 задачек по теории вероятностей с решениями

В дополнение к посту с подборкой задачников по теории вероятностей делимся с вами оригиналом книжки с 50-ю задачами на тервер и их решениями! Если вы не боитесь английского, то хорошей идеей перед собеседованием будет сесть и прорешать десяток таких задачек, чтобы освежить свои знания по теорверу 🙂. А если боитесь - то в посте с подборкой есть перевод задачника

Вот одна из задачек оттуда:
Купоны в коробках с хлопьями пронумерованы от 1 до 5, и для получения приза требуется набор из 5 различных купонов (1, 2, 3, 4 и 5). Если в каждой коробке по одному купону, то сколько коробок в среднем потребуется для того, чтобы получить такой набор?

Ответ:
≈ 11.42. А решение можно найти на 29-й страничке сборника

Кстати, некоторые задачки из сборника встречаются в бесплатном курсе по теории вероятности от Computer Science Club, который оочень рекомендуется к прохождению

Зажигайте огоньки 🔥 под этим постом и делитесь в комментариях своими любимыми задачками по теории вероятностей)
🔥656👍1
Воскресили ссылку в закрепленном сообщении 🙂
В ближайшее время докинем туда в том числе и последние посты!

Ребята, очень хочется как-то оживить наш канал, что-то в последнее время больно мало активности здесь. Это можно сделать как внутренне (проводя прямые эфиры-мероприятия), так и внешне (устраивая розыгрыши с другими каналами)

В связи с этим, решили провести пару опросов:
23👍9❤‍🔥5
Несколько хороших статей про метрику Retention

Наверное, одна из важнейших метрик у любого продукта - Retention. Если вы еще не знаете, что это такое - бегом читайте статьи ниже! А если думаете, что знаете, - читайте тем более, ведь всего за полчаса можно получить столько интересных мыслей 🙂

Как считать Retention rate: про разницу между N-day retention и Rolling Retention + еще несколько способов расчета метрики
Рычаги влияния на Retention: на примере Uber'a показывают, какие ключевые факторы определяют Retention и как можно повлиять на них
Долгосрочный Retention Matter: на примере мобильных игр разбирают, почему нужно учитывать долгосрочный Retention и как именно это можно делать

Мы заметили, что посты про метрики собирают маловато реакций(
Давайте исправим это – если вам заходят такие посты, жмите огонёк 🔥 под ними!
🔥87👍111
🎻 Ансамбли машинного обучения за 30 минут

Недавно лазили по блогу Александра Дьяконова и наткнулись на статью 2019 года про ансамбли, которая и по сей день остаётся одним из самых подробных обзоров про ансамблирование в рунете.

Ансамблем (Ensemble, Multiple Classifier System) называется алгоритм, который состоит из нескольких алгоритмов машинного обучения


В посте рассматриваются:
– Комитеты (голосование) / усреднение
– Бэггинг
– Случайные леса
– Бустинг
– Стекинг и блендинг
– Однородные ансамбли
– Ансамбли старой школы

Чтобы полностью понять публикацию, достаточно базовых знаний ML и теории вероятностей.
Читайте статью, и не забывайте ставить огоньки под нашими постами! 🔥
🔥48😁1🤩1
🔬 3 популярных метода кластеризации

Кластеризация -
это задача разбиения объектов на конечное число классов без обучающей выборки, то есть задача обучения без учителя

Самые популярные методы кластеризации это:
1. K-Means
2. Иерархическая агломеративная кластеризация
3. DBSCAN

Разобраться в них вам поможет:
1.
Хендбук от Яндекса (понятно, что нужно быть более-менее математически подкованным)
2. Видяшки от StatQuest c наглядным объяснением:
[ENG] K-Means
[ENG] Hierarchical Clustering
[ENG] DBSCAN
3. Документация scikit-learn на русском
4.[ENG]
Ноутбук с демонстрацией применения этих методов в решении реальной задачи
5. Интерактивные визуализации, чтобы посмотреть, как работают методы:
[ENG]
K-Means
[ENG] DBSCAN

Ставьте лайки
👍 на этот пост, и пишите в комментариях, про что вы бы ещё хотели увидеть публикации

P.S. Конечно, это не все методы. На картинке можно увидеть результаты работы этих и других методов кластеризации на различных датасетах 🙂
👍56🔥65
2025/10/18 08:23:23
Back to Top
HTML Embed Code: