Telegram Web
🐈 Твой будущий пет-проект поэтапно, ч. 2: парсим, предобрабатываем и изучаем данные

Прошлые части:
1.
Откуда взять идею и данные

В прошлой части (которая невероятно быстро набрала 50 реакций!) мы рассказали, откуда можно взять идею для твоего пет–проекта. Скорее всего, она будет попадать в одну или несколько категорий из следующих 5 (в зависимости от того, что ты хочешь развивать):
Аналитика + визуализация (e.g. сделать красивый дашборд)
Обучение моделек (e.g. дообучить llmку)
Сбор и подготовка данных (e.g. настроить регулярный парсинг)
Развертывание моделей (e.g. поднять llamу)
А/Б, проверка гипотез (e.g. провести стат тест)

В этой серии постов постараемся затронуть все категории проектов и их этапы. И первые этапы (сбор данных, предобработка и EDA) подходят для большинства категорий

# Сбор данных
В прошлой части рассказали про то, откуда брать данные, но не рассказали, что делать, если вы не нашли подходящего датасета. В таком случае можно найти источник, и:
1) Вытащить данные через API
– Вот тут лежит небольшой список самых очевидных API
– Обычно к API всегда есть документация, и достать оттуда данные не составляет проблемы
2) Если API нет, спарсить их
– Про парсинг мы уже писали подробный пост, которого вполне достаточно для большинства сайтов
– Если у сайта сильная защита, то, скорее всего, вам стоит подумать над другим источником данных 🙂
– Если не хочется писать скрипты, то есть готовые воркфлоу в хайповой lowcode платформе n8n, их можно найти тут (кстати, в бигтехах все чаще используется лоукод, если хотите пост про опенсорсный lowcode, то нужно набрать 50 сердечек ❤️ на этом посте)

# Предобработка данных
– Самую базу можно найти, например, в этой статейке
– Про предобработку текстов можно почитать тут
– Про работу с изображениями можно посмотреть слайды из Вышки
Статейка с полезными штуками для препроцессинга временных рядов

# EDA (Исследовательский анализ данных)
– Разведочный анализ включает в себя построение графичков, тесное знакомство с данными, извлечение инсайтов из них
– Если вы новичок, и вам нужно понять, что такое exploratory data analysis, прочитайте эту статью
Тут есть наш пост с ссылками на лекции Александра Дьяконова
– А еще мы писали
про то, как чувак делал EDA для музыкантов с last.fm, менее научно, но можно посмотреть для развлечения
– Если вы решили делать пет-проект в рамках кагл-соревы, можете посмотреть пример EDA для соревнования

Чтобы вышла следующая часть, давайте наберем 150 🔥 под этим постом, и добьем первый уровень для канала (забустить по ссылке), чтобы мы могли публиковать сторисы
А еще обязательно пишите в комментариях свои вопросы по пет-проектам, и мы постараемся ответить на них прямо там же или в следующих частях 🙂
🔥10415❤‍🔥3😁3
Магистратура как способ войти в Айти

В последнее время открылось очень много классных магистратур по DS совместно с ТОП-компаниями.
Чем они отличаются от обычных магистратур?
💭 Преподают дисциплины не только преподаватели ВУЗа, но и опытные аналитики и ML-щики из индустрии
💭 Программы практико-ориентированные, а значит будет что показать в портфолио и резюме
💭 Учат актуальным навыкам, которые используются в компаниях
💭 Компании-партнеры предоставляют стажировки и способствуют трудоустройству в компанию
💭 Прокачивают до конкретного уровня на рынке. Какие-то программы до джун+, какие-то до миддл+

Собрали для вас подборку магистратур с бюджетными местами, в которые еще открыт набор в этом году:

🎓 ВШЭ x Авито: Машинное обучение в цифровом продукте. Обучение проходит очно и онлайн, Авито оплачивает обучение 30 будущим магистрам, кто лучше всех пройдет отбор. Стоимость платного - 600 тыс. в год. Подать документы можно до 8го августа. Подробнее прочитать можно еще и у Авито
🎓
ФКН ВШЭ х Яндекс: Современные компьютерные науки. Очное обучение, 52 бюджетных места. Программа включает в себя data science, теоретическую информатику, инфраструктуру больших данных. Вступительные испытания - экзамен по математике и программированию + собеседование. Податься можно до 8 августа. Стоимость платного обучение - 490 тыс. в год
🎓 ИТМО х ВК: Программирование и ИИ. Очное обучение с возможностью обучаться онлайн, 43 бюджетных места. Прием документов до 19го августа. Можно поступить через личные достижения или сдать вступительный экзамен. Стоимость платного обучения - 599 тыс. в год
🎓 ВШЭ СПБ х ВК: Машинное обучение и анализ данных. Очное обучение и 30 бюджетных мест. Студенты проходят практики и стажировки как в российских компаниях VK, Biocad, Сбер, Яндекс, Газпромнефть, так и международных JetBrains, Huawei. Прием документов до 8го августа, а узнать, как лучше подготовиться к вступительным ВК описали тут. Стоимость платного обучения - 390 тыс. в год
🎓ВШЭ х Сбер: Финансовые технологии и анализ данных. Очное обучение, Сбер покрывает 100% стоимости обучение 30 студентам. Вступительные испытания - экзамен по вышмату и собеседование. Пройти их и подать документы можно до 8го августа. Стоимость платного обучения - 490 тыс. в год

Ставьте 👍, если хотите больше постов про магистратуру и образовательные курсы
P.S. давайте поднажмём и накинем бустов каналу (осталось совсем немного до следующего уровня), чтобы наш контент стал ещё интереснее и разнообразнее
👍46😁74
Магистратура по искусственному интеллекту МТС x ФКН ВШЭ

Недавно мы писали про магистратуры по DS / ML / ИИ, появилась ещё одна достойная!

Основное:
– 30 оплачиваемых мест от МТС;
– Обучение проходит в очном формате в московском кампусе ВШЭ;
– Занятия ведут преподаватели ВШЭ и действующие эксперты-практики из МТС и MTS AI, а для проектов можно использовать виртуальную инфраструктуру компании;
– После и во время обучения можно получить оффер;
– Есть канал для абитуриентов, в котором отвечают на вопросы и помогают с подготовкой к поступлению

В программе передовые методы машинного и глубинного обучения: большие языковые модели, генеративные нейросети, инструменты компьютерного зрения и распознавания естественного языка.

Детали можно изучить на сайте
😁42🔥2👍1
👩‍💼 Как развить бизнес видение?

Бесспорно, для аналитиков любого грейда крайне важно помимо хард скиллов, также и бизнес видение. Не зря бигтехи проверяют и то, и другое на разных этапах собеса. Поэтому прокачивать его так же нужно, как и нарешивать литкод или задачки по терверу.

Небольшой список общих советов:
👉 Ходите на конференции, где разбираются реальные кейсы: матемаркетинг, aha!, датафест
👉 Читайте каналы по интересующей вас тематике, а еще полезно почитать разные каналы с отчетностями компаний, чтобы понять, на чем они зарабатывают и на какие метрики смотрят, например, @businessincognita и @expertosphere
👉 Читайте книги, которые развивают бизнес-видение, например, The Data Detective и How To Measure Anything. Отдельно рекомендуем "Спроси маму" Роба Фитцпатрика, она научит вас правильно задавать вопросы клиенту и понимать, что реально он хочет, а в чем вообще не заинтересован. Саммари есть на хабре, но админы читали целиком и вам советуют

А теперь подборка, если вам нужно все и сразу за короткий срок перед собесом:
🔎 Школа менеджеров Яндекса: возможность заглянуть в закулисье яндекса, построения продукта и принятия решений в нем
🔎 Платформа growth.design, на которой в формате комиксов разбираются различные продуктовые кейсы мировых топ-компаний. Узнали про нее от Макса из Заскуль Питона, оч советуем подробнее про эту крутую платформу прочитать у него.
🔎 Блог GoPractice – много классных бесплатных статей про продуктовый менеджмент, маркетинг и аналитику. А если понравится, то у них есть и платные симуляторы
🔎 Блоги компаний. Например, Авито, Яндекса, Альфа-банка. Выбирайте статьи, относящиеся к бизнес-части и прокачивайте насмотренность по принятию решений, которые влияют на то, что вы видите в своем смартфоне. Отдельно рекомендуем читать блоки компаний, куда вы планируете собеседоваться в ближайшее время. Проверенно повышает успешность прохождения собеседований, тк вы становитесь не просто аналитиком, а аналитиком, знакомым с целями, вызовами и последними решениями компаний

Ставьте лайки 👍, если было полезно, и давайте добьем каналу следующий уровень, осталось совсем немного!
👍36❤‍🔥8🔥5😁41
🎓 Готовимся к стажировке вместе. Часть 1: Корпорации больше не берут джунов?

Крупные компании все реже нанимают джуниоров. Вместо этого — активно набирают стажеров, расширяют программы стажировок и переманивают мидлов.

Почему так?
💸Компании предпочитают растить кадры «с нуля» через стажировки и оставлять лучших себе, полностью закрывая внутреннюю потребность в джунах
💸За чуть большие деньги проще взять мидла с 1-2 годами опыта, чем учить джуна с риском, что он уйдет через полгода

Что делать если вы джун и хотите поскорее ворваться в работу?
Ищите и откликайтесь на стажировки — это новый вход в профессию. Проще пройти стажировку за 3 месяца, чем полгода бесконечно скролить HH и проходить собесы
Растите опыт через стартапы, пет-проекты (о них мы писали выше) и хакатоны

А прямо сейчас открыт отбор на стажировку по аналитике, DS и ML здесь:
💸 Альфа-Банк
💸 OzonTech
💸 Яндекс
💸 T1
💸 ВТБ
💸 X5Tech
💸 t2 (ex. Tele2)
💸 Wildberries

Ставьте ❤️, если вам интересны стажировки, и 🔥, если вы уже активно готовитесь и подаетесь на стажи, и задавайте интересующие вас вопросы в форме – ответим на них в одном из следующих постов или придем к вам в лс)
53🔥18
Всем привет! Хочу снова порекомендовать канал @zasql_python

Канал ведет Senior Product Analyst в 🛒, ранее работал в Яндекс 🍫 Лавке, 💙

Популярные посты

Шпаргалки по SQL
Роадмап для продуктового аналитика / аналитика данных
Для чего нужен ML в аналитике

Личные размышления автора

Визибилити в организации
Внезапные влеты
Поиск роста для аналитика
Встречи или работа: где найти золотую середину аналитика?

Блок продуктовых кейсов: пост1, пост2, пост3

Подписывайтесь, здесь много всего интересного для аналитиков.
Please open Telegram to view this post
VIEW IN TELEGRAM
11😁2
🎓 Готовимся к стажировке вместе. Часть 2: Пробное собеседование

Заботать алгоритмы, тервер, метрики и прочее - это лишь часть дела. Главное – это уметь продемонстрировать свои знания и навыки на собесе.
И чтобы натренировать этот полезный скилл, можно делать как минимум три вещи:
1. Смотреть, как кто-то проходит собеседования
2. Проходить собеседования самим
3. Симулировать прохождение собеседования


– Посмотреть, как проходят собеседования, можно, например, по ссылкам из нашего поста: раз, два
– Проходить собеседования самим рискованнее, ведь в множестве компаний есть фризы на найм после неудачных собеседований. Да и попасть на собеседование бывает тяжело
– Третий пункт многие недооценивают, но пробные собеседования снижают стресс во время прохождения реального интервью, выявляют слабые места, отрабатывают структуру ответа и помогают понять ожидания интервьюера

Кто может провести такое собеседование?
Наилучший вариант отработать пробное собеседование со своим ментором или более опытным коллегой/товарищем. Также бигтехи иногда проводят такую акцию в рамках своих мероприятий

Но если такой возожности нет, нейронки в помощь!

Подготовили для вас два самых рабочих варианта:
1) Диалог с ГПТ (можно использовать бесплатный deepseek / любую другую llm-ку)
Пишете промт:
Привет! Мне предстоит [укажите названии секции] в компанию [укажите название компании и команды, если уже знаете,] на позицию [укажите роль и грейд, на который будете собеседоваться]. Стань моим интервьюером, чтобы я лучше мог подготовиться к нему. Задавай мне вопрос, я тебе в чат буду писать ответ, затем давай мне краткий фидбэк по нему.


Если не хотите писать вручную, есть wispr flow – транскрибатор с бесплатным пробным периодом

2) Google Ai stream.
Пишете такой же промпт, но нужно уточнить про общение голосом. Затем общаетесь с ассистентом в режиме реального интервью, где и вы, и он разговариваете голосом.

3) Есть уже готовые сервисы подготовки к собесам на основе нейронок, например, @DataismPrepBot или https://prepfully.com, можно попробовать их

Если хотите третью часть про подготовку к стажировке, ставьте огоньки 🔥 под этот пост, и пишите в комментарии, про что должна быть следующая часть!
🔥359❤‍🔥2
Готовимся к стажировке вместе. Часть 3: почему полезно общаться с рекрутерами?

Многие будущие стажеры воспринимают взаимодействие с рекрутером исключительно как возможность узнать, на какое время назначена секция или какая обратная связь получена от прошедшей секции. Чтобы лучше подготовиться и проявить себя на секциях, важно использовать переписку с рекрутером как способ задать вопросы и подробнее узнать о предстоящих этапах. Спойлер: в этом нет ничего странного и рекрутеры реагируют на такое спокойно или даже положительно)

Подготовили для вас список вопросов, которые полезно задать рекрутеру

Перед теоретическими секциями спроси:
Вопросы из какой области будут на интервью, чего стоит ожидать -> будешь знать, что стоит повторить перед секцией - не будет паники или неопределенности
Какие материалы лучше прочитать/повторить, чтобы лучше проявить себя на секции -> рекрутеры часто рекомендуют материалы и короткие курсы по темам, которые часто спрашивают на собесах
Нужно ли будет решать задачи по математике и терверу? Если да, то по каким темам чаще всего спрашивают? -> повторив темы, можно заранее порешать задачки, чтобы освежить в памяти использование формул на практике и не пытаться долго вспомнить на собесе
Какой длительности будет секция и сколько вопросов обычно на ней задают -> зная тайминги, лучше понимаешь, сколько времени уделять на ответ, чтобы успеть ответить на все вопросы интервьюера, но приэтом, чтобы ответы была полными и раскрывающими знания

Перед секцией с лайв-кодингом (алгоритмы или SQL):
Какого уровня будут задачи на секции (для алгоритмов можно уточнить уровня easy, medium или hard литкода, для SQL - с использованием оконок или без них) -> зная уровень, понимаешь, на что нацеливаться и нарешивать, готовясь к собесу
В какой среде можно писать код во время собеса -> у каждой компании свои ограничения во время секций: кто-то предоставляет лишь блокнот без подсветки синтаксиса, кто-то предоставляет блокнот с подсветкой, некоторые компании разрешают писать в привычной среде и демонстрировать экран. Заранее зная ограничения, к ним можно подготовиться и привыкнуть, чтобы во время секции не испытывать дискомфорт и сконцентрироваться исключительно на решении задачи
Какое время отводится на решение задач, сколько их будет, и можно ли пользоваться поисковиком во время секции -> у каждой компании свои правила проведений код-секций, поэтому важно понимать их заранее, чтобы выстроить стратегию решения

Перед финалом с командой спроси:
Из какого бизнес-подразделения команда, чем она занимается -> ищем в медиа-пространстве статьи, чтобы подробнее узнать про команду, быть в контексте. Если информации нет или недостаточно, идем в гпт, чтобы подробнее узнать, чем такие команды могут заниматься и какие вопросы на финале могут задавать
Какие вызовы и цели сейчас стоят перед командой -> зная это, можно понять, какого стажера сейчас ищет команда и какие навыки в приоритете, чтобы показать их на собеседовании
Какая структура у финала: рассказ о себе, обсуждение предстоящих задач, генераций идей по кейсу в риал-тайме или что-то другое -> если есть решение кейса, обязательно повтори бизнес-метрики и погрузись в материалы из подборки про развитие бизнес-видения. Для рассказа о себе - заранее подготовь убедительный спич, подсветив, все важное о себе и своих достижениях, опыте. Составь список вопросов, которые хочешь задать команде о своих будущих задачах и треке развития: так команда убедится, что тебе действительно интересно то место, куда ты идешь

На самом деле, есть еще немало секретов прохождения на стажировку, которые не выкладывают публично в каналах. Поэтому, если хотите узнать больше – пишите в личку!


Ставьте 🔥, если хотите такой же подробный пост про первичный созвон с HR
🔥26❤‍🔥54
🚀 Ребята из Авито проводят открытое собеседование на DS’a!

13 октября в 18:30 пройдет открытое интервью с реальным кандидатом, на котором коллеги покажут всё изнутри – от постановки задачи до того, как дается финальный фидбэк.
Разберут кейс из собеседований, обсудят влияние ML-решений на продукт и покажут, по каким факторам отбирают кандидатов.

Интервью проводят руководители DS-направлений Авито - Максим Каширин и Александр Ледовский.
Кандидат - Дмитрий Савелко, LLM-инженер и автор блога Еbout Data Science.

Участие бесплатное, зарегистрироваться можно по ссылке
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥175❤‍🔥2
2025/10/12 08:51:05
Back to Top
HTML Embed Code: