Telegram Web
Всем привет!

Мы в нашу команду маркетинговой аналитики в Promodo срочно ищем Web-аналитика уровня Middle.

Требования:

- Навыки работы с Google Analytics: настройка аккаунта/ресурса/представления, настройка целей и фильтров, настройка сегментов и применение их в отчётах. Будет большим плюсом, если у вас есть опыт настройки стандартной и расширенной электронной торговли и опыт работы с Measurement Protocol.

- Навыки работы с Google Tag Manager: настройка и создание переменных, триггеров, тегов, настройка передачи событий в системы аналитики и рекламные сервисы, понимание принципа работы dataLayer.

- Навыки работы с BI инструментами - Google Data Studio и Power BI.

- Знания SQL: будет большим плюсом навык работы с Google BigQuery.

- Знания Python или R хотя бы на базовом уровне.

- Знание основных маркетинговых каналов привлечения трафика и их особенностей (PPC, SEO, Email).

Если вы хорошо знакомы с сервисами мобильной аналитики, такими как Firebase Analytics и AppsFlyer и вы работали с сервисами Google Cloud - у вас большое преимущество😉

Чем предстоит заниматься:

- Настраивать и проводить аудит настроек веб-аналитики (Google Analytics и Google Tag Manager).

- Настраивать аналитику мобильных приложений (написание ТЗ на внедрение SDK и настройку событий для Firebase Analytics, AppsFlyer, Facebook Analytics, настройка dynamic links).

- Создавать end-to-end решения (сквозную аналитику) для маркетинга на базе Google Cloud.
Лично обучу всем тонкостям по тому, как создавать масштабируемые аналитические платформы в облаке Google, какие сервисы можно использовать для той или другой задачи и как применять DevOps практики в Google Cloud. В общем, кто хочет развиваться в дата инжиниринге, welcome! :)

- Создавать аналитическую отчётность на базе Google Data Studio и Power BI.

- Проводить A/B-тесты на сайте с использованием Google Optimize.

- Проводить продуктовую аналитику сайта (анализ воронки, поведенческих метрик и др.).

- Создавать отчёты по эффективности медийной рекламы.

- Создавать модели прогнозирования с использованием Python или R.


Сайт нашей компании, чтобы узнать больше: https://promodo.ua/

Если вы из Украины, то можете присылать резюме руководителю нашего отдела аналитики @kateguzevataya
Наша команда находится в Харькове, но мы готовы рассмотреть специалистов и из других городов.

В первую очередь нас интересует опыт работы с веб-аналитикой (Google Analytics и Google Tag Manager). По другим навыкам - если у вас нет большого опыта, но есть базовые знания и понимание, то всё равно присылайте резюме. Если вы самостоятельный специалист и быстро обучающийся, мы это очень ценим!
Вижу, что часто поступают запросы от новичков по поводу того, что учить и в каком порядке, чтобы войти в сферу работы с данными и получить первую работу.

Действительно, сейчас настолько много технологий и инструментов, что во всём этом многообразии легко растеряться. Поэтому, я решил немного внести ясность и написать серию постов о процессе обучения человека, который до этого не имел никакого опыта работы с данными. Также оставлю ссылки на полезные ресурсы, где вы можете получить необходимые знания и навыки.

Итак, вот мой список того, что необходимо учить и в каком порядке:

1. Google Sheets / Excel. Если вы находитесь в самом начале пути и никогда на практике не работали хоть с какими-то данными, то нужно начать с самых-самых основ, т.е. изучить фундаментальные принципы работы с данными. Google Sheets или Excel, по моему мнению, отлично подходят для этой задачи, так как здесь вы можете без знаний каких-либо языков программирования "пощупать" данные, сделать все базовые операции с ними и понять разницу между плоской и сводной таблицами:)
В Excel вы можете провести быструю оценку данных (посмотреть количество ячеек, сумму значений в конкретном столбце, среднее значение и т.д.), сделать предварительную обработку (поменять тип данных, заменить символы и т.д.) и агрегацию данных (построить сводную таблицу), применить различные функции к данным для дальнейшего анализа.
Конечно, очевидно, что со знаниями одного Excel вас вряд ли возьмут на какую-то серьёзную позицию в компании, но вы поймёте фундаментальные концепции и пройдёте практически через все стадии цикла работы с данными.

По поводу ресурсов здесь сложно что-то конкретное посоветовать, потому что я учил эксельку в универе ещё)
Поэтому, здесь ищите и выбирайте, что вам больше нравится.

2. SQL и теория баз данных. Я уже писал, что SQL - это must have навык для любой позиции в работе с данными. Поэтому, просто учите его и больше практикуйтесь. Как только увидите, что решаете уже задачи средней и высокой сложности, можете уже составлять резюме и стучаться в разные компании на позиции Trainee или Junior. Скорее всего, на этом этапе вы будете помогать в разработке хранилища данных более опытным специалистам, архитекторам и BI-разработчикам. Отсюда вытекает следующий навык)

Ресурсы по изучению SQL и теории баз данных:

Интерактивный тренажёр по SQL (курс)
Оконные функции в SQL
Лучшие вопросы средней сложности по SQL на собеседовании аналитика данных
Онлайн тренажер с упражнениями по SQL
Задачки на LeetCode
Глава книги Олега Агапова об инжиниринге данных про теорию баз данных на GitHub

3. Знание BI-инструмента. Я бы рекомендовал в первую очередь изучить либо Power BI, либо Tableau, так как это, наверное, самые популярные инструменты, и они встречаются во многих вакансиях. 2 BI инструмента изучать ни к чему - не будете знать хорошо ни один из них. Выберите какой-то один.
После изучения не нужно думать, что вы не готовы к реальной работе и хвататься за очередные курсы, которые вам мало, что дадут. Смело составляйте резюме. Со знаниями SQL и BI-инструмента уже можно получить работу начинающего BI-разработчика и получать реальный опыт. Реальный опыт во много раз ценнее, чем десятки пройденных курсов.

Ресурсы по изучению Power BI и Tableau:

Полезные материалы по Power BI в одном месте
Tableau Tutorial


Google Sheets / Excel, SQL и BI - база, которая позволит вам с нуля войти в сферу работы с данными и получать реальный опыт. Дальше вы уже можете выбрать дальнейшее направление для развития. От выбранного направления будет зависеть то, что вам нужно будет изучать. Я выделяю 5 основных направлений:

1) Инжиниринг данных
2) Data-аналитика
3) Продуктовая аналитика и web-аналитика
4) Визуализация
5) Data Science

В ближайшие дни опишу навыки и их порядок изучения для каждого направления. Должно быть полезно.
В прошлом посте я описал навыки, которые необходимы для входа в профессию в работе с данными человеку, который начал свой путь с 0. Также я предоставил ссылки на полезные ресурсы по их освоению.

Пост закончился тем, что после освоения базовых навыков, можно углубляться в одно из 5 направлений и развиваться в нём.

Поэтому, с этого поста я начну писать о навыках, которые нужны в этих направлениях и так же приложу ссылки на полезные курсы, статьи и видео. И начнём мы с направления Data Engineering - моего любимого направления, в котором я развиваюсь сам)

Ок, мы разобрались с экселькой, базами данных, SQL и научились на достаточном уровне пользоваться одним из BI-инструментов. Что учить дальше и в каком порядке, чтобы стать инженером данных? Вот мой список:

1. Принципы ETL/ELT, основные форматы файлов (csv, xlsx, xml, json), архитектура "клиент-сервер", web-технологии (REST API, webhook).
Речь здесь идёт больше о понимании технологий, а не конкретных инструментах. Но для понимания принципов ETL/ELT вы можете установить какой-нибудь ETL-инструмент себе на компьютер (например, Pentaho Data Integration) и попробовать построить относительно простые data-пайплайны.
Лично я сразу пробовал строить ETL-процесс с использованием Python и SQL, но когда я только начинал разбираться в data-инжиниринге, я не знал о ETL-инструментах с графическим интерфейсом:)
Но, если вы никогда не программировали, то такие инструменты будут хорошим вариантом для изучения главного процесса, за который отвечают инженеры данных.
Более того, в готовых ETL-инструментах уже есть встроенные средства для ETL-подсистем. С языком программирования внедрять и использовать ETL-подсистемы сложнее и дольше, поэтому и понять все аспекты ETL получится не так быстро, как с GUI.
В принципе, вы можете даже посмотреть вакансии ETL-разработчиков. Их не так много, как вакансий на data-инженеров, но они есть, и вы можете уже получить реальный опыт построения ETL-процессов в компании.

Полезные ресурсы для изучения:
Модуль про ETL от Data Learn
Что такое REST API
Что такое вебхуки

2. Python. После того, как вы поняли принципы ETL, изучили самые распространённые форматы файлов, с которыми работают инженеры данных и изучили базовые web-технологии, пора учиться строить data-пайплайны с использованием языков программирования.
Конечно, ETL-процессы можно строить и с использованием инструментов с графическим интерфейсом. Но если посмотреть на рынок труда, то в любой вакансии на data-инженера вы увидите как must have Python, Java или Scala. Поэтому, если хотите иметь больше возможностей и зарабатывать больше в этой сфере, нужно знать, как строить ETL с использованием кода.
Моё мнение - код придаёт больше гибкости решению и даёт больше возможностей в плане повышения качества (если вы умело программируете). По моему опыту также скажу, что, используя код, можно снизить стоимость поддержки всей аналитической инфраструктуры в несколько раз.
Также я часто в других каналах вижу вопросы по типу "Нужно учить только Python или Java/Scala?", "Почему учить Python, а не Java/Scala?" и т.д. Мой ответ: если у вас не было до этого опыта программирования, учите Python и только его. Точно не нужно распыляться на несколько языков. Python проще в освоении за счёт своей простоты синтаксиса и хорошей читабельности чужого кода. И он встречается как требование в большинстве вакансий. Да, Java и Scala быстрее в плане производительности самого кода (за счёт компиляции в машинный код), но не так много систем, где необходима наивысшая производительность кода. Да и с нынешними возможностями "железа" и облачными технологиями, имеет смысл больше уделять производительности труда инженеров, а не кода. Python как раз отлично подходит для этой цели.
Даже если вам не хватает возможностей Python, есть Spark (PySpark), который, кстати, спроектирован на Scala.
Вакансии с Java и Scala - это хороший вариант для опытных back-end разработчиков, у которых был опыт работы на этих языках и которые хотят переквалифицироваться в data-инженеров.
Процесс изучения Python рекомендую построить следующим образом:
1) Изучить базовый синтаксис языка и порешать задачки на применение этого синтаксиса.
2) После изучения синтаксиса попробовать построить простой ETL с использованием кода. Вы можете установить на свой компьютер базу данных PostgreSQL и загрузить туда какие-то данные. После этого с использованием Python извлечь данные из этой базы данных, агрегировать их, посчитать какие-то метрики и загрузить этот датасет куда-нибудь, например, в Google BigQuery.
Достаточным уровнем владения можно считать тот, при котором вы можете самостоятельно сделать ETL.

Ресурсы:
Программирование на Python
Streamlined Data Ingestion with pandas
Writing Efficient Python Code
Writing Functions in Python
Object-Oriented Programming in Python

3. Командная строка (Shell) и Linux. Допустим вы уже можете самостоятельно написать код на Python, который будет выполнять ETL. Но чтобы он работал в production и выполнялся по расписанию, нужна соответствующая среда. Такой средой могут быть Linux-сервер, Docker-контейнер, облачные сервисы по типу App Engine или Cloud Functions (Google Cloud) и др. Но чтобы, например, сделать deploy кода на сервере или в Docker-контейнере, нужно иметь базовые знания командной строки. Кроме того, командную строку можно использовать для подключения к базам данных, редактирования файлов и даже для обработки данных, не устанавливая при этом дополнительный софт.

Ресурсы для изучения:
Linux для начинающих
Data Processing in Shell
Introduction to Bash Scripting

4. Git. Git - это система контроля версий. Она позволяет эффективно работать с версиями ваших файлов с кодом, не создавая их копии и не занимая место на жёстком диске. С помощью Git вы также можете отправлять файлы в облако (облачные репозитории, такие как GitHub или Bit Bucket) для надёжного хранения и эффективной работы команды, если над проектом работает несколько инженеров. Как по мне, Git - это must have навык для всех, кто хоть как-то соприкасается с программированием.

Ресурсы для изучения:
Основы Git, GitHub и GitHub Actions

5. Docker. Очень распространённый инструмент для деплоя ETL-кода и развёртывания приложений.

Ресурсы для изучения:
Docker - Всё что нужно знать чтобы начать работать с Docker
Полное практическое руководство по Docker: с нуля до кластера на AWS

6. Базовые знания компьютерных сетей. Считаю, очень полезный и важный навык, так как к удалённым серверам и базам данных мы подключаемся, используя сетевые технологии. Мы используем различные протоколы и порты, которые позволяют нам получать и передавать данные.
Буквально на этой неделе у меня была задача по привязке статического IP-адреса к Cloud-функции (в Google Cloud) и базовые знания сетей значительно ускорили процесс настройки VPC (Virtual Privat Cloud), роутера и NAT-сервера. В общем, это классный скилл).

Ресурсы для изучения:
Курс от Microsoft
Серия постов об основах компьютерных сетей (прочитайте первые 6 глав)

Не ожидал, что так много информации будет выходить. Поэтому, наверное, разделим путь data-инженера на 2 блока.
Сегодня я описал первый блок. Этот блок включает в себя все базовые знания, которые в дальнейшем позволят изучить любую технологию или инструмент, которые нужны на конкретном проекте.
С этими знаниями вы можете спокойно претендовать на позицию Junior Data Engineer, начать получать опыт в качестве этой профессии и развивать свои скиллы. И не забываем, что мы берём ситуацию, когда у вас не было большого боевого опыта)

Вообще, если вы, например, уже начали работать в качестве BI-разработчика, как я описал в предыдущем посте, и вы планируете дальше развиваться в инжиниринге, я советую сразу находить возможности обкатывать ваши навыки на текущем месте работы. У вас есть данные, с которыми можно это делать)Просто поговорите с руководством о том, что хотите научиться этому, а там, глядишь и переквалифицируетесь сразу:)

В следующем посте опишу уже более специфические навыки, которые связаны с облачными технологиями, Big Data и DevOps практиками.
Всем привет!

В прошлом посте я начал описывать путь обучения и становления data-инженера. Контент получился подробный, и я решил разделить его на 2 части. В первой части я описал базовые навыки, которыми должен обладать data engineer, чтобы выполнять большую часть бизнес-задач и мог освоить практически любую технологию, связанную с интеграцией и обработкой данных.

Сегодня я опишу, на мой взгляд, уже более специфические навыки, связанные с конкретными инструментами и необходимые для отдельных бизнес-задач.

Итак, мы освоили базовую теорию баз данных, научились писать SQL-запросы, разобрались, что такое ETL, начали кодить на Python и деплоить наш код в production.
Что дальше?

1. Cloud Computing (облачные вычисления). Сейчас очень растёт популярность облачных технологий и всё в большем количестве вакансий в качестве требований для data-инженера отмечается опыт работы с одним из крупных облачных провайдеров - Amazon Web Services, Microsoft Azure и Google Cloud. Здесь, в первую очередь, нам нужно фундаментально понимать принципы облачных вычислений и знать основные модели предоставления услуг от облачных провайдеров: IaaS, PaaS, SaaS (есть ещё производные модели, такие как CaaS и FaaS). Для каждой модели каждый провайдер предоставляет соответствующие сервисы. В первую очередь это касается сервисов из группы Compute, которая составляет костяк любого облака.
После изучения принципов облачных вычислений, понимания основных моделей предоставления услуг и базового изучения инструментов, отвечающих за вычислительные возможности облака важно изучить продукты из группы Storage - второго основного элемента любого cloud. Здесь важно понимать, какие сервисы есть для SQL и NoSQL баз данных, что можно использовать в качестве файлового хранилища (Data Lake), а что в качестве хранилища данных (Data Warehouse).
Это база, которую нужно знать, чтобы понять возможности Cloud. Дальше вы уже можете более глубоко изучать инструменты, которые необходимы для конкретного проекта или задачи.

Очень часто вижу вопрос: "Какое облако учить?"
Мой ответ: всё зависит от того, какое облако чаще используют в вашей стране или какое облако используют компании, в которых вы хотели бы работать.
Лично у меня исторически сложилось так, что я начал работать с Google Cloud, так как я работаю с маркетинговыми данными, а у GCP много удобных бесшовных интеграций с различными маркетинговыми сервисами от Google.
Если же вы работаете или планируете работать с российским рынком, то хорошим вариантом будет Yandex Cloud. Насколько я знаю, в России есть строгие ограничения по хранению данных - данные географически должны храниться в рамках РФ. Т.е. вы не можете использовать сервера, которые находятся за пределами страны, а как раз такие сервера предоставляют 3 крупных провайдера (AWS, Azure и GCP). Yandex Cloud же может предоставить сервера внутри РФ, и вы не будете нарушать закон.

* Возможно, я чего-то не учёл здесь, поэтому поправьте меня в комментариях, если что.

Нужно знать главное - принципы у всех провайдеров одни и те же. Все делают одно и то же, просто сервисы немного отличаются. Но, если вы комфортно чувствуете себя с каким-то одним облаком, вам не составит огромного труда попробовать другое, так как вы будете понимать принципы. Поэтому, это не критически важно, какое конкретное облако вы выберете для изучения. Главное, не хватайтесь за все))Толку от такого изучения будет мало.
Ресурсы для изучения:
AWS Cloud Practitioner Essentials
Data Analytics Fundamentals
Amazon Redshift - Getting Started Guide
Azure Fundamentals part 1: Describe core Azure concepts
Azure Fundamentals part 2: Describe core Azure services
Azure Fundamentals part 3: Describe core solutions and management tools on Azure
Data Engineering, Big Data, and Machine Learning on GCP
Серия постов по Google BigQuery

2. Работа с orchestration tools (или на русском - оркестраторами). Оркестратор - это инструмент, который позволяет объединить все наши этапы по извлечению, трансформации и загрузке данных в единую логическую цепочку, в единый data-пайплайн, чтобы весь ETL-процесс работал слаженно и бесперебойно. Такими инструментами могут выступать:
1) Специализированные решения для оркестрации по типу Apache Airflow, Apache NiFi или Luigi.
2) Готовые ETL-инструменты, такие как AWS Glue, Azure Data Factory, Google Cloud Dataflow, Matillion ETL, Fivetran и др.

Также возможности оркестрации есть в таком инструменте, как Data Build Tool (dbt), но этот инструмент предназначен только для трансформаций данных внутри хранилища данных. Т.е. в ETL он делает T - transform. За E - extract и L - load этот инструмент не отвечает.

Какой из этих инструментов учить зависит, опять-таки, от многих факторов: популярности отдельных инструментов в вашей стране, компании, в которой вы хотите работать, какого-то личного видения и т.д.

Лично я сейчас активно работаю с dbt и решения по типу Apache Airflow ещё не доводилось использовать. Но у меня у самого есть желание хорошо выучить какой-то инструмент для оркестрации всего ETL-процесса и, скорее всего, это будет Airflow, так это решение гибкое - оно не ограничивает вас каким-то одним вендором (как, например, Amazon Glue или Azure Data Factory) и позволяет использовать DevOps-практики. Вы можете развернуть его на локальном сервере или на любом облаке. Но, опять же, повторюсь, всё зависит от многих факторов и тут нужно выбрать инструмент, подходящий конкретно вам. Сразу все инструменты учить нет смысла - достаточно знать один.

3. Spark. Теперь переходим к Big Data. Когда вы работаете уже с очень большими объёмами данных, стандартных решений может быть недостаточно, и вы прибегаете к технологиям параллельной обработки больших массивов данных. Одной из таких технологий является Spark. Так как вы до этого учили Python, то и учить Spark я вам рекомендую, используя уже знакомый вам синтаксис. Этот фреймворк называется PySpark (использовать возможности Spark можно также, программируя на Java или Scala). Хорошим вариантом для изучения PySpark будет использование Databricks Community Edition. Он бесплатный, и там вы можете сразу запускать свой код на PySpark. В общем, очень удобно.

Ресурсы для изучения:
Introduction to PySpark
Big Data Fundamentals with PySpark
Cleaning Data with PySpark
Databricks Community Edition


В принципе, это основные навыки, которые нужны будут вам, чтобы шагнуть на новую ступеньку в развитии вас как data-инженера.
Здесь я не упомянул экосистему Hadoop и сделал это намеренно, так как считаю, что Hadoop - это больше legacy-штука и, со временем, его будут использовать всё реже и реже. Сейчас основной тренд в построении аналитической инфраструктуры направлен на облачные технологии. Это можно увидеть по большому количеству проектов, связанных с миграцией аналитики из on-premise в cloud. В принципе возможности Hadoop можно использовать и в облаке, но не совсем понимаю зачем, если, например, HDFS можно полностью заменить AWS S3, Cloud Storage или Delta Lake, а Hive или Impala - Redshift Spectrum или Google BigQuery.
В общем, я топлю за путь изучения с погружением в Cloud, но вы можете быть со мной не согласны.

После изучения вышеперечисленных технологий и применения их в коммерческих проектах, можно пойти дальше и начать изучать DevOps для data-инжиниринга. В принципе у вас уже есть некоторые знания DevOps-инженера - вы уже изучили Linux и командную строку, Git, Docker и это очень неплохой бекграунд. Теперь можно двигаться дальше и разобраться с более сложными штуками:
4. CI/CD. В принципе, если вы, имея предыдущие навыки, успели поработать на больших коммерческих проектах, то, скорее всего, вы уже сталкивались с CI/CD и использовали специальные инструменты. CI/CD расшифровывается как Continuous Integration и Continuous Deployment. Это автоматический процесс компиляции, тестирования и деплоя вашего кода и приложений в production. Пример CI/CD пайплайна: вы написали код на Python для вашего ETL и сделали push этого кода через Git на GitHub. После этого запускается так называемый build, который запускает автоматический процесс тестирования и деплоймента вашего кода на рабочий сервер или в Docker-контейнер. Для запуска CI/CD пайплайнов используются специальные сервисы, такие как Jenkins, GitLab CI/CD, Bamboo, Circle CI. Облачные провайдеры имеют свои CI/CD сервисы, например, Google Cloud Build, Azure DevOps или AWS CodePipeline.
Что учить, опять-таки, зависит от компании и проекта. Я, например, в своей работе использую Cloud Build, так как тесно работаю с Google Cloud.

Полезные ресурсы здесь посоветовать сложнее, потому что я учил Cloud Build, просто разбираясь с ним на практике, читая разные статьи и справку Google Cloud. Знаю только хороший курс по Jenkins. Если вы до этого не имели опыта с CI/CD, могу рекомендовать этот курс, так как мне нравится как его автор подаёт материал.

5. Infrastructure as Code (IaC). Это когда мы поднимаем всю инфраструктуру, т.е. создаём сервера, группы серверов, load balancer, кластеры контейнеров, привязываем ip-адреса и т.д., через код. Это очень удобно, когда мы создаём отдельные ресурсы для разных сред (dev, test, prod) и хотим просто скопировать всю инфраструктуру на другой проект.
Сам с таким не работал, но хочу обязательно получить такой опыт)
Для IaC также используются свои сервисы, такие как Terraform, AWS CloudFormation, Ansible, Puppet и др. Часто слышу о первых 3-х. Какой из них изучать, снова-таки, зависит от компании и проекта.

Полезные ресурсы:
Курс по Terraform
Урок по AWS Cloud Formation


Думаю, на этом закончим. Как вы смогли увидеть, путь становления data-инженером высокого уровня длинный и интересный. Очень много различных технологий и инструментов. С таким скоупом не соскучишься:)

В следующих постах хочу рассказать о том, что учить и в каком порядке для других специализаций, опираясь на свой опыт и опыт коллег по рынку. Эти пути могут быть не менее интересными для вас:)
Вот и первая тысяча подписчиков набежала)
Спасибо всем, что читаете!☺️
Мне написали по поводу довольно интересной вакансии BI-аналитика уровня Middle. В вакансии указывается на то, что работа будет заключаться не только в построении дашбордов, но и в поиске инсайтов, а также обучении бизнес-пользователей работать с этими дашбордами.

Так как сейчас мои посты посвящены как раз развитию в сфере работы с данными, то считаю, на такой работе потенциально можно получить очень хороший опыт.

Пересылаю сообщение с вакансией.
У кого есть соответствующий набор скиллов и желание расти, можете откликнуться)
Forwarded from George Vinogradov 🍀
Денис привет,

Ищу к себе в команду BI аналитика. Подумал, что в сообществе может быть кому-то интересно.

Описание ниже:

В команду Data Management в Novartis ищу BI аналитика (middle), которому предстоит развивать data-driven подход к принятию решений в компании, анализировать очень разные данные: начиная с продаж, заканчивая digital активностями и hr аналитикой.

Что по стеку: excel (куда без него), sql, alteryx, qliksense, python (nice-to-have)
+ английский на уровне - могу рассказать о своем исследовании.

Подробное описание вакансии и ссылка, чтобы откликнуться в notion.
https://www.notion.so/We-are-hiring-BI-Analyst-d87cae78ee914fbc8db630f607650b75
Ребята, интересная конференция намечается по продуктовой аналитике. От организаторов Матемаркетинга - на мой взгляд, одной из самых толковых конференций по аналитике и инжинирингу на СНГ.
Forwarded from Alexey Nikushin
Уже на следующей неделе пройдет первая в своем роде русскоязычная онлайн-конференция по продуктовой аналитике Aha!'21. Организаторы собрали убедительную программу:

- 20% - про монетизацию: из каких шагов состоит оптимальная воронка активации, как определить шаги (моменты) воронки, применение фреймворка от Reforge на практике и др.
- 20% - технологический стек - от работы с Power BI и Amplitude до Яндекс.Облака и Exasol.
- 20% - эксперименты: оценке долгосрочных эффектов после проведения эксперимента, этапам эволюции in-house системы экспериментов в любой компании, проверке качества систем сплитования трафика и мн. др.
- Много внимания уделено системам автоматического поиска инсайтов в данных, поиску, анализу и автоматизации процесса обнаружения аномалий, как находить инсайты по оптимизации монетизации. После этого, подходы к определению product market fit и обнаружению aha-моментов. Оргам удалось согласовать Q&A-сессию с вице-президентом Sequoia Capital (!!!) - самым успешным венчурным фондом в мире - они то уж точно знают что к чему в деньгах и продуктах + еще десяток тем и дискуссий. Подробная программа конференции.

🔥 Не пропускайте конференцию - промокод - LASTCALL - дает скидку 10% - регистрируйтесь!

❗️Важно! Все материалы — видео, презентации, мастер-классы, доступы в чаты - бессрочно доступны участникам в записи сразу после трансляции. Вещание студийного качества в формате FullHD, с возможностью поставить прямой эфир на паузу и потом ускорить. Если вы пропустили что-то в прямом эфире — не страшно! Вопросы к спикерам собираются в течение 1,5-2 недель и потом проводится общий Q&A Zoom со спикерами.

Помните - ничто не освобождает вас от знания матчасти!
Ребята, такой вопрос: интересно бы вам было читать информацию о парсинге веб-сайтов и получать объявления о митапах на эту тему здесь на канале?
Anonymous Poll
75%
Да
25%
Нет
Так как большинство ответили "Да" в предыдущем опросе, опубликую мероприятие на соответствующую тему. Мне нравятся мероприятия, которые освещают какую-то узкую область. В них, как правило, наибольшее сосредоточение экспертизы в данной области.
22 апреля в 18-30 MSK пройдёт Parsing Conf 2.

https://www.tgoop.com/parsing_conf

Доклады:
1. "Еще одна архитектура системы мониторинга цен и место библиотеки ferret в ней"
2. "Кейс от mail ru. Россети. Контроль качества данных"
3. "Автоматические регистрации на веб-порталах"
4. "Сбор данных с сейсмографов"
5. "Сбор данных о бумажных книгах"
6. "Парсинг через Tor: Как скачать 1.5 млн патентов за 2 недели, а не за 40 лет"

Ориентировочная длительность мероприятия — 3 часа.

Формат: онлайн.

Мы ждём Вас!
Всем привет. Сегодня я хочу продолжить нашу серию постов о том, что учить и в каком порядке в зависимости от выбранного направления в data-индустрии. В прошлых 2-х постах из этой серии я рассказал про путь data-инженера. Сегодня же я попробую рассказать про путь становления data-аналитика.

Так как я, всё-таки, больше data-инженер, а не data-аналитик, могу что-то не учесть. Но очень постараюсь сделать пост полезным и информативным. В любом случае, буду рад дополнениям в комментариях.

Начинаем.

Вспомним, что мы уже владеем базовыми навыками, которые будут полезны вне зависимости от того, чем вы конкретно занимаетесь в области работы с данными. Это Excel / Google Spreadsheets, теория баз данных и SQL, а также BI-инструменты.
Допустим, мы поработали какое-то время BI-инженером и хотим развиваться дальше, изучая и применяя новые более сложные технологии и инструменты. И мы останавливаем свой выбор на направлении data-аналитики. Ок, что учить дальше?
Вот мой список:

1. Основные аналитические фреймворки. Простыми словами, аналитический фреймворк - это то, в какой форме производится анализ и применяются его методики. Примеры популярных аналитических фреймворков: когортный анализ, RFM-анализ, ROPO-анализ и др. Эти фреймворки применяются в зависимости от предметной области, в которой вы работаете в качестве аналитика, и конкретной задачи. Например, в продуктовой аналитике часто применяется когортный анализ, при анализе клиентской базы - RFM-анализ, в маркетинговой аналитике - ROPO-анализ и т.д.

Полезные ссылки:
Что такое когортный анализ, что нужно для когортного анализа и где его применять
RFM-анализ и сегментация: узнайте больше о своих клиентах
ROPO-эффект: как ваш онлайн-маркетинг влияет на продажи в офлайне


2. Основные метрики предметной области, в которой вы работаете или хотите работать. Для поиска инсайтов и предоставления рекомендаций бизнесу крайне важно знать, за что отвечает каждая метрика, как она связана с другими метриками, а также к каким последствиям и действиям может привести интерпретация каждой метрики эффективности. Очевидно, что набор метрик зависит от предметной области, в которой вы хотите развиваться как аналитик. Например, если вы больше работаете в качестве продуктового аналитика, важно знать такие основные метрики как DAU, ARPDAU, ARPPU, Retention Rate, Churn Rate, CAC, LTV и др. Если вы работаете с маркетингом, важно знать о CPC, CPA, CPL, CPO, ROAS, ROMI и т.д.

В качестве полезных материалов здесь, пожалуй, подойдёт любая статья из интернета по запросу "основные метрики продуктовой аналитики", "основные метрики продукта", "главные метрики интернет-маркетинга" и т.д. Поэтому, здесь на ваш вкус. В последний раз на подобную тему я читал вот эту статью.


3. Знания статистики. Супер-важный скилл для аналитика данных. Аналитик - это тот человек, который должен подвергать сомнениям практически любую свою мысль и искать как можно больше аргументов в сторону своих гипотез. И статистика - это как раз тот инструмент, который ему в этом помогает.
Вот теоретический минимум того, что конкретно нужно знать в этой области (опять же, исходя из своего видения и опыта коллег):
- описательные статистики;
- математическая статистика;
- тестирование гипотез (А/Б-тесты);
- корреляция и регрессия.
Полезные ресурсы:
Основы статистики
Основы статистики. Часть 2
Основы статистики. Часть 3


Имея критическое мышление, со знаниями Excel, SQL, BI, аналитических фреймворков, метрик и статистики вы вполне можете претендовать на позицию Junior / Middle аналитика данных, в зависимости от требований и технологического стека компании.
И ещё я хотел бы сказать по поводу Python / R: многие компании вполне обходятся без них при анализе данных. Как по мне, Python или R - это уже следующий этап в пути data-аналитика, но никак не в ряду первых.
Как доказательство, около полугода назад мой знакомый искал работу на позицию Junior Data Analyst. В большинстве случаев, его тестовые задания сводились к знаниям метрик, аналитических фреймворков (был тест на когортный анализ в Excel), статистики, BI и SQL. Не помню, чтобы он упоминал Python или R.
Для аналитика более важно иметь критическое мышление и давать разумные рекомендации бизнесу. Каким инструментом он будет собирать и анализировать данные не так важно. Аналитик - это человек, который приближен к бизнесу и принятию решений.
Поэтому, не хватайтесь сразу за языки программирования, научитесь думать, строить гипотезы и делать выводы. Вышеперечисленных инструментов вполне достаточно, чтобы это сделать.

4. А вот когда будете понимать, что остановились в развитии и хочется применять новые и более гибкие технологии, можете переходить к изучению Python или R. Здесь, как и в любом другом случае, выбрать какой-то один язык. Какой - зависит от ваших предпочтений, рынка и требований компаний, в которых вы хотели бы работать. Могу сказать только вкратце: Python более универсальный, так как на этом языке можно как строить сложное ПО, так и анализировать данные и строить ML-модели.
R - более узкоспециализированный. Он имеет очень большое количество различных статистических и аналитических пакетов.
Здесь также нужно понимать, что программирование аналитика отличается от программирования разработчика или data-инженера. Аналитику нужно меньше знать о тонкостях языка, написании эффективного кода, ООП, контекстных менеджерах и т.д. Как правило, аналитику достаточно знать основы языка и хорошо владеть специализированными фреймворками (такими как Pandas в Python, например). Попытаюсь здесь дать список того, что должен знать "аналитик-программист":)

1) Базовый синтаксис языка (переменные, типы данных, условия, циклы, функции);
2) Работа с дата-фреймами (преобразование файла в дата-фрейм, очистка данных, первичный анализ дата-фрейма, арифметические и агрегирующие операции, построение сводных таблиц и т.д.);
3) Умение подключаться к базам данных / хранилищам данных и загружать данные в дата-фрейм;
4) Умение читать данные через REST API web-систем и делать простой парсинг контента веб-страниц;
5) Владение фреймворками для визуализации данных (в Python, например, это Matplotlib, Plotly и Seaborn).

Полезные ресурсы по Python:
Программирование на Python
Введение в pandas: анализ данных на Python
Introduction to Data Science in Python
Data Manipulation with pandas
Joining Data with pandas
Introduction to Data Visualization with Matplotlib
Introduction to Data Visualization with Seaborn
Introduction to Importing Data in Python
Intermediate Importing Data in Python
Streamlined Data Ingestion with pandas
Introduction to Databases in Python
Аналитикам: большая шпаргалка по Pandas
Парсинг сайтов на Python: подробный видеокурс и программный код
SQLAlchemy — Python Tutorial
Книга по Matplotlib

Полезные ресурсы по R:
Основы программирования на R
Анализ данных в R
Базовые графические возможности R: гистограммы
Introduction to the Tidyverse
Data Manipulation with dplyr
Joining Data with dplyr
Introduction to Data Visualization with ggplot2
Reporting with R Markdown
Data Manipulation with data.table in R
Joining Data with data.table in R
Introduction to Importing Data in R
Intermediate Importing Data in R

Думаю, что этих знаний вполне достаточно, чтобы стать хардкорным аналитиком данных и зарабатывать хорошие деньги. Как advanced-навык вы ещё можете начать изучение Machine Learning, но это тема отдельной статьи)
И в качестве хорошего дополнения
Forwarded from Product Analytics
​​5 навыков аналитика от Паши Левчука:

1/ business needs understanding
Часто аналитику говорят как дедать, а не что. И в результате решается другая задача. А значит нужно погружаться и задавать вопросы. В конечном итоге задача должна быть перефразированна и подтверждена клиентом.

2/ knowledge of infrastructure
Знание источников данных, потоков обработки, и конкретных таблиц является залогом того, можно ли сразу, на совещании, ответить на вопрос если у нас данные для поиска ответа.

3/ engineering skills
Даже с DWH, данные крайне редко находятся в нужном виде. А значит трансформация данных и написание эффективного кода определяют как быстро вы можете приблизиться к ответу, как легко сможете воспроизводить анализ и вносить правки для будущих нужд.

4/ summary/visualization skills
Хороший отчёт или исследование это всегда структура и стройность мысли, понятное введение и поддерживающие таблицы и графики. Если этого нет, то результ часто обречен быть непонятым и не рассмотренным серьезно.

5/ recommendations skills
Даже если отчёт удачно сложен, рекомендации это первое что попросит у вас заказчик. Если их нельзя синтезировать, то работа сделана лишь наполовину.

via @ProductAnalytics
Сегодня в 18:00 по Киеву и Москве будет проходить Apache Airflow Workshop от Grid Dynamics.

Сам зарегистрировался на него. Возможно, кто-то из вас тоже захочет послушать и попрактиковаться.

Из требований:
- знания английского (воркшоп будет на английском);
- Intermediate уровень в Python (знаете базовый синтаксис, умеете писать скрипты и несложные программы);
- установленный Docker и Docker Compose на ваш компьютер.

Воркшоп бесплатный.
2025/06/26 14:50:06
Back to Top
HTML Embed Code: