tgoop.com/smart_data_channel/21
Last Update:
Data Engineer:
1) Понимание принципов SQL и NoSQL баз данных
2) Знание SQL: DDL и DML (INSERT, SELECT и т.д.)
3) Навыки работы хотя бы с одним ETL-инструментом: Pentaho Data Integration, Matillion ETL, Fivetran, Amazon Glue, Azure Data Factory, Google Cloud Dataflow
4) Базовые знания системного и сетевого администрирования: знание командной строки (Bash/PowerShell), умение самостоятельно запустить виртуальную машину в облаке, понимание архитектуры "клиент-сервер", знание основных протоколов верхнего уровня (HTTP/HTTPS, FTP/FTPS, SFTP)
5) Знание скриптового языка программирования (Python/Java/Scala). Python наиболее популярный язык за счёт его простоты синтаксиса. Здесь, как и с SQL, язык нужно знать на уровне решения бизнес-задач. Т.е. если вы умеете самостоятельно писать ETL-скрипты, это говорит о достаточном уровне владения.
6) Навыки работы с фреймворками для оркестрации data-пайплайнов (Airflow/Luigi)
7) Умение работать с Big Data продуктами (Hadoop, Spark): если вы работаете с on-premise решениями, нужно знать как настроить и развернуть Hadoop/Spark и уметь использовать их для ETL. Если вы работаете с облачными технологиями, то провайдеры предоставляют serverless-решения для Hadoop и Spark. Например, вы можете в несколько кликов запустить Amazon EMR, Cloud Dataproc или Databricks и сразу писать там PySpark. Для облачных сервисов Hadoop и Spark нужно понимать на уровне концепций.
8) Навыки построения DWH и Data Lake
9) Понимание моделей данных (dimensional modelling, 3NF, data vault)
10) Навыки работы с сервисами для стриминга данных (Kafka, Amazon Kinesis, Google Cloud Pub/Sub и т.д.)
11) Знание принципов облачных вычислений и опыт работы хотя бы с одним облачным провайдером (AWS/GCP/Azure)
12) Знания DevOps, DataOps, MLOps (для самых-самых хардкорных)
P.S. Продолжение завтра
BY Smart Data
Share with your friend now:
tgoop.com/smart_data_channel/21