SMART_DATA_CHANNEL Telegram 21
Data Engineer:
1) Понимание принципов SQL и NoSQL баз данных
2) Знание SQL: DDL и DML (INSERT, SELECT и т.д.)
3) Навыки работы хотя бы с одним ETL-инструментом: Pentaho Data Integration, Matillion ETL, Fivetran, Amazon Glue, Azure Data Factory, Google Cloud Dataflow
4) Базовые знания системного и сетевого администрирования: знание командной строки (Bash/PowerShell), умение самостоятельно запустить виртуальную машину в облаке, понимание архитектуры "клиент-сервер", знание основных протоколов верхнего уровня (HTTP/HTTPS, FTP/FTPS, SFTP)
5) Знание скриптового языка программирования (Python/Java/Scala). Python наиболее популярный язык за счёт его простоты синтаксиса. Здесь, как и с SQL, язык нужно знать на уровне решения бизнес-задач. Т.е. если вы умеете самостоятельно писать ETL-скрипты, это говорит о достаточном уровне владения.
6) Навыки работы с фреймворками для оркестрации data-пайплайнов (Airflow/Luigi)
7) Умение работать с Big Data продуктами (Hadoop, Spark): если вы работаете с on-premise решениями, нужно знать как настроить и развернуть Hadoop/Spark и уметь использовать их для ETL. Если вы работаете с облачными технологиями, то провайдеры предоставляют serverless-решения для Hadoop и Spark. Например, вы можете в несколько кликов запустить Amazon EMR, Cloud Dataproc или Databricks и сразу писать там PySpark. Для облачных сервисов Hadoop и Spark нужно понимать на уровне концепций.
8) Навыки построения DWH и Data Lake
9) Понимание моделей данных (dimensional modelling, 3NF, data vault)
10) Навыки работы с сервисами для стриминга данных (Kafka, Amazon Kinesis, Google Cloud Pub/Sub и т.д.)
11) Знание принципов облачных вычислений и опыт работы хотя бы с одним облачным провайдером (AWS/GCP/Azure)
12) Знания DevOps, DataOps, MLOps (для самых-самых хардкорных)

P.S. Продолжение завтра



tgoop.com/smart_data_channel/21
Create:
Last Update:

Data Engineer:
1) Понимание принципов SQL и NoSQL баз данных
2) Знание SQL: DDL и DML (INSERT, SELECT и т.д.)
3) Навыки работы хотя бы с одним ETL-инструментом: Pentaho Data Integration, Matillion ETL, Fivetran, Amazon Glue, Azure Data Factory, Google Cloud Dataflow
4) Базовые знания системного и сетевого администрирования: знание командной строки (Bash/PowerShell), умение самостоятельно запустить виртуальную машину в облаке, понимание архитектуры "клиент-сервер", знание основных протоколов верхнего уровня (HTTP/HTTPS, FTP/FTPS, SFTP)
5) Знание скриптового языка программирования (Python/Java/Scala). Python наиболее популярный язык за счёт его простоты синтаксиса. Здесь, как и с SQL, язык нужно знать на уровне решения бизнес-задач. Т.е. если вы умеете самостоятельно писать ETL-скрипты, это говорит о достаточном уровне владения.
6) Навыки работы с фреймворками для оркестрации data-пайплайнов (Airflow/Luigi)
7) Умение работать с Big Data продуктами (Hadoop, Spark): если вы работаете с on-premise решениями, нужно знать как настроить и развернуть Hadoop/Spark и уметь использовать их для ETL. Если вы работаете с облачными технологиями, то провайдеры предоставляют serverless-решения для Hadoop и Spark. Например, вы можете в несколько кликов запустить Amazon EMR, Cloud Dataproc или Databricks и сразу писать там PySpark. Для облачных сервисов Hadoop и Spark нужно понимать на уровне концепций.
8) Навыки построения DWH и Data Lake
9) Понимание моделей данных (dimensional modelling, 3NF, data vault)
10) Навыки работы с сервисами для стриминга данных (Kafka, Amazon Kinesis, Google Cloud Pub/Sub и т.д.)
11) Знание принципов облачных вычислений и опыт работы хотя бы с одним облачным провайдером (AWS/GCP/Azure)
12) Знания DevOps, DataOps, MLOps (для самых-самых хардкорных)

P.S. Продолжение завтра

BY Smart Data


Share with your friend now:
tgoop.com/smart_data_channel/21

View MORE
Open in Telegram


Telegram News

Date: |

The group’s featured image is of a Pepe frog yelling, often referred to as the “REEEEEEE” meme. Pepe the Frog was created back in 2005 by Matt Furie and has since become an internet symbol for meme culture and “degen” culture. Telegram is a leading cloud-based instant messages platform. It became popular in recent years for its privacy, speed, voice and video quality, and other unmatched features over its main competitor Whatsapp. The best encrypted messaging apps Click “Save” ; The court said the defendant had also incited people to commit public nuisance, with messages calling on them to take part in rallies and demonstrations including at Hong Kong International Airport, to block roads and to paralyse the public transportation system. Various forms of protest promoted on the messaging platform included general strikes, lunchtime protests and silent sit-ins.
from us


Telegram Smart Data
FROM American