How I Built This Data Platform in One Week | by Dorian Teffo | DataDrivenInvestor
Airflow + Cosmos + DBT
https://medium.datadriveninvestor.com/how-i-built-this-data-platform-in-one-week-13b457d7c323
https://medium.datadriveninvestor.com/how-i-built-this-data-platform-in-one-week-13b457d7c323
Medium
How I Built This Data Platform in One Week
This will certainly be my longest project (and the most expensive, so please like and comment), as well as my longest blog post. But…
How we orchestrate 2000+ DBT models in Apache Airflow | by Alexandre Magno Lima Martins | Apache Airflow | Medium
Статья описывает опыт интеграции dbt с Apache Airflow для оркестрации более 2000 моделей данных.
Авторы делятся подходом к разделению проекта dbt на несколько DAG в Airflow, что позволяет устанавливать различные расписания, уровни доступа и уведомления для разных групп моделей.
Они также обсуждают создание собственного оператора DBTOperator для эффективного запуска задач dbt в Airflow. В результате такой интеграции аналитики и владельцы продуктов могут самостоятельно создавать и поддерживать модели данных, используя только SQL и базовые знания Git, без необходимости глубокого понимания Airflow.
https://medium.com/apache-airflow/how-we-orchestrate-2000-dbt-models-in-apache-airflow-90901504032d
Статья описывает опыт интеграции dbt с Apache Airflow для оркестрации более 2000 моделей данных.
Авторы делятся подходом к разделению проекта dbt на несколько DAG в Airflow, что позволяет устанавливать различные расписания, уровни доступа и уведомления для разных групп моделей.
Они также обсуждают создание собственного оператора DBTOperator для эффективного запуска задач dbt в Airflow. В результате такой интеграции аналитики и владельцы продуктов могут самостоятельно создавать и поддерживать модели данных, используя только SQL и базовые знания Git, без необходимости глубокого понимания Airflow.
https://medium.com/apache-airflow/how-we-orchestrate-2000-dbt-models-in-apache-airflow-90901504032d
Medium
How we orchestrate 2000+ DBT models in Apache Airflow
In recent years, DBT (Data Build Tool) has established itself as the go-to data transformation workflow, connecting to a variety of…
How AI Agents & Data Products Work Together to Support Cross-Domain Queries & Decisions for Businesses
Статья предлагает анализ того, как интеграция AI-агентов и продуктов данных может трансформировать профессиональную деятельность data engineer.
https://moderndata101.substack.com/p/how-ai-agents-and-data-products-work
Статья предлагает анализ того, как интеграция AI-агентов и продуктов данных может трансформировать профессиональную деятельность data engineer.
https://moderndata101.substack.com/p/how-ai-agents-and-data-products-work
Substack
How AI Agents & Data Products Work Together to Support Cross-Domain Queries & Decisions for Businesses
The Two Primary Gaps in AI's Business Enablement Capabilities and the Solution Framework Addressing Both Data and AI Stack Essentials
Системный дизайн — это основа для создания надежных, масштабируемых и производительных систем обработки данных. Он помогает выбирать подходящие инструменты для ETL/ELT, проектировать хранилища, оптимизировать запросы и ресурсы. Без него сложно обеспечить отказоустойчивость, безопасность и интеграцию потоков данных.
Подборка с YouTube по Системному дизайну
▫️PlayList System Design (Interview Pen) - English
▫️Data Engineer тренирует System Design секцию. Собеседует @halltape | rzv_de | Aug 2024
▫️System Design - теория шардирования | Как масштабировать базы данных
▫️Как кэшировать данные | Теория кэширования - System Design
▫️Проектирование баз данных за 40 минут. Практика
▫️PlayList Системный дизайн (Eugene Suleimanov)
▫️PlayList System Design Fundamentals (ByteByteGo)
▫️Как подготовиться и пройти System Design Interview. Александр Поломодов
▫️Владимир Маслов — System Design. Как построить распределенную систему и пройти собеседование
Подборка с YouTube по Системному дизайну
▫️PlayList System Design (Interview Pen) - English
▫️Data Engineer тренирует System Design секцию. Собеседует @halltape | rzv_de | Aug 2024
▫️System Design - теория шардирования | Как масштабировать базы данных
▫️Как кэшировать данные | Теория кэширования - System Design
▫️Проектирование баз данных за 40 минут. Практика
▫️PlayList Системный дизайн (Eugene Suleimanov)
▫️PlayList System Design Fundamentals (ByteByteGo)
▫️Как подготовиться и пройти System Design Interview. Александр Поломодов
▫️Владимир Маслов — System Design. Как построить распределенную систему и пройти собеседование
YouTube
System Design
Share your videos with friends, family, and the world
System Design. База. Разбор книги "Высоконагруженные приложения". Глава 1
Давно приметил эту книжечку, а теперь можно посмотреть обзор🔥
https://youtu.be/owjrIB_5go8?si=DecnwBn9YycV3Jxc
Давно приметил эту книжечку, а теперь можно посмотреть обзор🔥
https://youtu.be/owjrIB_5go8?si=DecnwBn9YycV3Jxc
YouTube
System Design. База. Разбор книги "Высоконагруженные приложения". Глава 1
HighLoad, отказоустойчивость, высокодоступность, паттерны проектирования, NoSQL, CAP, распределенность...! Сколько всего интересного скрывают современные IT сервисы!
Как же в этом не потонуть? Как систематизировать то, что известно?
Представляю вашему вниманию…
Как же в этом не потонуть? Как систематизировать то, что известно?
Представляю вашему вниманию…
Forwarded from дата инженеретта
Выложила запись на ютуб
Но у меня ни таймкоды не подтянулись, ни ссылки не работают
Спасибо всем, кто пришел! Меня ваши сердечки и огонечки очень подбадривали
Немного статистики: 400 человек в пике, 600 в тотале!
Ссылка на материалы: https://github.com/Aigul9/spark-webinar
Please open Telegram to view this post
VIEW IN TELEGRAM
Как приготовить DataVault и не убить GreenPlum
https://youtu.be/x9U0mKxp41w?si=s6-4PW2JtrDodLMt
#GreenPlum #DataVault
https://youtu.be/x9U0mKxp41w?si=s6-4PW2JtrDodLMt
#GreenPlum #DataVault
YouTube
«Как приготовить DataVault и не убить Greenplum» (Дмитрий Тирских, Виталий Дудин, X5 Digital)
Команда X5 Digital расскажет про разработку дата-платформы для аналитики в экспресс-доставке. Почему решили делать аналитическую платформу с чистого листа, в Greenplum, и как для этого пригодились инструмент DBT и методология DataVault.
System Design - Теория шардирования. Как масштабировать базы данных
https://youtu.be/d6BtxBKhQoc?si=DPhblrYssQX87MRT
https://youtu.be/d6BtxBKhQoc?si=DPhblrYssQX87MRT
YouTube
System Design - теория шардирования | Как масштабировать базы данных
Курсы по программированию: https://clck.ru/37iG2b
Потренироваться проходить собеседования: https://clck.ru/3C2CY3
Консультации:
https://getmentor.dev/mentor/vladimir-balun-191
https://solvery.io/ru/mentor/vladimir_balun
Таймкоды:
00:00 - План открытого…
Потренироваться проходить собеседования: https://clck.ru/3C2CY3
Консультации:
https://getmentor.dev/mentor/vladimir-balun-191
https://solvery.io/ru/mentor/vladimir_balun
Таймкоды:
00:00 - План открытого…
Data Pipeline Design Patterns - Шаблоны проектирования потоков данных
https://datatalks.ru/data-pipeline-design-patterns/
https://datatalks.ru/data-pipeline-design-patterns/
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Data Pipeline Design Patterns — Шаблоны проектирования потоков данных
Data Pipeline Design Patterns - Шаблоны проектирования потоков данных
Что такое Rest API (http)? Soap? GraphQL? Websockets? RPC (gRPC, tRPC). Клиент - сервер. Вся теория
https://youtu.be/XaTwnKLQi4A?si=p1cG48FQfz2CREAD
https://youtu.be/XaTwnKLQi4A?si=p1cG48FQfz2CREAD
YouTube
Что такое Rest API (http)? Soap? GraphQL? Websockets? RPC (gRPC, tRPC). Клиент - сервер. Вся теория
Что такое Rest API? Что такое SOAP? Что такое Graphql? Что такое websockets? Что такое GRPC RPC? Клиент серверная архитектура. HTTP запросы. HTTP Теория. Общение клиента и сервера.
Курс "Продвинутый Frontend. в Production на React" - https://ulbitv.ru/frontend…
Курс "Продвинутый Frontend. в Production на React" - https://ulbitv.ru/frontend…
Сегодня, 11 февраля 2025, 17:00
Поднимаем Data Lakehouse на основе Trino в облаке
Для участия требуется регистрация
Программа
▫️Почему топовые мировые и российские IT-компании переходят на архитектуру DLH.
▫️Какие существуют архитектуры DLH и под какие задачи используются.
▫️В каких ситуациях выгоднее разворачивать DLH на собственной инфраструктуре, а когда выгоднее использовать платформу или облако.
▫️Как использование облачного решения от VK Cloud даст гибкость и позволит оперативно расширять инфраструктуру по мере роста потребностей бизнеса.
▫️Как объектное хранилище Cloud Storage (S3) поможет создать экономически выгодную модель хранения данных.
▫️На примере в лайф-режиме покажем различия в стоимости и скорости работы DLH и DWH.
〰〰〰〰〰〰〰〰〰〰
Update: Запись тут https://vkvideo.ru/video-164978780_456239621
Поднимаем Data Lakehouse на основе Trino в облаке
Для участия требуется регистрация
Программа
▫️Почему топовые мировые и российские IT-компании переходят на архитектуру DLH.
▫️Какие существуют архитектуры DLH и под какие задачи используются.
▫️В каких ситуациях выгоднее разворачивать DLH на собственной инфраструктуре, а когда выгоднее использовать платформу или облако.
▫️Как использование облачного решения от VK Cloud даст гибкость и позволит оперативно расширять инфраструктуру по мере роста потребностей бизнеса.
▫️Как объектное хранилище Cloud Storage (S3) поможет создать экономически выгодную модель хранения данных.
▫️На примере в лайф-режиме покажем различия в стоимости и скорости работы DLH и DWH.
〰〰〰〰〰〰〰〰〰〰
Update: Запись тут https://vkvideo.ru/video-164978780_456239621
VK Видео
Поднимаем Data Lakehouse на основе Trino в облаке
11 февраля в 17:00 на вебинаре мы разберём, что такое Data Lakehouse и как эта архитектура объединит преимущества Data Lake и Data Warehouse, упрощая управление, хранения и анализ данных из различных источников в одном месте. Покажем, как новый облачный сервис…
Как работает Apache Iceberg на примере Trino - SmartData 2024
https://youtu.be/hsCtWz8JDRc?si=cX8CmxXB3yGh1rDW
#trino #iceberg
https://youtu.be/hsCtWz8JDRc?si=cX8CmxXB3yGh1rDW
#trino #iceberg
YouTube
Владимир Озеров — Как работает Apache Iceberg на примере Trino
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/pSa4pt
Apache Iceberg — популярный табличный формат для построения современных lakehouse-платформ. В докладе детально рассмотрели архитектуру…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/pSa4pt
Apache Iceberg — популярный табличный формат для построения современных lakehouse-платформ. В докладе детально рассмотрели архитектуру…
The Agile Data (AD) Method
Описываются принципы, процессы и инструменты, позволяющие быстро и эффективно разрабатывать, изменять и управлять аналитическими решениями. Основное внимание уделяется снижению сложности работы с данными, автоматизации и адаптивности к изменениям.
https://agiledata.org/
Описываются принципы, процессы и инструменты, позволяющие быстро и эффективно разрабатывать, изменять и управлять аналитическими решениями. Основное внимание уделяется снижению сложности работы с данными, автоматизации и адаптивности к изменениям.
https://agiledata.org/
Greenplum | Что это такое и как оно работает?
https://youtu.be/rLG9Z_HcKPY?si=nW2elUKoCrRUIm3q
#greenplum
https://youtu.be/rLG9Z_HcKPY?si=nW2elUKoCrRUIm3q
#greenplum
YouTube
Greenplum | Что это такое и как оно работает?
Если ждёшь ROADMAP, подписывайся на каналы:
Мой телеграмм канал: https://www.tgoop.com/Shust_DE
Телеграмм канал Евгения: https://www.tgoop.com/halltape_data
Таймкоды:
00:00:00 | Вступление
00:01:02 | Что такое GreenPlum
00:01:25 | Архитектура GreenPlum
00:08:59 | Реплиц…
Мой телеграмм канал: https://www.tgoop.com/Shust_DE
Телеграмм канал Евгения: https://www.tgoop.com/halltape_data
Таймкоды:
00:00:00 | Вступление
00:01:02 | Что такое GreenPlum
00:01:25 | Архитектура GreenPlum
00:08:59 | Реплиц…