Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
376 - Telegram Web
Telegram Web
Гибкие методологии проектирования Data Vault и Anchor Modeling | Евгений Ермаков

Еще есть вебинарчик на karpov.courses

Смена методологии — это всегда долгий и крайне сложный процесс. Особенно когда речь идёт о чём-то фундаментальном — например, о хранилищах данных. При проектировании детального слоя аналитического DWH [Data Warehouse] сейчас модно применять «гибкие методологии» — Data Vault и Anchor Modeling. Но всегда ли в них есть потребность или это просто мода, которая пройдёт со временем?

https://www.youtube.com/watch?v=fNGIOb8SJvU
Введение в dbt: основы моделирования данных

Тайм-коды:
00:00 Начинаем
02:04 Рассказываем об ИнженеркаТех
03:54 В чем практическая ценность dbt?
05:51 Начало Data Lake
08:35 Большие SQL скрипты
10:12 Glue Spark ETL
13:00 Решение через Data Builder
17:40 Как продать команде свое решение?
19:18 Преимущества data build tool
28:33 Анатомия проекта на дбт
30:00 Создаем проект
01:10:15 Моделирование данных с dbt
01:21:41 Проблемы с аналитикой в БД
01:27:50 Оркестрация data build tool
01:30:00 Преимущества на dbt
01:31:10 Подводные камни ди би ти

https://www.youtube.com/watch?v=BSge0lPJeHk

#dbt
This media is not supported in your browser
VIEW IN TELEGRAM
Apache Kafka

Изначально созданная для обработки логов, Kafka теперь является основой для множества приложений. Её устойчивое хранилище сообщений и гибкий доступ к данным позволяют потребителям извлекать записи в удобное для них время.

Вот несколько популярных сценариев использования Kafka:
▫️Обработка и анализ логов: Эффективно справляется с огромными объёмами данных логов для их анализа и генерации инсайтов.
▫️Стриминг данных для рекомендаций: Обеспечивает потоковую обработку данных в реальном времени для предоставления персонализированных рекомендаций.
▫️Мониторинг и оповещения систем: Ускоряет мониторинг метрик и отправку уведомлений для своевременного реагирования на события в системе.
▫️Change Data Capture (CDC): Фиксирует и обрабатывает изменения в базах данных, чтобы поддерживать синхронизацию данных между системами.
▫️Миграция систем: Поддерживает бесшовную миграцию данных, обеспечивая их консистентность и доступность.

YouTube: Top Kafka use cases you should know

YouTube: Что такое кафка

#kafka
This media is not supported in your browser
VIEW IN TELEGRAM
💡 7 стратегий для масштабирования базы данных

1️⃣ Индексация
Анализируйте запросы вашего приложения и создавайте подходящие индексы для ускорения работы.

2️⃣ Материализованные представления
Предварительно вычисляйте сложные запросы и сохраняйте результаты для быстрого доступа.

3️⃣ Денормализация
Сократите сложные соединения таблиц, чтобы повысить производительность запросов.

4️⃣ Вертикальное масштабирование
Увеличьте мощность сервера базы данных, добавив больше CPU, оперативной памяти или хранилища.

5️⃣ Кэширование
Сохраняйте часто используемые данные в более быстром слое хранения, чтобы снизить нагрузку на базу данных.

6️⃣ Репликация
Создавайте копии основной базы данных на других серверах для распределения нагрузки на чтение.

7️⃣ Шардинг
Разделяйте таблицы на небольшие части и распределяйте их по разным серверам. Это поможет масштабировать как чтение, так и запись.

YouTube: 7 must-know strategies to scale your database

#scaling #масштабирование_базы_данных
PySpark Playground & Tutorial

https://www.sparkplayground.com/tutorials - здесь можно изучить работу со спарком (на английском)

https://www.sparkplayground.com/playground - здесь можно потренироваться онлайн

#spark #pyspark
В видео по Spark есть ссылка на роадмап по DE с кучей полезных инструкций по инструментам.

GitHub - halltape/HalltapeRoadmapDE: Roadmap для Data Engineer.

https://github.com/halltape/HalltapeRoadmapDE
В твиттере вышел Grok 2. Неплохие ответы выдает, при этом вроде нет столько воды, сколько есть у бесплатного chatgpt.

Причем даже на политические вопросы дает ответы/рассуждает.

Ну и по data engineering можно поспрашивать, может найдутся какие-нибудь инсайты)

Гоу тестить🤪
2025/06/15 15:59:22
Back to Top
HTML Embed Code: