Оптимизация SQL запросов на примере ClickHouse
Бесплатно
Научимся писать SQL запросы так, чтобы не убить базу данных. Изучим основные методы оптимизации SQL запросов, актуальные для любой СУБД
https://stepik.org/course/Оптимизация-SQL-запросов-на-примере-ClickHouse-215412/
#ClickHouse
Бесплатно
Научимся писать SQL запросы так, чтобы не убить базу данных. Изучим основные методы оптимизации SQL запросов, актуальные для любой СУБД
https://stepik.org/course/Оптимизация-SQL-запросов-на-примере-ClickHouse-215412/
#ClickHouse
Stepik: online education
Оптимизация SQL запросов на примере ClickHouse
Научимся писать SQL запросы так, чтобы не убить базу данных. Изучим основные методы оптимизации SQL запросов, актуальные для любой СУБД
Awesome Data Engineering Learning Sources
Подборка ресурсов для изучения направления Data Engineering с минимальным бюджетом (большая часть бесплатно на YT).
https://datatalks.ru/awesome-data-engineering-learning-sources/
Подборка ресурсов для изучения направления Data Engineering с минимальным бюджетом (большая часть бесплатно на YT).
https://datatalks.ru/awesome-data-engineering-learning-sources/
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Awesome Data Engineering. Дорожная карта Data Engineer RoadMap
Awesome Data Engineering. Дорожная карта Data Engineer RoadMap. Дорожная карта по изучению инженерии данных. Как стать дата инженером?
Перевод главы "Введение в dbt" из книги Unlocking dbt
https://datatalks.ru/unlocking-dbt-data-build-tool-part-1/
#dbt
https://datatalks.ru/unlocking-dbt-data-build-tool-part-1/
#dbt
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод главы «Введение в dbt» из книги Unlocking dbt
Введение в dbt В 2006 году британский математик и предприниматель в области анализа данных Клайв Хамби ввел фразу: «Данные — это новая нефть», подчеркнув их невероятно высокую ценность. Как и нефть, данные в сыром виде полезны, но их нужно обработать, чтобы…
Как устроена база данных? Схемы, ограничения, индексы, кластеры
Для начинающих будет полезно
https://youtu.be/8L51FUsjMxA?si=z8uPvZjbnphQC3cx
Для начинающих будет полезно
https://youtu.be/8L51FUsjMxA?si=z8uPvZjbnphQC3cx
YouTube
Как устроена База Данных? Кластеры, индексы, схемы, ограничения
Разбираемся с кластером, базами, схемами, ограничениями и индексами.
Выбирайте подходящие сервисы для хранения данных в Selectel: https://slc.tl/j0mh4
Готовься к собеседованию на Солвит: https://clck.ru/3FPmdz
Телеграм канал Артём Шумейко: https://www.tgoop.com/artemshumeiko…
Выбирайте подходящие сервисы для хранения данных в Selectel: https://slc.tl/j0mh4
Готовься к собеседованию на Солвит: https://clck.ru/3FPmdz
Телеграм канал Артём Шумейко: https://www.tgoop.com/artemshumeiko…
Apache Iceberg + StarRocks YouTube Playlist
StarRocks as LakeHouse Query Engine
24 видосика.
https://youtu.be/8Q5Vev4O1lQ?si=7DIuO3IuIOmf6aHi
=== PS ===
В доке пишут, что StarRocks превосходит по производительности ClickHouse и Trino https://docs.starrocks.io/docs/benchmarking/
Понятно, что надо смотреть на типы задач, настройки и структуры данных, но интересный инструмент в любом случае.
Еще 1 статья Сравнение трино и старрокс https://gavrilov.info/all/sravnenie-query-dvizhkov-trino-i-starrocks/
#Iceberg #StarRocks
StarRocks as LakeHouse Query Engine
24 видосика.
https://youtu.be/8Q5Vev4O1lQ?si=7DIuO3IuIOmf6aHi
=== PS ===
В доке пишут, что StarRocks превосходит по производительности ClickHouse и Trino https://docs.starrocks.io/docs/benchmarking/
Понятно, что надо смотреть на типы задач, настройки и структуры данных, но интересный инструмент в любом случае.
Еще 1 статья Сравнение трино и старрокс https://gavrilov.info/all/sravnenie-query-dvizhkov-trino-i-starrocks/
#Iceberg #StarRocks
YouTube
Apache Iceberg + StarRocks: Your Recipe for Superior Lakehouse Performance
Apache Iceberg brought reliability and simplicity to the open data lake, and now it’s helping drive query performance too. Thanks to new integrations with the StarRocks project, Apache Iceberg users no longer need to copy their data into a proprietary data…
Перевод Analytics Engineering with SQL and dbt. Глава 1
Немного о концепции Analytics Engineering и терминологии.
https://datatalks.ru/analytics-engineering-with-sql-and-dbt-chapter-1/
#dbt
Немного о концепции Analytics Engineering и терминологии.
https://datatalks.ru/analytics-engineering-with-sql-and-dbt-chapter-1/
#dbt
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод Analytics Engineering with SQL and dbt. Глава 1
Инженерия аналитики (Analytics Engineering) История аналитики включает важные этапы и технологии, которые сформировали эту область в том виде, какой мы знаем сегодня. Всё началось с появления концепции хранилищ данных в 1980-х годах, что стало основой для…
Понимание инкрементальных стратегий dbt, часть 1
Вторую часть не буду переводить, этот перевод сделал больше с целью ознакомить с вариантами обновления данных в таблицах. По технической реализации лучше доку смотреть и анализировать, как каждая стратегия работает на уровне макросов (или сгенерированного sql).
https://datatalks.ru/understanding-dbt-incremental-strategies-part-1/
#dbt
Вторую часть не буду переводить, этот перевод сделал больше с целью ознакомить с вариантами обновления данных в таблицах. По технической реализации лучше доку смотреть и анализировать, как каждая стратегия работает на уровне макросов (или сгенерированного sql).
https://datatalks.ru/understanding-dbt-incremental-strategies-part-1/
#dbt
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Понимание инкрементальных стратегий dbt, часть 1
Перевод статьи, исходный текст: https://medium.com/indiciumtech/understanding-dbt-incremental-strategies-part-1-2-22bd97c7eeb5 Данный перевод выполнен с небольшими примечаниями. Используйте статью как ориентир, проверяя по каждой базе и каждому адаптеру возможность…
Курс по dbt для инженеров данных
https://youtube.com/playlist?list=PLzvuaEeolxkyx7XruoatSFdYDyLji_o1J&si=oH5Bne-fU2lCqJl1
#dbt
https://youtube.com/playlist?list=PLzvuaEeolxkyx7XruoatSFdYDyLji_o1J&si=oH5Bne-fU2lCqJl1
#dbt
YouTube
Курс по dbt для инженеров данных
Страница курса https://itempuniversity.com/course/view.php?id=684 Задавайте вопросы и следите за новыми курсами в телеграм канале и группе: https://www.tgoop.com/dwhl...
Перевод 2 главы "Моделирование данных для аналитики (dbt)"
https://datatalks.ru/dbt-data-modeling-for-analytics/
#dbt
https://datatalks.ru/dbt-data-modeling-for-analytics/
#dbt
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 2 главы «Моделирование данных для аналитики (dbt)»
Перевод 2 главы "Моделирование данных для аналитики" книги Analytics Engineering with sql and dbt. Модели данных Звезда, Снежинка Data Vault
Чеклист для разработчиков по подготовке к техническому собеседованию — bool.dev
https://bool.dev/blog/detail/checklist-dlya-deva-po-podgotovke-tech-interview
https://bool.dev/blog/detail/checklist-dlya-deva-po-podgotovke-tech-interview
bool.dev
Чеклист для разработчиков по подготовке к техническому собеседованию
В данной статье описываем как подготовиться к техническому собеседованию и какие темы стоит повторить
data load tool (dlt) is an open source Python library that makes data loading easy 🛠️
🔹Автоматическая схема: проверка структуры данных и создание схемы для места назначения.
🔹 Нормализация данных: согласованные и проверенные данные перед загрузкой.
🔹Полная интеграция: Colab, AWS Lambda, Airflow и локальные среды.
🔹Масштабируемость: адаптируется к растущим потребностям в данных в производстве.
🔹Простота обслуживания: понятная структура конвейера данных для обновлений.
🔹Быстрое исследование: быстрое исследование и получение информации из новых источников данных.
🔹Универсальное использование: подходит для несистематических исследований и создания сложных погрузочных инфраструктур.
🔹Начните работу за считанные секунды с помощью CLI: Мощный CLI для управления, развертывания и проверки локальных pipelines.
🔹Поэтапная загрузка: загружайте только новые или измененные данные и избегайте повторной загрузки старых записей.
🔹Открытый исходный код: бесплатно и под лицензией Apache 2.0.
https://github.com/dlt-hub/dlt
🔹Автоматическая схема: проверка структуры данных и создание схемы для места назначения.
🔹 Нормализация данных: согласованные и проверенные данные перед загрузкой.
🔹Полная интеграция: Colab, AWS Lambda, Airflow и локальные среды.
🔹Масштабируемость: адаптируется к растущим потребностям в данных в производстве.
🔹Простота обслуживания: понятная структура конвейера данных для обновлений.
🔹Быстрое исследование: быстрое исследование и получение информации из новых источников данных.
🔹Универсальное использование: подходит для несистематических исследований и создания сложных погрузочных инфраструктур.
🔹Начните работу за считанные секунды с помощью CLI: Мощный CLI для управления, развертывания и проверки локальных pipelines.
🔹Поэтапная загрузка: загружайте только новые или измененные данные и избегайте повторной загрузки старых записей.
🔹Открытый исходный код: бесплатно и под лицензией Apache 2.0.
https://github.com/dlt-hub/dlt
GitHub
GitHub - dlt-hub/dlt: data load tool (dlt) is an open source Python library that makes data loading easy 🛠️
data load tool (dlt) is an open source Python library that makes data loading easy 🛠️ - GitHub - dlt-hub/dlt: data load tool (dlt) is an open source Python library that makes data loading easy 🛠️
Проектирование DWH. Data Modeling. Kimball, Data Vault 2.0, Anchor Modeling
https://ivan-shamaev.ru/data-modeling-dwh-kimball-scd-types-data-vault-2-anchor-modeling/
https://ivan-shamaev.ru/data-modeling-dwh-kimball-scd-types-data-vault-2-anchor-modeling/
Персональный блог Data Engineer | Ex-TeamLead BI Developer
Проектирование DWH. Data Modeling. Kimball, Data Vault 2.0, Anchor Modeling
Проектирование DWH. Data Modeling. Kimball Data Vault 2.0 Anchor Modeling
Data Engineering Handbook
Сайт: https://karlchris.github.io/data-engineering/
GitHub: https://github.com/karlchris/data-engineering/tree/master
Разделы:
▫️Projects
▫️Data Engineering
▫️Data Modeling
▫️Data Ingestion
▫️Data Architecture
▫️Data Orchestration
▫️Data Processing
▫️Data Quality
▫️Python
Сайт: https://karlchris.github.io/data-engineering/
GitHub: https://github.com/karlchris/data-engineering/tree/master
Разделы:
▫️Projects
▫️Data Engineering
▫️Data Modeling
▫️Data Ingestion
▫️Data Architecture
▫️Data Orchestration
▫️Data Processing
▫️Data Quality
▫️Python
karlchris.github.io
Data Engineering Works
All you need to know about Data Engineering, Data Warehousing and Data Platform.
Создание архитектуры Medallion с помощью ClickHouse
https://datatalks.ru/medallion-architecture-with-clickhouse/
#ClickHouse #Medallion
https://datatalks.ru/medallion-architecture-with-clickhouse/
#ClickHouse #Medallion
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Создание архитектуры Medallion с помощью ClickHouse
Database Sharding — PlanetScale
Интересный сайт про шардированию, понравились интерактивные схемы.
https://planetscale.com/blog/database-sharding
Интересный сайт про шардированию, понравились интерактивные схемы.
https://planetscale.com/blog/database-sharding
Planetscale
Database Sharding — PlanetScale
Learn about the database sharding scaling pattern in this interactive blog.
Глава 1 «Big Data» — Data Architectures
Перевод первой главы из книги Deciphering Data Architectures
https://datatalks.ru/big-data-data-architectures/
#big_data #bigdata
Перевод первой главы из книги Deciphering Data Architectures
https://datatalks.ru/big-data-data-architectures/
#big_data #bigdata
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Глава 1 «Big Data» — Data Architectures
Глава 1 "Big Data" - Data Architectures
Глава 2 "Типы архитектур данных"
Перевод второй главы из книги Deciphering Data Architectures
https://datatalks.ru/types-of-data-architectures/
#data_architecture
Перевод второй главы из книги Deciphering Data Architectures
https://datatalks.ru/types-of-data-architectures/
#data_architecture
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Глава 2 «Типы архитектур данных»
Глава 2 "Типы архитектур данных"
Инкрементальное обновление данных - Incremental Data Refresh
Шаблоны обновления данных
https://datatalks.ru/incremental-data-refresh-sql-patterns/
Шаблоны обновления данных
https://datatalks.ru/incremental-data-refresh-sql-patterns/
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Инкрементальное обновление данных — Incremental Data Refresh
Инкрементальное обновление данных - Incremental Data Refresh
Эволюция архитектур платформы данных- Евгений Ермаков
https://youtu.be/EvefrwYmOn0?si=0IkudCSOSRtMMHyy
https://youtu.be/EvefrwYmOn0?si=0IkudCSOSRtMMHyy
YouTube
Евгений Ермаков — Эволюция архитектур платформы данных
Даты ближайшего фестиваля TechTrain будут анонсированы позднее.
Подробнее о TechTrain: https://jrg.su/YR8JKw
— —
Во всем мире компании из самых разных отраслей вкладывают средства в анализ своих данных, в создание эффективных стратегий обработки данных и…
Подробнее о TechTrain: https://jrg.su/YR8JKw
— —
Во всем мире компании из самых разных отраслей вкладывают средства в анализ своих данных, в создание эффективных стратегий обработки данных и…
Я тут подумал, что нужно сделать, если вдруг начнётся нашествие LLM на прогеров.
План такой: те, кто пострадал, генерируют кучу нерабочего и ошибочного кода. LLM постепенно переобучивается и начинает сама себя уничтожать.
Компании массово отказываются от LLM в ключевых процессах и нанимают втридорога разрабов обратно 😇
------‐-------------------
А если серьёзно - вот курс по LLM (бесплатно, но на инглише) https://github.com/mlabonne/llm-course
План такой: те, кто пострадал, генерируют кучу нерабочего и ошибочного кода. LLM постепенно переобучивается и начинает сама себя уничтожать.
Компании массово отказываются от LLM в ключевых процессах и нанимают втридорога разрабов обратно 😇
------‐-------------------
А если серьёзно - вот курс по LLM (бесплатно, но на инглише) https://github.com/mlabonne/llm-course