tgoop.com/big_data_systems_analysis/120
Last Update:
Ключевые понятия Data Vault
Что ж, мы уже познакомились с Кимбаллом и Инмоном, теперь пора рассказать про Data Vault. Для начала разберем основные термины, которые нужно понимать.
Data Vault — это методология для работы с данными, объединяющая лучшие практики. Она помогает интегрировать данные из разных систем и анализировать их. Это фундамент на котором можно построить что угодно.
Hub — это таблица, где хранятся уникальные бизнес-ключи, например, ID клиентов. Это основа, на которой будут строиться все связи в хранилище данных.
Link связывает различные сущности в Data Vault, храня информацию о том, какие бизнес-ключи из Hubs связаны между собой. Например, Link покажет, какой клиент (из таблицы клиентов) сделал какой заказ (из таблицы заказов).
Satellite хранит описательные данные о сущности, представленной в Hub или Link. Например это может быть информация о продукте: название, цена и так далее. Здесь записываются все изменения и история этих данных.
Raw Vault — это слой после этапа интеграции данных. Здесь данные моделируются и готовятся для дальнейшей обработки и анализа.
Business Vault — это слой, где применяются бизнес-правила и выполняются различные преобразования данных. Здесь данные обрабатываются, фильтруются и агрегируются, чтобы получить полезные инсайты и отчеты. То есть это место, где сырые данные превращаются в информацию, готовую для анализа и принятия решений.
Point-in-Time (PIT) — это дополнительные структуры, которые помогают ускорить запросы к данным. Они делают доступ к историческим снимкам данных проще, что важно для анализа трендов.
Bridge Table упрощает навигацию между различными частями модели данных в Data Vault. Она позволяет быстро и эффективно выполнять повторяющиеся запросы, объединяя связанные данные из Hubs и Links. Например, Bridge Table может помочь быстро найти все заказы клиентов по разным регионам, объединяя данные из таблиц клиентов и заказов.
Business Key — уникальный идентификатор, который используется для представления бизнес-сущности. Это основной ориентир для интеграции и анализа данных.
Hash Key — хешированное представление бизнес-ключа. Оно используется для оптимизации запросов и обеспечения консистентности данных.
Surrogate Key — системные идентификаторы, которые уникально идентифицируют записи.
Hash-diff — это столбец, который содержит хешированное значение, созданное из множества других столбцов. Если хоть одно из этих значений изменилось, хеш-значение тоже изменится, что позволяет быстро обнаружить изменения в данных.
Data Vault — это инструмент для организации и анализа данных. Он объединяет лучшие практики и упрощает работу с большими объемами информации. Понимание ключевых понятий, таких как Hub, Link, Satellite, и других, поможет нам в дальнейшем подробнее рассмотреть нюансы самой методологии. До встречи в следующих постах
#dwh