tgoop.com/big_data_systems_analysis/149
Last Update:
База — кринж или мастхэв?
Много статей в моём блоге посвящено самым основам, которые кажутся очевидными и «ну уж это то все знают». А мне кажется — знать хорошо, а не забывать и использовать знания ещё лучше.
В системный анализ и аналитику данных часто приходят люди из совершенно разных сфер и многие статьи-курсы делают упор на знания SQL, что, конечно, важно. Но также важно понимать где и как ваши данные лежат изначально, как они связаны друг с другом, как оптимизировать их использование. Ведь порой источник — это настоящий ящик Пандоры.
Связи, первичные ключи, нормализация — это не просто теория, а практический инструмент для системного аналитика DWH. Когда вы глубоко понимаете, как связаны данные о продажах, клиентах и товарах, вы можете точнее перевести требования бизнеса на язык хранилища. Например, для отчета по продажам в разрезе клиентских сегментов вы сразу знаете, какие объекты понадобятся и как их связать.
Нормализация критична при интеграции новых источников. Допустим, нужно загрузить из источника данные о программе лояльности. Вы анализируете структуру исходной таблицы и решаете, нормализовать ли данные при загрузке или оставить как есть. Всё это безусловно зависит от задачи, особенностей хранилища и требований к производительности.
Знание нормализации и денормализации помогает оптимизировать работу хранилища и создавать эффективные витрины. При разработке вы выбираете лучшие источники: нормализованные таблицы ods-слоя или, в каких-то случаях, денормализованные таблицы emart-слоя.
И, опять же, основы помогают эффективно общаться с инженерами и бизнесом. Вы становитесь "переводчиком" между бизнесом и IT, быстро оценивая сложность задач и необходимые изменения в структуре данных.
Поэтому не пренебрегайте базовыми знаниями — они ключ к успешной работе.
#системный_анализ
BY В мире больших данных
Share with your friend now:
tgoop.com/big_data_systems_analysis/149