tgoop.com/big_data_systems_analysis/69
Last Update:
Что такое метаданные и зачем они нужны?
Это — тень данных (Б.Инмон). Они описывают и добавляют контекст остальным данным в хранилище, превращая хаос в порядок.
Ничего не понятно? Образно говоря, метаданные можно представить в виде библиотечного каталога, в котором содержится вся информация о книгах (то есть о данных), их характеристиках, структуре и расположении.
Основные вопросы, на которые отвечают метаданные: какие данные есть и как их получить в нужном для анализа виде.
Метаданные привносят ясность, которая крайне важна для всех, кто работает с данными — от инженеров и аналитиков до бизнес-пользователей. Они также позволяют отследить источник данных, понять все произведённые над ними предобразования и их путь по хранилищу. Тем самым помогая устранять любые аномалии в процессе.
Как управлять метаданными?
Для начала нужно обеспечить их хранение и автоматизировать сбор. Идеальный вариант — централизованный репозиторий для хранения всех метаданных, который станет единым "источником истины".
Внедрение контроля версий позволит отследить развитие и эволюцию метаданных. А также при необходимости легко выполнить откат до нужной версии.
Метаданные не должны быть данными в себе. Их использование должно быть доступно и понятно широкому кругу пользователей хранилища. Важно отметить, что описание должно быть понятным для бизнес-пользователей.
Метаданные добавляют глубину и объем пониманию имеющейся информации. Внедрение процессов по работе с ними является важным этапом проектирования и построения эффективного хранилища.
#dwh
BY В мире больших данных
Share with your friend now:
tgoop.com/big_data_systems_analysis/69