tgoop.com/big_data_systems_analysis/32
Last Update:
Data Lakehouse
Это открытая архитектура, объединяющая лучшие стороны озер данных (unstructured data) и хранилищ данных (structured data). Эта концепция предлагает ускорение обработки данных, улучшение качества и гибкость анализа, а также упрощение инфраструктуры хранения данных.
Преимущества Data Lakehouse:
— Хранит все виды данных в одном месте.
— Интеграция данных различных типов упрощается.
— Работа с неструктурированными данными, такими как текст, аудио или видео, с использованием методов машинного обучения и нейронных сетей.
— Исходные данные сохраняются в оригинальном виде.
— Есть поддержка ACID-транзакций.
— Анализ данных можно проводить в любое время и повторять по мере необходимости.
— Одни и те же данные можно использовать для разных целей.
— Стоит меньше и проще масштабируется по сравнению с традиционными хранилищами.
Однако, есть и недостатки. Это достаточно новый и не обкатанный подход, который скорее всего содержит в себе множество подводных камней. Без структурной организации неструктурированные данные могут превратиться в “болото данных”, где поиск полезной информации будет затруднен.
В настоящее время гибридная архитектура LakeHouse находится на уровне концепции и формирования инструментария.
#dwh
BY В мире больших данных
Share with your friend now:
tgoop.com/big_data_systems_analysis/32