tgoop.com/smlttech/995
Last Update:
Платформа данных как продукт: стек, пайплайны и коробочное разворачивание
Мы построили data-платформу, которая не просто хранит данные, а превращает их в актив. Она покрывает весь цикл работы с данными и собирается как коробочное решение — развернуть можно в облаке или на своих серверах за считанные часы. Ниже — ключевые принципы и архитектура, на которых все держится.
📦 Не просто хранилище, а точка роста бизнеса
Наша задача — не просто собирать данные, а использовать их для принятия решений, автоматизации и роста бизнеса. Платформа построена как экосистема: ingestion, обработка, витрины, ML, визуализация и контроль качества — все в едином технологическом контуре.
🛠 Open Source как стратегия
Мы сознательно строим стек на open source-инструментах, используя ванильные версии без лишних форков. Это дает нам гибкость, контроль и скорость развития. Все компоненты собираются и настраиваются внутри команды — с пониманием того, как они устроены под капотом.
🔐 Безопасность с нуля
Аутентификация и авторизация реализованы через Keycloak (SSO). Секреты хранятся в HashiCorp Vault. Политики доступа и маскировки управляются через Open Policy Agent (OPA), который встроен в пайплайн запросов к данным. Такой подход позволяет соблюдать требования к защите данных без потери гибкости.
🏗 Архитектура: Kubernetes + GitOps
Вся платформа работает на Kubernetes-кластере и управляется через GitOps. Мы используем связку GitLab + Flux2 (вместе с Weave GitOps), чтобы автоматически доставлять конфигурации и поддерживать консистентность.
Любой инстанс платформы можно развернуть заново из репозитория — это удобно для масштабирования, стендов и внешних заказчиков.
⚙️ Наш инфраструктурный стек
Платформа состоит из десятков связанных компонентов: Trino, Hive, Iceberg, Spark, Kafka, Debezium, ClickHouse, Airflow, JupyterHub, MLFlow, Open WebUI, Qdrant, DataHub, Nexus. Все это работает как единая экосистема!
В следующий раз мы расскажем о том, как эта архитектура применяется на практике: от работы с метаданными до запуска локальных LLM и построения платформы качества данных. Stay tuned!
#строим
BY SMLTECH

Share with your friend now:
tgoop.com/smlttech/995