DATA_ENGINEERETTE Telegram 481
Как прошла SmartData 2025?

Это были 2 дня конфы в Питере - доклады, тусовка крутых ребят, активности и обсуждения. Ниже будут инсайты от оргов, команд и почему я просто обязана поехать в следующем году!

📚 Доклады

В одно время идут сразу 3 доклада, поэтому большинство осталось за кадром. Тут топ из тех, которые я посетила:

1️⃣Текущее состояние рынка даты
Presto/Trino + K8s + S3, Iceberg, StarRocks, Polars - движется сюда

2️⃣ Куда развивается айсберг
Из продвинутого - мат вьюшки, UDF, интероперабельность вьюшек и т.д.
Поясняю про вьюшки:
Spark создает - Spark читает - ок🤩
Trino создает - Trino читает - ок 🤩
Trino создает - Spark читает - не ок 🤩, а должно быть ок (наоборот тоже)

Также есть глобальная проблема: в айсберге фичу могут внедрить, но пройдет много времени, пока движок научится это поддерживать

3️⃣ Про датасеты в Airflow
Все супер понятно, с несколькими кейсами, проблемами и решениями. Я взяла контакт, нам может пригодиться

4️⃣ Spark Connect
Как раз недавно коллега вкидывал идею использовать Spark Connect для одной задачи, надо будет пересмотреть

5️⃣ Self-service для деплоя витрин в Авито
Тут вообще приколдесная штука, они в битбакете в комментах пишут команды dwh test, dwh merge, это проверяют кучи тест-кейсов, есть автоопределение зависимостей, циклических зависимостей. С точки зрения идеи и реализации мне кажется безумно крутым, но вопрос - оно действительно нужно было?

6️⃣ DQ as a Service
Интересные фичи:
⁃ проверки группируются, чтобы не спамить каждую
⁃ проверки на месяц могут ссылаться на проверки по дню, чтобы не пересчитывать заново
⁃ ETL-процесс отправляет свой результат, чтобы проверка его переиспользовала
⁃ некоторые проверки на сэмплах данных могут не отличаться от всего объема

Уходя в первый день, я услышала мнение:

SmartData - это, значит, очень клевое место, если народ в начале докладов разбегается по залам. Это говорит об уровне конфы


🐱 Нетворкинг

Тут самое прикольное!

Я пообщалась с представителем программного комитета, с ребятами из компаний по поводу их подходов, вживую познакомилась с нашими коллегами, с еще одним автором де канала и его очень крутыми коллегами. Меня даже узнали несколько человек, сказали, что один из адекватных каналов 🙂

Чел из программного комитета поделился, что докладов изначально в 3 раза больше, они ценят уникальность (без написанных статей с хабра и повторов с других конф). Если определенных технологий нет - были слабенькие доклады. Иногда программный комитет хочет сходить на несколько докладов и расставляет так, чтобы они не пересекались))

Активности и инсайты

Активности были на стендах партнеров конфы. Я там познакомилась с организатором мероприятий - вы в курсе, что самый базовый стенд без особых наворотов, подиумов и подсветки уже стоит 1 млн??

Игрулек было достаточно, я набрала себе столько мерча, что уже можно продавать)) Из полезного:

🤩Бросала магнитные дротики. Куда попадешь - такая сложность вопроса, берите на заметку)

Junior:
SQL-запрос для дубликатов?
Зачем нужны индексы в бд?

Middle:
Как вы настроите мониторинг для пайплайна, чтобы знать, если данные не пришли вовремя?
Как обеспечить идемпотентность в пайплайне?

Senior:
Как вы оцените, когда пора переходить от batch-обработки к streaming-архитектуре?

🤩Собирала архитектуру

Это было самое прикольное! Мы клали в реальную корзину реальные технологии и шли сканировать на кассу. Представьте: я купила айсберг. А если вы не знали, то Магнит выкупил Азбуку вкуса

Пока собирала архитектуру в Х5, ребята рассказали про крутую собственную разработку. У них много инстансов Airflow, и они синкуются через Redis - там хранятся статусы о состояниях дагов, на которых строятся зависимости. Это просто 🔥

🍓 На сладенькое

В конце был глобальный розыгрыш сумки с мерчом от партнеров и билета на следующий год. Представляете, это выиграла я!!!!
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥19107



tgoop.com/data_engineerette/481
Create:
Last Update:

Как прошла SmartData 2025?

Это были 2 дня конфы в Питере - доклады, тусовка крутых ребят, активности и обсуждения. Ниже будут инсайты от оргов, команд и почему я просто обязана поехать в следующем году!

📚 Доклады

В одно время идут сразу 3 доклада, поэтому большинство осталось за кадром. Тут топ из тех, которые я посетила:

1️⃣Текущее состояние рынка даты
Presto/Trino + K8s + S3, Iceberg, StarRocks, Polars - движется сюда

2️⃣ Куда развивается айсберг
Из продвинутого - мат вьюшки, UDF, интероперабельность вьюшек и т.д.
Поясняю про вьюшки:
Spark создает - Spark читает - ок🤩
Trino создает - Trino читает - ок 🤩
Trino создает - Spark читает - не ок 🤩, а должно быть ок (наоборот тоже)

Также есть глобальная проблема: в айсберге фичу могут внедрить, но пройдет много времени, пока движок научится это поддерживать

3️⃣ Про датасеты в Airflow
Все супер понятно, с несколькими кейсами, проблемами и решениями. Я взяла контакт, нам может пригодиться

4️⃣ Spark Connect
Как раз недавно коллега вкидывал идею использовать Spark Connect для одной задачи, надо будет пересмотреть

5️⃣ Self-service для деплоя витрин в Авито
Тут вообще приколдесная штука, они в битбакете в комментах пишут команды dwh test, dwh merge, это проверяют кучи тест-кейсов, есть автоопределение зависимостей, циклических зависимостей. С точки зрения идеи и реализации мне кажется безумно крутым, но вопрос - оно действительно нужно было?

6️⃣ DQ as a Service
Интересные фичи:
⁃ проверки группируются, чтобы не спамить каждую
⁃ проверки на месяц могут ссылаться на проверки по дню, чтобы не пересчитывать заново
⁃ ETL-процесс отправляет свой результат, чтобы проверка его переиспользовала
⁃ некоторые проверки на сэмплах данных могут не отличаться от всего объема

Уходя в первый день, я услышала мнение:

SmartData - это, значит, очень клевое место, если народ в начале докладов разбегается по залам. Это говорит об уровне конфы


🐱 Нетворкинг

Тут самое прикольное!

Я пообщалась с представителем программного комитета, с ребятами из компаний по поводу их подходов, вживую познакомилась с нашими коллегами, с еще одним автором де канала и его очень крутыми коллегами. Меня даже узнали несколько человек, сказали, что один из адекватных каналов 🙂

Чел из программного комитета поделился, что докладов изначально в 3 раза больше, они ценят уникальность (без написанных статей с хабра и повторов с других конф). Если определенных технологий нет - были слабенькие доклады. Иногда программный комитет хочет сходить на несколько докладов и расставляет так, чтобы они не пересекались))

Активности и инсайты

Активности были на стендах партнеров конфы. Я там познакомилась с организатором мероприятий - вы в курсе, что самый базовый стенд без особых наворотов, подиумов и подсветки уже стоит 1 млн??

Игрулек было достаточно, я набрала себе столько мерча, что уже можно продавать)) Из полезного:

🤩Бросала магнитные дротики. Куда попадешь - такая сложность вопроса, берите на заметку)

Junior:
SQL-запрос для дубликатов?
Зачем нужны индексы в бд?

Middle:
Как вы настроите мониторинг для пайплайна, чтобы знать, если данные не пришли вовремя?
Как обеспечить идемпотентность в пайплайне?

Senior:
Как вы оцените, когда пора переходить от batch-обработки к streaming-архитектуре?

🤩Собирала архитектуру

Это было самое прикольное! Мы клали в реальную корзину реальные технологии и шли сканировать на кассу. Представьте: я купила айсберг. А если вы не знали, то Магнит выкупил Азбуку вкуса

Пока собирала архитектуру в Х5, ребята рассказали про крутую собственную разработку. У них много инстансов Airflow, и они синкуются через Redis - там хранятся статусы о состояниях дагов, на которых строятся зависимости. Это просто 🔥

🍓 На сладенькое

В конце был глобальный розыгрыш сумки с мерчом от партнеров и билета на следующий год. Представляете, это выиграла я!!!!

BY дата инженеретта










Share with your friend now:
tgoop.com/data_engineerette/481

View MORE
Open in Telegram


Telegram News

Date: |

The best encrypted messaging apps The visual aspect of channels is very critical. In fact, design is the first thing that a potential subscriber pays attention to, even though unconsciously. How to Create a Private or Public Channel on Telegram? Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. The administrator of a telegram group, "Suck Channel," was sentenced to six years and six months in prison for seven counts of incitement yesterday.
from us


Telegram дата инженеретта
FROM American