tgoop.com/get_rejected/1131
Last Update:
Вакансия: Data Engineer (Middle+/Senior)
Компания: Aston / Астон
Предполагаемая вилка: 300к
Период собеседования: Август-Сентябрь 2025
Формат работы: Удаленная работа
Этапы собеседований:
HR-> Tech interview -> Interview с заказчиком -> Offer
Краткая справка о процессе интервью:
Я не знаю что тут написать, просто интервью.
Вопросы:
-- запускаешь какой-то код в airflow и он выполняется, перезапускаешь - пишет библиотека не стоит, потом еще раз - выполнился, потом снова - нет (тут ответ про то а где запускается и что на одной ноде есть либо на другой нету)
-- компоненты airflow
-- разница explain/explain analyze
-- в каком случае лучше использовать explain
-- физические джойны в spark (перечислить)
-- какой с самой худшей производительностью
-- как надо написать код чтобы в плане запроса выполнялся nested loop join
-- что можно увидеть в плане запроса
-- как реализовать инкрементальную загрузку
-- у вас есть драйвер и 12 воркеров, и в коде есть операция простая например получения максимума из какой нибудь таблички в реляционный базе - как эту операцию сделать не на 12 воркерах а на одной? (Тут типа просто питоном)
-- что такое udf, зачем они нужны
-- kafka:
-- consumer/consumer group
-- патриции в Кафке нафиг нужны
-- парты в кликхаус
-- конфигурация клика
-- про dbt (вопросы по моему опыту, зачем вы его внедряли и что хотели этим)
-- xcom в airflow
-- parquet/orc?
-- что такое патриции и сколько может быть файлов в одной патриции?
-- проблема маленьких файлов
-- оконные функции row_number(), lead(), lag()
-- spark: df/rdd
Есть класс родитель
Class Animal():
Def speak(self):
print("хрю му")
Class cat(animal):
Def speak():
speak()????
print("meow")
Еще вопросы про gp - у меня не спрашивали тк опыта нет
Когда может быть полезна денормализация
Дата волт снежинка звезда якорь
Чем отличатся core слой от raw
BY Get Rejected
Share with your friend now:
tgoop.com/get_rejected/1131
