14 вопросов
-
middle theory ETL vs ELT. В чём разница, когда какой использовать? Плюсы и минусы каждого, как изменился ландшафт с появлением облачных DWH.
-
senior theory CDC (Change Data Capture): зачем, какие бывают подходы (log-based, trigger-based, polling)? Как работает Debezium? Какие подводные камни на проде?
-
senior theory Идемпотентность ETL-job: что это, почему критично, как реализовать? Расскажи про UPSERT, watermark, dedup и retry-логику.
-
senior theory Как тестировать data pipelines? Unit, integration, data-quality тесты. Great Expectations, dbt tests, Soda — что и когда?
-
middle quiz Какой из следующих подходов к ETL/ELT позволяет наиболее эффективно обрабатывать большие объёмы данных с минимальной задержкой?
-
middle quiz Какой из следующих механизмов обеспечивает идемпотентность в ETL-процессах при повторных запусках?
-
middle quiz Какой из следующих инструментов лучше всего подходит для тестирования качества данных в ETL-пайплайнах?
-
middle quiz Какой из следующих подходов к обработке изменений данных (CDC) наиболее устойчив к сбоям в системе?
-
middle quiz Какой из следующих механизмов позволяет избежать дублирования данных при повторной обработке в ETL-процессе?
-
middle quiz Какой из следующих подходов к тестированию ETL-пайплайнов позволяет проверить корректность трансформаций данных?
-
middle quiz Какой из следующих факторов наиболее критичен при проектировании ETL-пайплайна для масштабируемой системы?
-
middle quiz Какой из следующих механизмов позволяет обнаружить и устранить ошибки в ETL-пайплайнах на ранней стадии?
-
middle quiz Какой из следующих подходов к обработке данных обеспечивает наименьшую задержку при использовании CDC?
-
middle quiz Какой из следующих инструментов лучше всего подходит для профилирования ETL-пайплайнов?