Data Engineer (Lakehouse/Data Platform)

2K $–3K $/мес

Узбекистан Data Engineering Middle Удалённо

Python Spark Kafka Airflow dbt Trino

Опубликовано 24.03.2026

2K $–3K $/мес

подтверждённая

Опубликовано 24.03.2026

О позиции

Мы ищем Data Engineer на удалённую работу в Ташкенте, который поможет построить современную Lakehouse/Data Platform для миллионов пользователей. Эта позиция Data Engineer удалённо предлагает возможность работать с передовыми технологиями и развивать навыки в области обработки данных.

Чем вы будете заниматься

Разрабатывать ingestion/CDC пайплайны (Debezium/Flink CDC) и доводить их до production-качества: ретраи, дедупликация, DLQ, мониторинг lag’ов.
Строить batch-пайплайны на Spark и выкладывать данные в Iceberg (Bronze/Silver/Gold), поддерживать schema evolution и бороться с мелкими файлами.
Разрабатывать и поддерживать трансформации в dbt: staging/intermediate/marts, инкрементальные модели, тесты, документация и lineage.
Оптимизировать запросы/витрины под Trino (партиционирование, статистики, cost-based оптимизации), при необходимости — выносить агрегаты.
Прорабатывать модель данных и контракты с продуктами (Clickstream / Search / RecSys) и прикладными командами.
Встраивать качество, каталогизацию и доступы: DataHub, правила OPA, ожидания Great Expectations.
Участвовать в эксплуатации: алерты, метрики, SLO/SLA, разбор инцидентов, runbooks.

Требования

Сильный Python.
Опыт со Spark (PySpark; Scala/Java — большой плюс).
Понимание lakehouse подхода и работы табличных форматов.
Опыт с Kafka, понимание CDC.
Практика Airflow и/или dbt в реальных проектах.
Умение думать про надежность: идемпотентность, exactly-once/at-least-once, обработка ошибок, backfill.
Опыт с Trino/Presto, настройкой и оптимизацией аналитических запросов.
Опыт со Flink/Spark (stream processing, event time, state, checkpoints).
Понимание DataHub/lineage и Data Quality фреймворков.
Опыт Kubernetes/Helm и взаимодействия с DevOps.

Стек

Storage: S3 + Apache Iceberg.
Batch processing: Spark/Trino/Flink.
Streaming: Apache Kafka + Apache Flink + Apache Spark.
CDC/ingestion: Debezium, Flink CDC.
Orchestration: Apache Airflow (Kubernetes Executor).
Transformations / marts: dbt Core.
Query layer: Trino.
Data Quality: dbt tests, Great Expectations.
Infra: Kubernetes, Helm, ArgoCD, облако.

Что мы предлагаем

Конкурентная зарплата и возможность удалённой работы.
Работа в команде профессионалов с возможностью карьерного роста.
Доступ к современным технологиям и инструментам.
Гибкий график работы и поддержка в обучении.
Участие в интересных проектах с высоким уровнем влияния.

Обязательные

0/1

Желательные

0/1

Бонус

0/1

Почему эта вакансия

6.8

6.8 из 10

оценка совпадения

Вакансия предлагает интересные задачи и возможность работы с современными технологиями в области обработки данных. Однако, отсутствует информация о компании, что может вызывать вопросы у кандидатов.

Требования к языку

RussianC1

English(опционально)B2

БазовыйСреднийПродвинутыйРодной

Формируем профиль успеха...

Анализируем требования вакансии и данные рынка

Обзор рынка

Объём рынка 2026

$3.5B

Годовой рост

15.2%

Внедрение AI

45%

Инвестиции

+120%

Навыки и требования

Обязательные

PythonSparkKafka

Растущий спрос

Machine LearningData VisualizationCloud Computing

Снижающийся спрос

HadoopTraditional ETL Tools

Тренды отрасли

Рост популярности Data Lakehouse

В 2025 году ожидается, что 60% компаний будут использовать Lakehouse архитектуры для хранения и анализа данных, что увеличивает спрос на специалистов по Data Engineering.

Увеличение инвестиций в AI-решения

Инвестиции в AI-технологии в Узбекистане выросли на 85% в 2023 году, что создает новые возможности для Data Engineers в разработке и внедрении AI-моделей.