Data Engineer z GCP (f/m/x)
Sii
⚲ Warszawa
Wymagania
- GCP
- BigQuery
- Cloud Computing
- SQL
- Python
- IaC (Infrastructure as Code)
- CI/CD
- Terraform
- Apache Airflow / Cloud Composer
- Data Built Tool
Opis stanowiska
Chcesz rozwijać się w technologiach chmurowych i pracować na realnych danych? Dołącz do naszego zespołu Data & Analytics, gdzie budujemy i rozwijamy rozwiązania oparte na GCP. Pracuj z ekspertami, rozwijaj się w kierunku Data Engineeringu, Big Data lub Machine Learningu i miej realny wpływ na projekty. Twoje zadania • Projektowanie, implementacja i utrzymanie skalowalnych pipeline’ów danych w oparciu o Google Cloud Platform • Praca z BigQuery jako główną hurtownią danych: modelowanie danych, optymalizacja zapytań i kosztów, dbanie o wydajność oraz niezawodność rozwiązań • Integracja danych z różnych źródeł (pliki, bazy danych, API, eventy) oraz ich przetwarzanie i transformacja • Orkiestracja workflow danych przy użyciu Apache Airflow / Cloud Composer • Tworzenie i utrzymanie rozwiązań CI/CD dla pipeline’ów danych oraz infrastruktury • Zarządzanie infrastrukturą w chmurze zgodnie z podejściem Infrastructure as Code (Terraform) • Zapewnienie jakości danych, monitoringu pipeline’ów oraz szybkiego reagowania na incydenty • Współpraca z zespołami analitycznymi, BI i produktowymi w celu dostarczania stabilnych i dobrze udokumentowanych danych • Udział w rozwoju architektury danych oraz wspólne definiowanie dobrych praktyk data engineeringowych Wymagania • Min. 4 lata doświadczenia w roli Data Engineer lub na podobnym stanowisku przy pracy z danymi w środowisku produkcyjnym • Bardzo dobra znajomość Google Cloud Platform, w szczególności: BigQuery (modelowanie danych, optymalizacja zapytań) oraz Cloud Storage • Umiejętność projektowania, budowy i utrzymania pipeline’ów danych (batch i/lub streaming) • Bardzo dobra znajomość SQL oraz Pythona w kontekście przetwarzania i orkiestracji danych • Doświadczenie w obszarze orkiestracji workflow (Apache Airflow / Cloud Composer) • Praktyka w implementacji CI/CD dla rozwiązań data, np. GitHub Actions, GitLab CI, Cloud Build • Znajomość podejścia Infrastructure as Code, ze wskazaniem na Terraform • Wcześniejsza praca z dużymi wolumenami danych, z uwzględnieniem wydajności i niezawodności rozwiązań • Swobodna komunikacja w języku angielskim • Wymagane przebywanie na terenie Polski oraz płynna znajomość języka polskiego Mile widziane • Praktyczne doświadczenie w przetwarzaniu danych streamingowych (np. Dataflow / Apache Beam, Pub/Sub) • Biegłość w Apache Spark / PySpark przy pracy z dużymi wolumenami danych • Kompetencje w zakresie transformacji i modelowania danych z wykorzystaniem narzędzi takich jak dbt • Umiejętność pracy z różnorodnymi platformami danych (np. Databricks, Snowflake, MS Fabric) • Orientacja w narzędziach oraz dobrych praktykach z obszaru Data Governance, Data Lineage i Data Quality