Pracuj.pl Praca zdalna Mid New

Data Engineer with Cloud (m/f/d)

SQUARE ONE RESOURCES sp. z o.o.

⚲ Warszawa

120–140 zł netto (+ VAT) / godz.

Wymagania

SQL
Python
Cloud
Spark
PySpark
Databricks
ML
AV
Airflow
Argo

Opis stanowiska

Nasze wymagania: Mocne umiejętności software engineering oraz rozwiązywania problemów. Zaawansowana znajomość SQL i doświadczenie w pisaniu złożonych zapytań. Zaawansowane umiejętności programowania w Pythonie. Zrozumienie przetwarzania rozproszonego i workflowów danych na dużą skalę. Praktyczne doświadczenie z technologiami chmurowymi i nowoczesnymi platformami danych. Doświadczenie z narzędziami orkiestracji workflowów, takimi jak Airflow, Argo Workflows lub podobnymi frameworkami pipeline’ów. Zrozumienie zagadnień infrastrukturalnych, w tym systemów storage, mikroserwisów i architektury pipeline’ów. Doświadczenie w pracy z notebookami i workflowami analizy danych. Znajomość troubleshootingu i wsparcia operacyjnego produkcyjnych pipeline’ów danych. Zrozumienie zasad wyszukiwania i eksploracji danych (data search & data discovery). Mile widziane: Doświadczenie ze Spark / PySpark. Praktyczne doświadczenie z Databricks. Doświadczenie w analizie danych szeregów czasowych. Zrozumienie workflowów danych dla ML oraz procesów przygotowania danych. Doświadczenie we wspieraniu pipeline’ów danych używanych w analityce, symulacjach lub aplikacjach ML. Wykształcenie wyższe z zakresu Computer Science lub pokrewnej dziedziny. Doświadczenie w pracy z platformami danych na dużą skalę i systemami rozproszonymi. Dyplom ukończenia studiów z zakresu Computer Science. O projekcie: Projekt koncentruje się na wsparciu danych symulacyjnych dla rozwoju pojazdów autonomicznych (AV), szczególnie w obszarach takich jak wykrywanie przeszkód, planowanie trasy oraz złożone sytuacje drogowe. Zakres obowiązków: Wsparcie i utrzymanie infrastruktury pipeline’ów danych FST factory oraz pomoc w analizie incydentów i wsparciu operacyjnym. Analiza dużych zbiorów danych przy użyciu SQL, Python, Spark i notebooków w celu badania problemów pipeline’ów i walidacji przepływów danych. Praca z chmurowymi platformami danych oraz środowiskami przetwarzania rozproszonego w celu zapewnienia niezawodności i skalowalności workflowów danych. Monitorowanie, diagnozowanie i optymalizacja pipeline’ów orkiestracji (np. Airflow, Argo Workflows lub podobne technologie). Współpraca z zespołami backendowymi i infrastrukturalnymi przy mikroserwisach, systemach storage oraz usługach przetwarzania danych. Wsparcie procesów wyszukiwania i eksploracji danych w zbiorach strukturalnych i półstrukturalnych. Tworzenie i utrzymanie skryptów oraz narzędzi do przetwarzania danych, debugowania i automatyzacji operacyjnej. Analiza niespójności danych, błędów pipeline’ów oraz problemów wydajnościowych na platformie. Udział w poprawie obserwowalności (observability), monitoringu oraz stabilności operacyjnej workflowów danych. Ścisła współpraca z zespołami cross-funkcyjnymi wspierającymi pipeline’y danych dla analityki, symulacji i ML. Oferujemy: Sprzęt: zapewnia klient Start ASAP 100% zdalnie Medicover Medicover Sport

🔍 Dekoder Ogłoszenia

🟡

Mocne umiejętności software engineering oraz rozwiązywania problemów.

Oczekuje się, że kandydat będzie potrafił pisać czysty, testowalny kod i samodzielnie radzić sobie z napotkanymi trudnościami technicznymi.

🟡

Zaawansowana znajomość SQL i doświadczenie w pisaniu złożonych zapytań.

Kandydat powinien być w stanie efektywnie operować na dużych zbiorach danych i optymalizować zapytania SQL.

🟡

Zaawansowane umiejętności programowania w Pythonie.

Oczekiwane jest biegłe posługiwanie się Pythonem, w tym znajomość bibliotek do przetwarzania danych i tworzenia skryptów.

🟡

Zrozumienie przetwarzania rozproszonego i workflowów danych na dużą skalę.

Kandydat powinien mieć pojęcie o tym, jak działają systemy przetwarzające duże ilości danych i jak zarządzać ich przepływem.

🟡

Praktyczne doświadczenie z technologiami chmurowymi i nowoczesnymi platformami danych.

Wymagane jest doświadczenie w pracy z konkretnymi usługami chmurowymi (np. AWS, Azure, GCP) i narzędziami do zarządzania danymi.

2026-05-20

Aplikuj - przejdz do oferty ↗