Data Engineer with Cloud (m/f/d)
⚲ Warsaw
20 160 - 23 520 PLN (B2B)
Wymagania
- SQL
- Python
- Cloud
- Spark (nice to have)
- PySpark (nice to have)
- Databricks (nice to have)
- ML (nice to have)
- AV (nice to have)
- Airflow (nice to have)
- Argo (nice to have)
Opis stanowiska
O projekcie: Projekt koncentruje się na wsparciu danych symulacyjnych dla rozwoju pojazdów autonomicznych (AV), szczególnie w obszarach takich jak wykrywanie przeszkód, planowanie trasy oraz złożone sytuacje drogowe. Wymagania: - Mocne umiejętności software engineering oraz rozwiązywania problemów.- Zaawansowana znajomość SQL i doświadczenie w pisaniu złożonych zapytań.- Zaawansowane umiejętności programowania w Pythonie.- Zrozumienie przetwarzania rozproszonego i workflowów danych na dużą skalę.- Praktyczne doświadczenie z technologiami chmurowymi i nowoczesnymi platformami danych.- Doświadczenie z narzędziami orkiestracji workflowów, takimi jak Airflow, Argo Workflows lub podobnymi frameworkami pipeline’ów.- Zrozumienie zagadnień infrastrukturalnych, w tym systemów storage, mikroserwisów i architektury pipeline’ów.- Doświadczenie w pracy z notebookami i workflowami analizy danych.- Znajomość troubleshootingu i wsparcia operacyjnego produkcyjnych pipeline’ów danych.- Zrozumienie zasad wyszukiwania i eksploracji danych (data search & data discovery) Codzienne zadania: - Wsparcie i utrzymanie infrastruktury pipeline’ów danych FST factory oraz pomoc w analizie incydentów i wsparciu operacyjnym. - Analiza dużych zbiorów danych przy użyciu SQL, Python, Spark i notebooków w celu badania problemów pipeline’ów i walidacji przepływów danych. - Praca z chmurowymi platformami danych oraz środowiskami przetwarzania rozproszonego w celu zapewnienia niezawodności i skalowalności workflowów danych. - Monitorowanie, diagnozowanie i optymalizacja pipeline’ów orkiestracji (np. Airflow, Argo Workflows lub podobne technologie). - Współpraca z zespołami backendowymi i infrastrukturalnymi przy mikroserwisach, systemach storage oraz usługach przetwarzania danych. - Wsparcie procesów wyszukiwania i eksploracji danych w zbiorach strukturalnych i półstrukturalnych. - Tworzenie i utrzymanie skryptów oraz narzędzi do przetwarzania danych, debugowania i automatyzacji operacyjnej. - Analiza niespójności danych, błędów pipeline’ów oraz problemów wydajnościowych na platformie. - Udział w poprawie obserwowalności (observability), monitoringu oraz stabilności operacyjnej workflowów danych. - Ścisła współpraca z zespołami cross-funkcyjnymi wspierającymi pipeline’y danych dla analityki, symulacji i ML