Data Engineer with Cloud (m/f/d)
SQUARE ONE RESOURCES sp. z o.o.
⚲ Warszawa
120–140 zł netto (+ VAT) / godz.
Wymagania
- SQL
- Python
- Cloud
- Spark
- PySpark
- Databricks
- ML
- AV
- Airflow
- Argo
Opis stanowiska
Nasze wymagania: Mocne umiejętności software engineering oraz rozwiązywania problemów. Zaawansowana znajomość SQL i doświadczenie w pisaniu złożonych zapytań. Zaawansowane umiejętności programowania w Pythonie. Zrozumienie przetwarzania rozproszonego i workflowów danych na dużą skalę. Praktyczne doświadczenie z technologiami chmurowymi i nowoczesnymi platformami danych. Doświadczenie z narzędziami orkiestracji workflowów, takimi jak Airflow, Argo Workflows lub podobnymi frameworkami pipeline’ów. Zrozumienie zagadnień infrastrukturalnych, w tym systemów storage, mikroserwisów i architektury pipeline’ów. Doświadczenie w pracy z notebookami i workflowami analizy danych. Znajomość troubleshootingu i wsparcia operacyjnego produkcyjnych pipeline’ów danych. Zrozumienie zasad wyszukiwania i eksploracji danych (data search & data discovery). Mile widziane: Doświadczenie ze Spark / PySpark. Praktyczne doświadczenie z Databricks. Doświadczenie w analizie danych szeregów czasowych. Zrozumienie workflowów danych dla ML oraz procesów przygotowania danych. Doświadczenie we wspieraniu pipeline’ów danych używanych w analityce, symulacjach lub aplikacjach ML. Wykształcenie wyższe z zakresu Computer Science lub pokrewnej dziedziny. Doświadczenie w pracy z platformami danych na dużą skalę i systemami rozproszonymi. Dyplom ukończenia studiów z zakresu Computer Science. O projekcie: Projekt koncentruje się na wsparciu danych symulacyjnych dla rozwoju pojazdów autonomicznych (AV), szczególnie w obszarach takich jak wykrywanie przeszkód, planowanie trasy oraz złożone sytuacje drogowe. Zakres obowiązków: Wsparcie i utrzymanie infrastruktury pipeline’ów danych FST factory oraz pomoc w analizie incydentów i wsparciu operacyjnym. Analiza dużych zbiorów danych przy użyciu SQL, Python, Spark i notebooków w celu badania problemów pipeline’ów i walidacji przepływów danych. Praca z chmurowymi platformami danych oraz środowiskami przetwarzania rozproszonego w celu zapewnienia niezawodności i skalowalności workflowów danych. Monitorowanie, diagnozowanie i optymalizacja pipeline’ów orkiestracji (np. Airflow, Argo Workflows lub podobne technologie). Współpraca z zespołami backendowymi i infrastrukturalnymi przy mikroserwisach, systemach storage oraz usługach przetwarzania danych. Wsparcie procesów wyszukiwania i eksploracji danych w zbiorach strukturalnych i półstrukturalnych. Tworzenie i utrzymanie skryptów oraz narzędzi do przetwarzania danych, debugowania i automatyzacji operacyjnej. Analiza niespójności danych, błędów pipeline’ów oraz problemów wydajnościowych na platformie. Udział w poprawie obserwowalności (observability), monitoringu oraz stabilności operacyjnej workflowów danych. Ścisła współpraca z zespołami cross-funkcyjnymi wspierającymi pipeline’y danych dla analityki, symulacji i ML. Oferujemy: Sprzęt: zapewnia klient Start ASAP 100% zdalnie Medicover Medicover Sport