Pracuj.pl Praca zdalna Mid New

Data Engineer with Cloud (m/f/d)

SQUARE ONE RESOURCES sp. z o.o.

⚲ Warszawa

120–140 zł netto (+ VAT) / godz.

Wymagania

  • SQL
  • Python
  • Cloud
  • Spark
  • PySpark
  • Databricks
  • ML
  • AV
  • Airflow
  • Argo

Opis stanowiska

Nasze wymagania: Mocne umiejętności software engineering oraz rozwiązywania problemów. Zaawansowana znajomość SQL i doświadczenie w pisaniu złożonych zapytań. Zaawansowane umiejętności programowania w Pythonie. Zrozumienie przetwarzania rozproszonego i workflowów danych na dużą skalę. Praktyczne doświadczenie z technologiami chmurowymi i nowoczesnymi platformami danych. Doświadczenie z narzędziami orkiestracji workflowów, takimi jak Airflow, Argo Workflows lub podobnymi frameworkami pipeline’ów. Zrozumienie zagadnień infrastrukturalnych, w tym systemów storage, mikroserwisów i architektury pipeline’ów. Doświadczenie w pracy z notebookami i workflowami analizy danych. Znajomość troubleshootingu i wsparcia operacyjnego produkcyjnych pipeline’ów danych. Zrozumienie zasad wyszukiwania i eksploracji danych (data search & data discovery). Mile widziane: Doświadczenie ze Spark / PySpark. Praktyczne doświadczenie z Databricks. Doświadczenie w analizie danych szeregów czasowych. Zrozumienie workflowów danych dla ML oraz procesów przygotowania danych. Doświadczenie we wspieraniu pipeline’ów danych używanych w analityce, symulacjach lub aplikacjach ML. Wykształcenie wyższe z zakresu Computer Science lub pokrewnej dziedziny. Doświadczenie w pracy z platformami danych na dużą skalę i systemami rozproszonymi. Dyplom ukończenia studiów z zakresu Computer Science. O projekcie: Projekt koncentruje się na wsparciu danych symulacyjnych dla rozwoju pojazdów autonomicznych (AV), szczególnie w obszarach takich jak wykrywanie przeszkód, planowanie trasy oraz złożone sytuacje drogowe. Zakres obowiązków: Wsparcie i utrzymanie infrastruktury pipeline’ów danych FST factory oraz pomoc w analizie incydentów i wsparciu operacyjnym. Analiza dużych zbiorów danych przy użyciu SQL, Python, Spark i notebooków w celu badania problemów pipeline’ów i walidacji przepływów danych. Praca z chmurowymi platformami danych oraz środowiskami przetwarzania rozproszonego w celu zapewnienia niezawodności i skalowalności workflowów danych. Monitorowanie, diagnozowanie i optymalizacja pipeline’ów orkiestracji (np. Airflow, Argo Workflows lub podobne technologie). Współpraca z zespołami backendowymi i infrastrukturalnymi przy mikroserwisach, systemach storage oraz usługach przetwarzania danych. Wsparcie procesów wyszukiwania i eksploracji danych w zbiorach strukturalnych i półstrukturalnych. Tworzenie i utrzymanie skryptów oraz narzędzi do przetwarzania danych, debugowania i automatyzacji operacyjnej. Analiza niespójności danych, błędów pipeline’ów oraz problemów wydajnościowych na platformie. Udział w poprawie obserwowalności (observability), monitoringu oraz stabilności operacyjnej workflowów danych. Ścisła współpraca z zespołami cross-funkcyjnymi wspierającymi pipeline’y danych dla analityki, symulacji i ML. Oferujemy: Sprzęt: zapewnia klient Start ASAP 100% zdalnie Medicover Medicover Sport

🔍 Dekoder Ogłoszenia

🟡
Mocne umiejętności software engineering oraz rozwiązywania problemów.
Oczekuje się, że kandydat będzie potrafił pisać czysty, testowalny kod i samodzielnie radzić sobie z napotkanymi trudnościami technicznymi.
🟡
Zaawansowana znajomość SQL i doświadczenie w pisaniu złożonych zapytań.
Kandydat powinien być w stanie efektywnie operować na dużych zbiorach danych i optymalizować zapytania SQL.
🟡
Zaawansowane umiejętności programowania w Pythonie.
Oczekiwane jest biegłe posługiwanie się Pythonem, w tym znajomość bibliotek do przetwarzania danych i tworzenia skryptów.
🟡
Zrozumienie przetwarzania rozproszonego i workflowów danych na dużą skalę.
Kandydat powinien mieć pojęcie o tym, jak działają systemy przetwarzające duże ilości danych i jak zarządzać ich przepływem.
🟡
Praktyczne doświadczenie z technologiami chmurowymi i nowoczesnymi platformami danych.
Wymagane jest doświadczenie w pracy z konkretnymi usługami chmurowymi (np. AWS, Azure, GCP) i narzędziami do zarządzania danymi.