Data Engineer/ML Engineer
e-point SA
⚲ Warszawa
130 - 150 PLN/h netto (B2B)
Wymagania
- SQL
- Python
- Apache Spark
- Apache Kafka
- Docker
- Kubernetes
- CI/CD
- ETL
- Relational Databases
Opis stanowiska
Opis projektu Nasz Klient to państwowa jednostka o znaczeniu strategicznym, odpowiedzialna za utrzymanie i rozwój kluczowej infrastruktury w sektorze lotnictwa cywilnego. Instytucja ta pełni nadrzędną rolę w zapewnianiu ciągłości i bezpieczeństwa operacji transportowych na skalę krajową, działając w oparciu o rygorystyczne normy publiczne oraz międzynarodowe standardy regulacyjne. Zadania: • Projektowanie, budowa i utrzymanie niezawodnych potoków ETL/ELT dla danych wsadowych i strumieniowych. • Modelowanie danych (warstwy surowe, przetworzone, prezentacyjne), wersjonowanie i utrzymanie linii pochodzenia danych. • Współpraca z Product Ownerem oraz Data Scientistami przy definiowaniu wymagań danych i SLA usług danych/modeli. • Planowanie pracy w Scrum, rozbijanie zadań na iteracje, estymacje, przeglądy i retrospektywy. • Koordynacja przebiegu prac nad przydzielonym segmentem platformy danych, synchronizacja z zespołami aplikacyjnymi. • Weryfikacja postępów: monitorowanie jakości danych, stabilności jobów, wskaźników kosztu/wydajności i niezawodności. • Utrzymanie i rozwój środowisk CI/CD dla kodu danych i artefaktów analitycznych (repozytoria, artefakty, polityki). • Konteneryzacja i orkiestracja usług danych oraz inferencji (budowa obrazów, zarządzanie manifestami i rolloutami). • Integracja narzędzi MLOps (rejestr eksperymentów i modeli, śledzenie metryk, automatyzacja wdrożeń modeli). • Optymalizacja kosztów i wydajności: tuning zapytań, partycjonowanie, kompresja, cache, dobór klas zasobów. • Implementacja testów dla danych i potoków (jednostkowe, integracyjne, walidacje jakości danych). • Utrzymanie katalogu danych i metadanych, klasyfikacje, polityki retencji i wersjonowania zbiorów danych. • Przygotowanie i aktualizacja dokumentacji technicznej, runbooków i procedur operacyjnych. • Udział w przeglądach architektonicznych i standardyzacji wzorców integracji danych. • Wspieranie Data Scientistów w przygotowaniu danych cech, materializacji widoków i wydajnym dostępie do danych. • Współtworzenie planów rozwoju platformy danych oraz roadmapy migracji/modernizacji (on‐prem, chmura, hybryda). • Optymalizacja pracy zespołu poprzez automatyzację powtarzalnych czynności i wprowadzanie dobrych praktyk. Wymagania: • Wykształcenie wyższe: informatyka, inżynieria danych, matematyka, automatyka, elektronika lub pokrewne. • Doświadczenie w projektowaniu i utrzymaniu potoków danych (wsad/stream), pracy z SQL i bazami relacyjnymi oraz nierelacyjnymi. • Praktyka w ekosystemie Big Data/stream (np. Spark, Kafka) oraz w automatyzacji wdrożeń (CI/CD). • Umiejętność pracy z konteneryzacją i orkiestracją (np. Docker, Kubernetes) oraz narzędziami IaC. • Doświadczenie w wersjonowaniu artefaktów danych i modeli, podstawy MLOps (np. rejestr eksperymentów, metryki). • Znajomość wzorców projektowania rozwiązań danych, zagadnień jakości danych i monitoringu. • Umiejętność diagnozowania problemów wydajnościowych oraz optymalizacji kosztów środowisk danych. • Doświadczenie w pracy zespołowej, code review, dokumentowaniu rozwiązań i pracy w metodykach zwinnych. • Biegłe posługiwanie się językiem polskim. Co oferujemy? • Pracę zdalną z możliwością przyjazdów co jakiś czas do biura w Warszawie. • Pracę na naszym sprzęcie. • Płaską strukturę zarządzania. • Samoorganizujące się zespoły. • Dużo przestrzeni na własną inicjatywę. • Możliwość delegacji na terenie Unii Europejskiej lub Wielkiej Brytanii.