Data Flow Engineer (Cloudera / Apache NiFi)
⚲ Warszawa
800 - 1 200 PLN netto (B2B)
Wymagania
- Apache Kafka
- Apache Nifi
- REST API
- Cloudera Data Platform
- Python
Opis stanowiska
Poznaj Onwelo Onwelo jest partnerem technologicznym, który dostarcza kompleksowe usługi, od strategii i architektury, przez wdrożenia, po utrzymanie, w obszarach transformacji cyfrowej, danych i automatyzacji. Nasz zespół liczy ponad 400 specjalistów z silnymi kompetencjami seniorskim, a na koncie mamy 300+ zrealizowanych projektów dla dużych organizacji w Polsce, Europie i USA. Działamy z kilku polskich miast oraz z biur w Niemczech, Szwajcarii i USA, łącząc lokalną obecność z globalnym zasięgiem. O projekcie Jako Data Flow Engineer dołączysz do zespołu odpowiedzialnego za projektowanie, wdrażanie i utrzymanie zaawansowanych, rozproszonych potoków danych w międzynarodowym środowisku sektora bezpieczeństwa publicznego. Projekt opiera się na Cloudera Data Platform (CDP), a kluczowym elementem architektury jest zapewnienie wysokiej niezawodności, automatyzacji (Python) oraz rygorystycznego podejścia do bezpieczeństwa i zarządzania danymi (Data Governance). Praca związana jest realizacją projektów unijnych o krytycznym znaczeniu, gdzie kluczowe jest przetwarzanie danych w czasie rzeczywistym i near-real-time. Ze względu na specyfikę oraz wymogi bezpieczeństwa projektu, rola ta wymaga codziennej obecności w biurze w Warszawie (praca w trybie on-site). Twoje zadania • Projektowanie i rozwój przepływów danych: Definiowanie, wdrażanie, testowanie i utrzymanie złożonych potoków danych w Apache NiFi (Cloudera DataFlow) (procesy ingest, transform, enrich, route, egress). • Budowa i optymalizacja potoków CDC: Tworzenie potoków przetwarzania danych w czasie rzeczywistym/near-real-time w oparciu o mechanizmy CDC (Change Data Capture) z baz relacyjnych, przy użyciu natywnych konektorów NiFi, SQL Builder oraz narzędzi takich jak Debezium. • Integracje REST API i systemowe: Budowanie zaawansowanych integracji opartych na REST API, JDBC i Kafce, z uwzględnieniem mechanizmów autoryzacji (OAuth/JWT), limitowania zapytań (rate limiting) oraz zaawansowanej obsługi błędów i procedur recovery (error recovery). • Zarządzanie architekturą danych (Modern Data Lakehouse): Praca z formatem Apache Iceberg (zarządzanie tabelami, schema evolution, partycjonowanie) oraz integracja z silnikami Spark/Flink. • Zarządzanie schematami i streaming: Obsługa Apache Kafka jako brokera wiadomości (zarządzanie tematami, producentami/konsumentami) oraz serializacja danych za pomocą Apache Avro (w tym Schema Registry). • Data Governance, Security & Auditing: Konfiguracja i zarządzanie metadanymi, tagowaniem i śledzeniem pochodzenia danych (data lineage) w Apache Atlas oraz wdrażanie polityk bezpieczeństwa i uprawnień w Apache Ranger w kontekście przepływów NiFi. • Utrzymanie i Migracje: Monitoring, alertowanie i rozwiązywanie problemów (troubleshooting) z wydajnością potoków. Udział w podnoszeniu wersji (upgrades) oraz migracjach środowisk CDP / NiFi / Kafka. • Dokumentacja: Tworzenie i aktualizacja procedur operacyjnych (SOPs), runbooków oraz dokumentacji technicznej architektur danych. Kogo szukamy Wymagania formalne: • Gotowość do pracy stacjonarnej (on-site) w Warszawie. • Minimum jeden z poniższych certyfikatów (lub międzynarodowy odpowiednik uznawany przez instytucje publiczne): • Cloudera Certified Developer for Apache NiFi • Cloudera Data Flow (CFM) related certification Doświadczenie i kompetencje techniczne: • Minimum 2-3 lata praktycznego, codziennego doświadczenia w pracy z Apache NiFi, najchętniej w ekosystemie Cloudera Data Platform (CDP) (projektowanie, wdrożenia, monitoring, troubleshooting zaawansowanych flow). • Udokumentowane doświadczenie w realizacji co najmniej jednego dużego projektu integracyjnego, w którym NiFi pełniło rolę centralnego narzędzia (API calling, integracje z bazami danych, transformacje, routing). • Zaawansowana znajomość języka Python w inżynierii danych (przetwarzanie danych, tworzenie customowej logiki w NiFi, automatyzacja flow). • Praktyczna znajomość i doświadczenie z Apache Iceberg (tworzenie tabel, zarządzanie, integracja z NiFi/Spark/Flink). • Doświadczenie we wdrażaniu potoków CDC do/z relacyjnych baz danych. • Praktyczna wiedza z zakresu konfiguracji i zarządzania governance/lineage w Apache Atlas oraz uprawnień w Apache Ranger dla przepływów NiFi (tagowanie, polityki, audyt). • Doświadczenie z Apache Kafka w ekosystemie CDP (potoki NiFi -> Kafka -> downstream consumers, zarządzanie schematami Avro i zgodnością wersji). Profil kandydata: • Zdolności analityczne oraz umiejętność pracy z wymagającą dokumentacją techniczną i procedurami (SOP). • Komunikatywność i nastawienie na współpracę z architektami danych, inżynierami oraz biznesowymi interesariuszami. • Bieżąca znajomość języka angielskiego (praca w międzynarodowym środowisku projektowym). Co oferujemy • Udział w ciekawych projektach dla globalnych klientów • Aż 80% awansów w naszej firmie odbywa się wewnętrznie • 90% kadry zarządzającej ma wykształcenie techniczne • Dostęp do szkoleń wewnętrznych i ścieżek rozwojowych • Udział w wydarzeniach zespołowych, firmowych spotkaniach i Town Hallach • Wsparcie w budowaniu profesjonalnego wizerunku (personal branding) • Dostęp do ubezpieczenia na życie oraz prywatnej opieki medycznej dla siebie i rodziny • Karta MultiSport, która wspiera dbałość o zdrowie i kondycję