Senior Data Engineer
PKO BP Finat
⚲ Warszawa
Wymagania
- ETL
- Kubernetes
- Kafka
- Oracle
- Python
Opis stanowiska
Do banku PKO BP poszukujemy osoby na stanowisko Senior Data Engineer/ Architekt systemowy Forma współpracy: B2B Tryb pracy: hybrydowo (chcemy się spotykać 1x w tygodniu w biurze w Warszawie) Opis stanowiska - budujemy rozwiązania klasy Data Lake i DWH - procesy zasilania zarówno on-line jak i off-line, - projektujemy i realizujemy rozwiązania informatyczne w obszarze zasilania danych, - analizujemy dane oraz przygotowujemy dla nich modele logiczne i fizyczne, - stroimy zapytań SQL na bazach relacyjnych i hurtownianych w on-prem i na chmurze GCP, - tworzymy przepływy off-linowe i on-linowe zarówno w narzędziach on-prem jak i GCP, - tworzymy rozwiązania ładowania danych w Python oraz Rust dla danych strukturalnych i niestrukturalnych, - przygotowujemy datamarty tematyczne na bazach relacyjnych i kolumnowych, - tworzymy koncepcje rozwiązań i implementacje rozwiązań w oparciu o wymagania i - potrzeby biznesu, - usuwamy incydenty i bierzemy udział w rozwiązywaniu problemów, - wspieramy testy i wdrażania zmian w zakresie procesów zasilania danych, - pomagamy przy serwisowaniu wdrożonego oprogramowania, - pracujemy zgodnie z modelem DevSecOps. Wymagania • znajomość aspektów związanych z budową pipeline-ów zasilających ETL/ELT • doświadczenie w budowaniu i projektowaniu rozwiązań Data Lake i DWH • znajomość technologii wykorzystywanych w ramach architektury sterowanej zdarzeniami takich jak np. Kafka, Pub/Sub • znajomość aspektów związanych z budową rozwiązań BigData wykorzystujących możliwości GenAI • znajomość Google BigQuery • znajomość Kubernetes (najlepiej Google Kubernetes Engine i OpenShift) • znajomość relacyjnych baz danych Oracle i PostgreSQL (projektowanie, budowa i tuning baz danych), • biegle znasz języki programowania Python i/lub Rust, • dobrze znasz Apache AirFlow Mile widziana znajomość: • koncepcji data mesh • baz wektorowych i grafowych • Apache Spark - najlepiej GCP Data Proc • Apache Beam – najlepiej GCP DataFlow • AutomateNow • Informatica Power Center