Data Engineer
PKO BP Finat sp. z o.o.
⚲ Warszawa, Wola
Wymagania
- Python
- PySpark
- Rust
- Kafka
- Apache Airflow
- GCP Data Flow
- GCP Data Proc
- Informatica PowerCenter
- GIT
- Jenkins
- Oracle
- PostgreSQL
- GCP BigQuery
- GCP BigTable
- Scylla Cloud
- Automate Now
- Java
Opis stanowiska
Nasze wymagania: Co najmniej 5-letnie doświadczenie jako Developer ETL w obszarze procesów integracji danych na on-prem Ekspercka znajomość relacyjne bazy danych Oracle, PostgeSQL (projektowanie, budowa i tiuning baz danych) Biegłe posługiwanie się narzędziami ETL na on-prem na poziomie zaawansowanym: Informatica Power Center Bardzo dobra znajomość narzędzi harmonogramujących Umiejętność wystawiania usług REST API Co najmniej 3-letniego doświadczenie jako Data Engineer GCP w obszarze procesów integracji danych na GCP Dobra znajomość narzędzi ETL Flow na GCP: Apache AirFlow, GCP Data Flow, GCP Data Proc Dobra znajomość baz danych GCP: GCP Big Query, GCP Big Table, Scylla Cloud (projektowanie, budowa i tiuning baz danych) Korzystanie z kolejek: Kafka, GCP Pub/Sub Co najmniej 3-letnie doświadczenie jako programista w językach Python i Rust Biegła znajomość Python (w obszarze integracji i analizy danych) i framework PySpark Dobra znajomość języka Rust do pisania narzędzi i frameworków wspomagających wydajne ładowanie danych Standardowa znajomość narzędzi pomocniczych dla developera: repozytorium GIT, Jenkins Mile widziane: Mile widziana znajomość narzędzia harmonogramującego Automate Now firmy Infinity Data Podstawowa wiedza w zakresie programowania MicroServices w języku JAVA Korzystanie z systemu operacyjnego Linux na poziomie zaawansowanego użytkownika Doświadczenie w pracy z dużymi wolumenami danych (~100TB) Umiejętności analitycznego myślenia i szybkiego przyswajania wiedzy Samodzielności i kreatywności w rozwiązywaniu problemów Terminowości i rzetelności w realizacji projektów Zakres obowiązków: Projektowanie, rozwój i utrzymanie procesów integracji danych w środowiskach on-premise oraz chmurowych GCP. Tworzenie, rozwijanie oraz optymalizacja procesów ETL z wykorzystaniem narzędzi Informatica PowerCenter oraz usług GCP. Projektowanie, budowa, rozwój oraz tuning relacyjnych baz danych Oracle i PostgreSQL. Projektowanie i optymalizacja rozwiązań opartych o GCP BigQuery, BigTable oraz Scylla Cloud. Rozwój i utrzymanie narzędzi wspierających wydajne ładowanie oraz przetwarzanie danych w językach Python, PySpark oraz Rust. Współpraca z zespołami analitycznymi, architektonicznymi oraz biznesowymi przy projektowaniu rozwiązań integracyjnych. Tworzenie dokumentacji technicznej dla rozwijanych procesów i rozwiązań. Dbanie o terminową i wysokiej jakości realizację powierzonych zadań projektowych.