JustJoin.IT Hybrydowo Senior

Data Engineer Senior (he/she)

B2Bnetwork

⚲ Warszawa

20 680 - 23 520 PLN netto (B2B)

Wymagania

  • Apache Kafka
  • Data Warehousing
  • BigQuery
  • Oracle
  • Python

Opis stanowiska

Twój zakres obowiązków Projektowanie i rozwój rozwiązań Data Lake służących do przechowywania oraz przetwarzania dużych zbiorów danych. Budowanie i utrzymywanie pipeline’ów przetwarzania danych w architekturze Big Data. Implementacja oraz rozwój procesów przetwarzania danych z wykorzystaniem języków programowania takich jak Python lub Rust. Projektowanie i optymalizacja struktur danych w środowisku Google Cloud Platform, w szczególności w bazie danych BigQuery. Integracja systemów przetwarzania danych z wykorzystaniem architektury sterowanej zdarzeniami (np. Kafka, Pub/Sub). Projektowanie, rozwój oraz tuning baz danych Oracle i PostgreSQL. Utrzymywanie i optymalizacja środowisk przetwarzania danych działających na systemach Linux. Tworzenie i rozwijanie rozwiązań do przetwarzania dużych zbiorów danych w środowisku chmurowym. Współpraca z zespołami analitycznymi i developerskimi przy projektowaniu architektury danych. Tworzenie dokumentacji technicznej dla budowanych rozwiązań i procesów przetwarzania danych. Nasze wymagania doświadczenie w budowaniu i projektowaniu rozwiązań Data Lake, doświadczenie w programowaniu w językach programowania takich jak Python i/lub Rust, znajomość technologii wykorzystywanych w ramach architektury sterowanej zdarzeniami takich jak Kafka lub Pub/Sub, dobra znajomość baz danych GCP: BigQuery (projektowanie, budowa i tuning baz danych), znajomość relacyjnych baz danych Oracle oraz PostgreSQL (projektowanie, budowa i tuning baz danych), znajomość systemu operacyjnego Linux na poziomie zaawansowanego użytkownika. Mile widziane znajomość aspektów związanych z budową rozwiązań Big Data wykorzystujących możliwości GenAI (przetwarzanie danych niestrukturyzowanych takich jak transkrypcje audio, konwersje dokumentów tekstowych czy obrazów), Automate Now, Airflow, Apache Spark (najlepiej w środowisku GCP DataProc), Apache Beam (najlepiej w środowisku GCP DataFlow), Informatica Power Center.