Pracuj.pl Hybrydowo Mid New

Programista Big Data

IT LeasingTeam

⚲ Warszawa

Opis stanowiska

Nasze wymagania: Przynajmniej 2 lata doświadczenia w pracy na podobnym stanowisku Znajomość koncepcji Big Data, Hurtowni Danych i Zarządzania Danymi Znajomość platformy Hadoop Cloudera/Hortonworks Przynajmniej rok doświadczenia w programowaniu procesów Spark w Python (lub Scala) Dobrą znajomość SQL Doświadczenie z różnymi formatami danych (np. JSON, PARQUET, ORC, AVRO) Wiedzę o typach baz danych i scenariuszach użycia, np. hive, kudu, hbase itp. Doświadczenie w integracji danych z wielu źródeł danych Mile widziane: Automatyzacja procesów CI/CD w ramach wdrażania kodu i pipeline'ów danych Znajomość Kubeflow i integracja procesów ML w Big Data Tworzenie skalowalnych i niezawodnych pipeline'ów przetwarzania danych O projekcie: Aktualnie poszukujemy kandydatów na stanowisko: Programista BigData Konkrety: Proponowana stawka: 150 - 160 PLN/h na FV Miejsce pracy/praca zdalna: Zapewniamy dużą swobodę pracy zdalnej, przy czym 1-2 razy w miesiącu zapraszamy do warszawskiego biura Wymiar pracy: Fulltime Sektor: Money Services Projekt: Projektowanie przetwarzania streaming, batch w środowisku Hadoop i współpraca z zespołem Data Science przy wdrażaniu modeli ML Zespół: 8-10 osobowy Proces rekrutacji: 1-etapowy (techniczne spotkanie zdalne), sporadycznie może się zdarzyć krótkie dodatkowe spotkanie z Managerem połączone z decyzją Szacowany czas trwania projektu: Długoterminowo/bezterminowo Czas pracy/Strefa czasowa: Standardowe polskie godziny pracy Technologie na projekcie: Hadoop Cloudera/Hortonworks, JSON, Parquet, Orc, Avro, Hive, Kudu, HBase, Kubeflow Zakres obowiązków: Projektowanie i implementacja procesów przetwarzania danych (batch i streaming) w ekosystemie Hadoop (Cloudera/Hortonworks) Tworzenie i optymalizacja procesów Spark w Pythonie lub Scali Opracowywanie i wdrażanie zapytań SQL do analizy i przetwarzania dużych zbiorów danych Przetwarzanie i integracja danych z różnych źródeł w formatach JSON, PARQUET, ORC, AVRO Współpraca z zespołem Data Science przy wdrażaniu modeli Machine Learning w środowisku Big Data Optymalizacja zapytań i procesów ETL pod kątem wydajności i kosztów Zarządzanie i obsługa baz danych (Hive, Kudu, HBase) w środowisku Hadoop Dbanie o jakość kodu i zgodność z najlepszymi praktykami w zakresie testowania, dokumentowania i wdrażania Monitorowanie, debugowanie i rozwiązywanie problemów związanych z przetwarzaniem danych Oferujemy: Dużą swobodę pracy zdalnej Długofalowe stabilne zatrudnienie Szansę na uczestniczenie w kluczowych projektach dla dużej firmy działającej w bardzo stabilnym sektorze Atrakcyjne wynagrodzenie (adekwatne do umiejętności i doświadczenia) Benefity (Lux Med, MultiSport...)