JustJoin.IT Hybrydowo Mid New

Programista BigData

Poland

⚲ Warszawa

150 - 160 PLN/h netto (B2B)

Wymagania

  • Big Data

Opis stanowiska

W ITLT pomagamy naszym zaprzyjaźnionym firmom przekształcać ambitne pomysły w cyfrową rzeczywistość. Z nastawieniem na wyzwania, ciekawość technologii i zwinność - współtworzymy wyjątkowe rozwiązania IT i zapewniamy najlepszych specjalistów - którzy pomagają przyspieszyć cyfrową transformację. Aktualnie poszukujemy kandydatów na stanowisko: Programista BigData Konkrety: • Proponowana stawka: 150 - 160 PLN/h na FV (jesteśmy otwarci na Twoją propozycję) • Miejsce pracy/praca zdalna: Zapewniamy dużą swobodę pracy zdalnej, przy czym 1-2 razy w miesiącu zapraszamy do warszawskiego biura • Wymiar pracy: Fulltime • Sektor: Money Services • Projekt: Projektowanie przetwarzania streaming, batch w środowisku Hadoop i współpraca z zespołem Data Science przy wdrażaniu modeli ML • Zespół: 8-10 osobowy • Proces rekrutacji: 1-etapowy (techniczne spotkanie zdalne), sporadycznie może się zdarzyć krótkie dodatkowe spotkanie z Managerem połączone z decyzją • Szacowany czas trwania projektu: Długoterminowo/bezterminowo • Czas pracy/Strefa czasowa: Standardowe polskie godziny pracy • Technologie na projekcie: Hadoop Cloudera/Hortonworks, JSON, Parquet, Orc, Avro, Hive, Kudu, HBase, Kubeflow Do Twoich głównych obowiązków na tym stanowisku należeć będzie: • Projektowanie i implementacja procesów przetwarzania danych (batch i streaming) w ekosystemie Hadoop (Cloudera/Hortonworks) • Tworzenie i optymalizacja procesów Spark w Pythonie lub Scali • Opracowywanie i wdrażanie zapytań SQL do analizy i przetwarzania dużych zbiorów danych • Przetwarzanie i integracja danych z różnych źródeł w formatach JSON, PARQUET, ORC, AVRO • Współpraca z zespołem Data Science przy wdrażaniu modeli Machine Learning w środowisku Big Data • Optymalizacja zapytań i procesów ETL pod kątem wydajności i kosztów • Zarządzanie i obsługa baz danych (Hive, Kudu, HBase) w środowisku Hadoop • Dbanie o jakość kodu i zgodność z najlepszymi praktykami w zakresie testowania, dokumentowania i wdrażania • Monitorowanie, debugowanie i rozwiązywanie problemów związanych z przetwarzaniem danych Nice to have: • Automatyzacja procesów CI/CD w ramach wdrażania kodu i pipeline'ów danych • Znajomość Kubeflow i integracja procesów ML w Big Data • Tworzenie skalowalnych i niezawodnych pipeline'ów przetwarzania danych Ta oferta będzie idealna dla Ciebie, jeśli posiadasz: • Przynajmniej 2 lata doświadczenia w pracy na podobnym stanowisku • Znajomość koncepcji Big Data, Hurtowni Danych i Zarządzania Danymi • Znajomość platformy Hadoop Cloudera/Hortonworks • Przynajmniej rok doświadczenia w programowaniu procesów Spark w Python (lub Scala) • Dobrą znajomość SQL • Doświadczenie z różnymi formatami danych (np. JSON, PARQUET, ORC, AVRO) • Wiedzę o typach baz danych i scenariuszach użycia, np. hive, kudu, hbase itp. • Doświadczenie w integracji danych z wielu źródeł danych Warto do nas dołączyć, ponieważ oferujemy: • Dużą swobodę pracy zdalnej • Długofalowe stabilne zatrudnienie • Szansę na uczestniczenie w kluczowych projektach dla dużej firmy działającej w bardzo stabilnym sektorze • Atrakcyjne wynagrodzenie (adekwatne do umiejętności i doświadczenia) • Benefity (Lux Med, MultiSport...)   W razie pytań pisz śmiało na Linkedin'ie do Kuby ;)