MLOps / Data Engineer (k/m)
⚲ Warszawa
20 000 - 28 000 PLN netto (B2B) | 16 000 - 24 000 PLN brutto (UoP)
Wymagania
- vLLM
- DVC
- Docker
- GitHub
- Azure
- Linux
- Kubernetes
- MLflow
Opis stanowiska
Szukamy doświadczonego inżyniera, który połączy obszar infrastruktury i DevOps z inżynierią danych i uczeniem maszynowym. Twoim głównym zadaniem będzie projektowanie, rozwój oraz utrzymanie kompleksowych pipeline’ów przetwarzania danych i środowisk do eksperymentów ML (projekty B+R oraz komercyjne). Dołączysz do zespołu pracującego z dużymi zbiorami danych multimodalnych oraz zaawansowanymi modelami generatywnymi i LLM.
Twoje zadania:
•
Architektura i Infrastruktura ML: Konfiguracja, optymalizacja i utrzymanie hybrydowych środowisk obliczeniowych (klastry lokalne + chmura Azure) opartych o konteneryzację (Docker) i orkiestrację (Kubernetes z obsługą akceleratorów GPU).
• Data Engineering: Budowa i optymalizacja wydajnych pipeline’ów ETL/ELT do przetwarzania dużych wolumenów danych multimodalnych (w tym strumieniowanie danych z wykorzystaniem Kafka/RabbitMQ).
• Wdrażanie praktyk MLOps: Wdrażanie i rozwój narzędzi do zarządzania cyklem życia modeli ML (wersjonowanie eksperymentów, modeli i zbiorów danych) oraz budowa potoków CI/CD.
• Deploy i Optymalizacja Inferencji: Wdrażanie modeli na środowiska produkcyjne/testowe. Optymalizacja serwerów inferencyjnych (w tym dla dużych modeli językowych) pod kątem wydajności, latencji i zarządzania zasobami (np. VRAM). Praca z wektorowymi bazami danych.
Doświadczenie i Technologie:
•
Min. 5 lat komercyjnego doświadczenia na stanowisku MLOps, DevOps, Data Engineer lub pokrewnym.
• Znajomość środowisk chmurowych (preferowany Azure) oraz narzędzi DevOps (Docker, Kubernetes, Linux).
• Praktyczna znajomość narzędzi do budowania systemów MLOps i CI/CD (np. MLflow, DVC, GitHub Actions).
• Biegłość w Pythonie oraz doświadczenie z technologiami strumieniowania i przetwarzania danych (Kafka, MQ, bazy wektorowe).
• Doświadczenie w optymalizacji silników inferencyjnych (np. vLLM, TGI) oraz znajomość narzędzi monitoringu (Prometheus, Grafana).
Inne:
• Wymagana biegła znajomość języka polskiego
Twoje zadania:
•
Architektura i Infrastruktura ML: Konfiguracja, optymalizacja i utrzymanie hybrydowych środowisk obliczeniowych (klastry lokalne + chmura Azure) opartych o konteneryzację (Docker) i orkiestrację (Kubernetes z obsługą akceleratorów GPU).
• Data Engineering: Budowa i optymalizacja wydajnych pipeline’ów ETL/ELT do przetwarzania dużych wolumenów danych multimodalnych (w tym strumieniowanie danych z wykorzystaniem Kafka/RabbitMQ).
• Wdrażanie praktyk MLOps: Wdrażanie i rozwój narzędzi do zarządzania cyklem życia modeli ML (wersjonowanie eksperymentów, modeli i zbiorów danych) oraz budowa potoków CI/CD.
• Deploy i Optymalizacja Inferencji: Wdrażanie modeli na środowiska produkcyjne/testowe. Optymalizacja serwerów inferencyjnych (w tym dla dużych modeli językowych) pod kątem wydajności, latencji i zarządzania zasobami (np. VRAM). Praca z wektorowymi bazami danych.
Doświadczenie i Technologie:
•
Min. 5 lat komercyjnego doświadczenia na stanowisku MLOps, DevOps, Data Engineer lub pokrewnym.
• Znajomość środowisk chmurowych (preferowany Azure) oraz narzędzi DevOps (Docker, Kubernetes, Linux).
• Praktyczna znajomość narzędzi do budowania systemów MLOps i CI/CD (np. MLflow, DVC, GitHub Actions).
• Biegłość w Pythonie oraz doświadczenie z technologiami strumieniowania i przetwarzania danych (Kafka, MQ, bazy wektorowe).
• Doświadczenie w optymalizacji silników inferencyjnych (np. vLLM, TGI) oraz znajomość narzędzi monitoringu (Prometheus, Grafana).
Inne:
• Wymagana biegła znajomość języka polskiego
🔍 Dekoder Ogłoszenia
🔴
kompleksowych pipeline’ów przetwarzania danych i środowisk do eksperymentów ML
Może oznaczać zarówno dobrze zdefiniowane, zautomatyzowane procesy, jak i bardziej ad-hocowe rozwiązania wymagające ciągłego poprawiania.
🔴
projekty B+R oraz komercyjne
Może oznaczać, że część pracy będzie polegać na eksperymentowaniu i niepewności, a nie tylko na stabilnym wdrażaniu znanych rozwiązań.
🔴
hybrydowych środowisk obliczeniowych (klastry lokalne + chmura Azure)
Praca z infrastrukturą hybrydową może być bardziej złożona i wymagać rozwiązywania problemów związanych z integracją różnych środowisk.
🔴
z dużymi zbiorami danych multimodalnych
Praca z 'dużymi' danymi może oznaczać wyzwania związane z wydajnością, przechowywaniem i przetwarzaniem, które nie zawsze są trywialne.
🟡
Min. 5 lat komercyjnego doświadczenia
Wymaganie 5 lat doświadczenia może sugerować, że szukają kogoś, kto już rozwiązywał podobne problemy i nie będzie potrzebował intensywnego szkolenia.