DevOps Engineer - AI Infrastructure & Orchestration
Poland
⚲ Warszawa
Wymagania
- DevOps/SRE
Opis stanowiska
W ITLT pomagamy naszym zaprzyjaźnionym firmom przekształcać ambitne pomysły w cyfrową rzeczywistość. Z nastawieniem na wyzwania, ciekawość technologii i zwinność - współtworzymy wyjątkowe rozwiązania IT. Aktualnie poszukujemy osób na stanowisko: DevOps Engineer (AI Infrastructure & Orchestration) Konkrety: • Stawka: Jesteśmy w pełni otwarci na Twoją propozycję. Wystarczy wpisać odpowiednią dla Ciebie kwotę w formularzu • Miejsce pracy/praca zdalna: Praca zdalna (Remote) • Wymiar pracy: Fulltime • Sektor: AI/Telco • Projekt: On-prem LLM platform - orkiestracja i monitoring vLLM na GPU clusterze • Zespół: 6-8os. • Proces rekrutacji: 1-etapowy (spotkanie zdalne via MS Teams). Sporadycznie możliwe dodatkowe krótkie spotkanie - połączone z decyzją • Szacowany czas trwania projektu: Długoterminowy • Czas pracy/Strefa czasowa: Standardowe polskie godziny pracy • Technologie na projekcie: Kubernetes (OpenShift), vLLM, NVIDIA GPU (H100/H200/B300), Prometheus, Grafana, ELK, OpenTelemetry, Python, Bash, Go, GitLab CI, Jenkins, ArgoCD, bare metal Do Twoich głównych obowiązków na tym stanowisku należeć będzie: • Deployment i utrzymanie vLLM na Openshift Kubernetes (bare-metal GPU) • Orkiestracja i optymalizacja GPU (NVIDIA) • Automatyzacja lifecycle modeli (HF/S3: pull, versioning, hot-swap) • HPA (queue depth, GPU memory) • Tuning vLLM (performance, batching, memory) • Metryki inference (tokeny, latency, errors) + tracking zużycia per user/API key • Grafana dashboards (GPU, TTFT, RPS, koszty, quota) • Alerting (GPU failures, latency, anomalies) • API Gateway (NGINX: auth, rate limit, routing) • Security + isolation + audit logging • Monitoring stack (Prometheus, Grafana, ELK, OpenTelemetry) • Automatyzacja (Python/Bash/Go) • CI/CD (GitLab CI, Jenkins, ArgoCD) • SLA 99.9%, >70% GPU utilization, MTTR reduction Ta oferta będzie idealna dla Ciebie, jeśli posiadasz większość z poniższych: • Min. 5+ lat doświadczenia w DevOps/SRE • Min. 2 lata doświadczenia w MLOps lub AI Infrastructure • Doświadczenie w deploymencie vLLM w środowisku produkcyjnym • Znajomość PagedAttention i continuous batching (vLLM) • Bardzo dobra znajomość Kubernetes i Openshift • Doświadczenie w infrastrukturze GPU NVIDIA (CUDA drivers, container toolkit, debugging) • Umiejętność zarządzania i debugowania środowisk GPU • Doświadczenie w budowie systemów observability od zera • Umiejętność tworzenia custom Prometheus exporters • Bardzo dobra znajomość Python (automation, tooling) • Znajomość Bash i Go • Doświadczenie w pracy z CI/CD (GitLab CI, Jenkins, ArgoCD) • Doświadczenie w środowiskach on-prem / bare-metal Nice to have: • Znajomość GPU orchestration w Kubernetes (device plugins NVIDIA) • Znajomość model quantization (AWQ, GPTQ) • Znajomość FinOps dla AI infrastructure • Znajomość vector databases (Milvus, Qdrant) Warto do nas dołączyć, ponieważ oferujemy: • Dużą swobodę pracy zdalnej • Długofalowe stabilne zatrudnienie • Szansę na uczestniczenie w kluczowych projektach dla dużej firmy działającej w bardzo stabilnym sektorze • Atrakcyjne wynagrodzenie (adekwatne do umiejętności i doświadczenia) • Benefity (Lux Med, MultiSport...) W razie pytań pingnij śmiało na Linkedin'ie do Kuby