Site Reliability Engineer
Shimi Sp. z o.o.
⚲ Warszawa
150 - 155 PLN/h netto (B2B)
Wymagania
- Azure DevOps
- Kubernetes
- Datadog
- CI/CD
- Grafana
Opis stanowiska
Obecnie dla jednego z naszych Klientów poszukujemy osób na stanowisko Site Reliability Engineer. Osoba na tym stanowisku weźmie realną odpowiedzialność za niezawodność aplikacji i pipeline’ów opartych o AI. To nie jest rola “ticketowa” ani tylko koncepcyjna – szukamy osoby hands-on, która sama diagnozuje, naprawia i automatyzuje, a nie tylko projektuje rozwiązania dla innych. Rola łączy: • odpowiedzialność za operacyjną stabilność systemów AI, • budowę operacyjnego “control tower” (monitoring, alerting, KPI), • oraz aktywną pracę inżynierską przy realnych problemach produkcyjnych. Najważniejsze cechy: • Proaktywność i samodzielność – identyfikowanie problemów, ryzyk oraz obszarów do usprawnień bez potrzeby bardzo szczegółowych instrukcji • Owner mindset – traktowanie stabilności systemów jako odpowiedzialności end‑to‑end • Hands‑on approach – regularna, praktyczna praca z klastrami, pipeline’ami, monitoringiem oraz kodem • AI‑native mindset - codzienne, intensywne korzystanie z narzędzi AI (Copilot, LLM‑y, automatyzacja, analizy, debugowanie, dokumentacja) oraz rozumienie wpływu AI na sposób budowy i utrzymania systemów • Elastyczność środowiskowa – komfortowe funkcjonowanie w dynamicznym otoczeniu o nie w pełni dojrzałych procesach Zakres obowiązków • Budowa i utrzymanie centralnego operacyjnego “control tower” dla aplikacji i pipeline’ów AI • Projektowanie i wdrażanie monitoringu, alertów i dashboardów (sygnały, progi, routing, runbooki) • Incident response: triage, koordynacja, root cause analysis, post‑mortems i działania prewencyjne • Standaryzacja telemetrii pipeline’ów (success/failure, latency, throughput, bottlenecks) • Optymalizacja CI/CD – jakość releasów, testy automatyczne, reliability gates • Współpraca z zespołami engineeringowymi w celu zmniejszenia liczby powtarzalnych incydentów Wymagania: • 5+ lat doświadczenia jako SRE / Production / Platform Engineer • Realne doświadczenie w środowiskach produkcyjnych • Bardzo dobra znajomość incident management i RCA • Umiejętność budowania praktycznego, a nie teoretycznego monitoringu • Azure DevOps – Boards, Repos, Pipelines • Kubernetes – troubleshooting, scaling, operacje produkcyjne • Datadog – metrics, logs, dashboardy, alerting • Azure Portal – operacje środowiskowe i konfiguracja • CI/CD – optymalizacja pipeline’ów, testy, quality gates • (Nice to have) Grafana Preferowane • Doświadczenie z AI / LLM pipelines i ich obserwowalnością • Budowa multi‑app monitoring platforms • Praca w skalowanych środowiskach Kubernetes (AKS lub podobne) Oferta: • Forma współpracy: B2B • Stawka: 150 - 155 PLN/H • Tryb: 100% zdalny