NoFluffJobs Praca zdalna Senior ↻

Site Reliability Engineer (m/k/n)

Upvanta

⚲ Remote

25 200 - 30 450 PLN (B2B)

Wymagania

DevOps
SRE
DNS
TCP
HTTP
BGP
Proxy
Datadog
Grafana
Terraform
Ansible
AWS Lambda
GitLab CI (nice to have)
Unix (nice to have)
Linux (nice to have)
CDN (nice to have)

Opis stanowiska

O projekcie: Do zespołu CDN Operations poszukujemy Site Reliability Engineera, który będzie odpowiedzialny za niezawodność, wydajność i rozwój globalnej infrastruktury CDN wspierającej dystrybucję treści OTT (streaming). Wymagania: Wymagania - Wykształcenie techniczne (Informatyka / Sieci / Telekomunikacja). - Minimum 4–5 lat doświadczenia w rolach SysOps, DevOps lub SRE. - Bardzo dobra znajomość zagadnień sieciowych: DNS, TCP, HTTP, routing (BGP), caching, proxy. - Pasja do automatyzacji, observability i optymalizacji wydajności. - Znajomość narzędzi monitoringu (np. Datadog, Grafana). - Doświadczenie z narzędziami DevOps (Terraform, Ansible, AWS Lambda, GitLab CI/CD). - Bardzo dobra znajomość systemów Unix/Linux. - Mile widziane doświadczenie z CDN lub streamingiem OTT / QoS. - Samodzielność, dobra organizacja pracy i analityczne podejście do problemów. - Umiejętność komunikacji zarówno z zespołami technicznymi, jak i nietechnicznymi. - Bardzo dobra znajomość języka angielskiego (znajomość francuskiego będzie dodatkowym atutem). Codzienne zadania: - Zapewnienie dostępności, niezawodności i wydajności platform CDN (cloud, serwery bare-metal, sieci międzynarodowe, punkty wymiany ruchu internetowego, cache hostowane u ISP). - Regularna analiza pojemności CDN, trendów wydajności oraz prognoz ruchu w celu obsługi rosnącego globalnego zapotrzebowania. - Wsparcie wdrożeń i rolloutów produkcyjnych oraz analiza wzorców konsumpcji treści OTT w różnych regionach. - Monitorowanie kluczowych wskaźników wydajności (latencja, throughput, efektywność cache, poziom błędów) i proponowanie optymalizacji jakości usług oraz kosztów infrastruktury. - Udział w obsłudze incydentów, analizie root cause oraz działaniach zwiększających niezawodność systemów. - Okazjonalne wsparcie zespołów DevOps przy zadaniach operacyjnych. - Budowa i utrzymanie stacku obserwowalności dla platform CDN (logi, metryki, trace’y, alerty) – obecnie opartego o Datadog. - Tworzenie i utrzymywanie szablonów monitoringu (dashboardy, reguły alertów, widoki SLO/SLA, pipeline’y logów). - Projektowanie skalowalnych rozwiązań monitorujących obsługujących duże wolumeny danych i ruchu. - Wdrażanie automatycznych health checków, detekcji anomalii oraz alertowania dla środowiska 24/7. - Ulepszanie sposobu zbierania, korelacji i wizualizacji danych tak, aby zespoły techniczne i biznesowe mogły szybko analizować zachowanie platformy i doświadczenie użytkowników. - Tworzenie i rozwijanie skryptów oraz automatyzacji (Python, Bash, API) do zbierania metryk operacyjnych, danych kosztowych i wydajnościowych. - Budowa narzędzi wewnętrznych wykorzystywanych przez zespoły w różnych krajach, m.in.: narzędzia do analizy logów, wizualizacja ruchu i widowni, walidatory konfiguracji CDN, narzędzia diagnostyczne i troubleshootingowe, testy cache - Automatyzacja operacji poprzez Infrastructure as Code (Terraform), pipeline’y CI/CD oraz automatyczne rollouty konfiguracji. - Ścisła współpraca z zespołami OTT Engineering, DevOps, Network, Security, Data oraz jednostkami biznesowymi w różnych regionach. - Współtworzenie

2026-03-13 Aplikuj - przejdz do oferty ↗