NoFluffJobs Praca zdalna Senior

Site Reliability Engineer (m/k/n)

Upvanta

⚲ Remote

25 200 - 30 450 PLN (B2B)

Wymagania

  • DevOps
  • SRE
  • DNS
  • TCP
  • HTTP
  • BGP
  • Proxy
  • Datadog
  • Grafana
  • Terraform
  • Ansible
  • AWS Lambda
  • GitLab CI (nice to have)
  • Unix (nice to have)
  • Linux (nice to have)
  • CDN (nice to have)

Opis stanowiska

O projekcie: Do zespołu CDN Operations poszukujemy Site Reliability Engineera, który będzie odpowiedzialny za niezawodność, wydajność i rozwój globalnej infrastruktury CDN wspierającej dystrybucję treści OTT (streaming). Wymagania: Wymagania - Wykształcenie techniczne (Informatyka / Sieci / Telekomunikacja). - Minimum 4–5 lat doświadczenia w rolach SysOps, DevOps lub SRE. - Bardzo dobra znajomość zagadnień sieciowych: DNS, TCP, HTTP, routing (BGP), caching, proxy. - Pasja do automatyzacji, observability i optymalizacji wydajności. - Znajomość narzędzi monitoringu (np. Datadog, Grafana). - Doświadczenie z narzędziami DevOps (Terraform, Ansible, AWS Lambda, GitLab CI/CD). - Bardzo dobra znajomość systemów Unix/Linux. - Mile widziane doświadczenie z CDN lub streamingiem OTT / QoS. - Samodzielność, dobra organizacja pracy i analityczne podejście do problemów. - Umiejętność komunikacji zarówno z zespołami technicznymi, jak i nietechnicznymi. - Bardzo dobra znajomość języka angielskiego (znajomość francuskiego będzie dodatkowym atutem). Codzienne zadania: - Zapewnienie dostępności, niezawodności i wydajności platform CDN (cloud, serwery bare-metal, sieci międzynarodowe, punkty wymiany ruchu internetowego, cache hostowane u ISP). - Regularna analiza pojemności CDN, trendów wydajności oraz prognoz ruchu w celu obsługi rosnącego globalnego zapotrzebowania. - Wsparcie wdrożeń i rolloutów produkcyjnych oraz analiza wzorców konsumpcji treści OTT w różnych regionach. - Monitorowanie kluczowych wskaźników wydajności (latencja, throughput, efektywność cache, poziom błędów) i proponowanie optymalizacji jakości usług oraz kosztów infrastruktury. - Udział w obsłudze incydentów, analizie root cause oraz działaniach zwiększających niezawodność systemów. - Okazjonalne wsparcie zespołów DevOps przy zadaniach operacyjnych. - Budowa i utrzymanie stacku obserwowalności dla platform CDN (logi, metryki, trace’y, alerty) – obecnie opartego o Datadog. - Tworzenie i utrzymywanie szablonów monitoringu (dashboardy, reguły alertów, widoki SLO/SLA, pipeline’y logów). - Projektowanie skalowalnych rozwiązań monitorujących obsługujących duże wolumeny danych i ruchu. - Wdrażanie automatycznych health checków, detekcji anomalii oraz alertowania dla środowiska 24/7. - Ulepszanie sposobu zbierania, korelacji i wizualizacji danych tak, aby zespoły techniczne i biznesowe mogły szybko analizować zachowanie platformy i doświadczenie użytkowników. - Tworzenie i rozwijanie skryptów oraz automatyzacji (Python, Bash, API) do zbierania metryk operacyjnych, danych kosztowych i wydajnościowych. - Budowa narzędzi wewnętrznych wykorzystywanych przez zespoły w różnych krajach, m.in.: narzędzia do analizy logów, wizualizacja ruchu i widowni, walidatory konfiguracji CDN, narzędzia diagnostyczne i troubleshootingowe, testy cache - Automatyzacja operacji poprzez Infrastructure as Code (Terraform), pipeline’y CI/CD oraz automatyczne rollouty konfiguracji. - Ścisła współpraca z zespołami OTT Engineering, DevOps, Network, Security, Data oraz jednostkami biznesowymi w różnych regionach. - Współtworzenie