Site Reliability Engineer (m/k/n)
UPVANTA SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIALNOŚCIĄ
⚲ Wrocław
Wymagania
- Datadog
- Grafana
- Terraform
- Ansible
- AWS Lambda
- GitLab
- Linux
Opis stanowiska
Zakres obowiązków: - CDN Reliability & Operations - - Zapewnienie dostępności, niezawodności i wydajności platform CDN (cloud, serwery bare-metal, sieci międzynarodowe, punkty wymiany ruchu internetowego, cache hostowane u ISP). - - Regularna analiza pojemności CDN, trendów wydajności oraz prognoz ruchu w celu obsługi rosnącego globalnego zapotrzebowania. - - Wsparcie wdrożeń i rolloutów produkcyjnych oraz analiza wzorców konsumpcji treści OTT w różnych regionach. - - Monitorowanie kluczowych wskaźników wydajności (latencja, throughput, efektywność cache, poziom błędów) i proponowanie optymalizacji jakości usług oraz kosztów infrastruktury. - - Udział w obsłudze incydentów, analizie root cause oraz działaniach zwiększających niezawodność systemów. - - Okazjonalne wsparcie zespołów DevOps przy zadaniach operacyjnych. - Observability & Monitoring - - Budowa i utrzymanie stacku obserwowalności dla platform CDN (logi, metryki, trace’y, alerty) – obecnie opartego o Datadog. - - Tworzenie i utrzymywanie szablonów monitoringu (dashboardy, reguły alertów, widoki SLO/SLA, pipeline’y logów). - - Projektowanie skalowalnych rozwiązań monitorujących obsługujących duże wolumeny danych i ruchu. - - Wdrażanie automatycznych health checków, detekcji anomalii oraz alertowania dla środowiska 24/7. - - Ulepszanie sposobu zbierania, korelacji i wizualizacji danych tak, aby zespoły techniczne i biznesowe mogły szybko analizować zachowanie platformy i doświadczenie użytkowników. - Development of Tools & Automation - - Tworzenie i rozwijanie skryptów oraz automatyzacji (Python, Bash, API) do zbierania metryk operacyjnych, danych kosztowych i wydajnościowych. - - Budowa narzędzi wewnętrznych wykorzystywanych przez zespoły w różnych krajach, m.in.: narzędzia do analizy logów, wizualizacja ruchu i widowni, walidatory konfiguracji CDN, narzędzia diagnostyczne i troubleshootingowe, testy cache - - Automatyzacja operacji poprzez Infrastructure as Code (Terraform), pipeline’y CI/CD oraz automatyczne rollouty konfiguracji. - Współpraca i governance CDN - - Ścisła współpraca z zespołami OTT Engineering, DevOps, Network, Security, Data oraz jednostkami biznesowymi w różnych regionach. - - Współtworzenie globalnych standardów dla CDN (latencja, TTL, zasady cache, observability, bezpieczeństwo, optymalizacja kosztów). - - Dzielenie się dobrymi praktykami z zespołami w różnych regionach (Afryka, Polska, Europa, Azja). - - Tworzenie dokumentacji technicznej, guideline’ów oraz materiałów onboardingowych. - - Współpraca z ISP, dostawcami chmury i zespołami wewnętrznymi w celu rozwiązywania problemów z dystrybucją treści. - - Wsparcie dużych wydarzeń generujących wysoki ruch (np. transmisje sportowe, live streaming) – przygotowanie, monitoring i analiza po wydarzeniu.