Site Reliability Engineer (m/k/n)
UPVANTA SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIALNOŚCIĄ
⚲ Wrocław, Fabryczna
Wymagania
- Datadog
- Grafana
- Terraform
- Ansible
- AWS Lambda
- GitLab
- Linux
Opis stanowiska
Nasze wymagania: Wykształcenie techniczne (Informatyka / Sieci / Telekomunikacja). Minimum 4–5 lat doświadczenia w rolach SysOps, DevOps lub SRE. Bardzo dobra znajomość zagadnień sieciowych: DNS, TCP, HTTP, routing (BGP), caching, proxy. Pasja do automatyzacji, observability i optymalizacji wydajności. Znajomość narzędzi monitoringu (np. Datadog, Grafana). Doświadczenie z narzędziami DevOps (Terraform, Ansible, AWS Lambda, GitLab CI/CD). Bardzo dobra znajomość systemów Unix/Linux. Mile widziane doświadczenie z CDN lub streamingiem OTT / QoS. Samodzielność, dobra organizacja pracy i analityczne podejście do problemów. Umiejętność komunikacji zarówno z zespołami technicznymi, jak i nietechnicznymi. Bardzo dobra znajomość języka angielskiego (znajomość francuskiego będzie dodatkowym atutem). O projekcie: Stawka: 1200-1450 PLN net / B2B Tryb pracy: Zdalnie Do zespołu CDN Operations poszukujemy Site Reliability Engineera, który będzie odpowiedzialny za niezawodność, wydajność i rozwój globalnej infrastruktury CDN wspierającej dystrybucję treści OTT (streaming). Zakres obowiązków: CDN Reliability & Operations - Zapewnienie dostępności, niezawodności i wydajności platform CDN (cloud, serwery bare-metal, sieci międzynarodowe, punkty wymiany ruchu internetowego, cache hostowane u ISP). - Regularna analiza pojemności CDN, trendów wydajności oraz prognoz ruchu w celu obsługi rosnącego globalnego zapotrzebowania. - Wsparcie wdrożeń i rolloutów produkcyjnych oraz analiza wzorców konsumpcji treści OTT w różnych regionach. - Monitorowanie kluczowych wskaźników wydajności (latencja, throughput, efektywność cache, poziom błędów) i proponowanie optymalizacji jakości usług oraz kosztów infrastruktury. - Udział w obsłudze incydentów, analizie root cause oraz działaniach zwiększających niezawodność systemów. - Okazjonalne wsparcie zespołów DevOps przy zadaniach operacyjnych. Observability & Monitoring - Budowa i utrzymanie stacku obserwowalności dla platform CDN (logi, metryki, trace’y, alerty) – obecnie opartego o Datadog. - Tworzenie i utrzymywanie szablonów monitoringu (dashboardy, reguły alertów, widoki SLO/SLA, pipeline’y logów). - Projektowanie skalowalnych rozwiązań monitorujących obsługujących duże wolumeny danych i ruchu. - Wdrażanie automatycznych health checków, detekcji anomalii oraz alertowania dla środowiska 24/7. - Ulepszanie sposobu zbierania, korelacji i wizualizacji danych tak, aby zespoły techniczne i biznesowe mogły szybko analizować zachowanie platformy i doświadczenie użytkowników. Development of Tools & Automation - Tworzenie i rozwijanie skryptów oraz automatyzacji (Python, Bash, API) do zbierania metryk operacyjnych, danych kosztowych i wydajnościowych. - Budowa narzędzi wewnętrznych wykorzystywanych przez zespoły w różnych krajach, m.in.: narzędzia do analizy logów, wizualizacja ruchu i widowni, walidatory konfiguracji CDN, narzędzia diagnostyczne i troubleshootingowe, testy cache - Automatyzacja operacji poprzez Infrastructure as Code (Terraform), pipeline’y CI/CD oraz automatyczne rollouty konfiguracji. Współpraca i governance CDN - Ścisła współpraca z zespołami OTT Engineering, DevOps, Network, Security, Data oraz jednostkami biznesowymi w różnych regionach. - Współtworzenie globalnych standardów dla CDN (latencja, TTL, zasady cache, observability, bezpieczeństwo, optymalizacja kosztów). - Dzielenie się dobrymi praktykami z zespołami w różnych regionach (Afryka, Polska, Europa, Azja). - Tworzenie dokumentacji technicznej, guideline’ów oraz materiałów onboardingowych. - Współpraca z ISP, dostawcami chmury i zespołami wewnętrznymi w celu rozwiązywania problemów z dystrybucją treści. - Wsparcie dużych wydarzeń generujących wysoki ruch (np. transmisje sportowe, live streaming) – przygotowanie, monitoring i analiza po wydarzeniu.