DevOps - Senior Site Reliability Engineer
NESS SOLUTION sp. z o.o.
⚲ Warszawa
130–160 zł netto (+ VAT) / godz.
Wymagania
- Terraform
- Ansible
- AWS Lambda
- GitLab CI/CD
- Unix
- Linux
- Datadog
- Grafana
Opis stanowiska
Nasze wymagania: Wykształcenie inżynierskie w zakresie informatyki lub sieci/telekomunikacji. Minimum 4–5 lat doświadczenia operacyjnego w rolach SysOps / DevOps / SRE. Solidne podstawy sieciowe: DNS, TCP, HTTP, routing (BGP), caching, proxy. Pasja do automatyzacji, observability i optymalizacji wydajności. Dobra znajomość systemów monitoringu (np. Datadog, Grafana…). Biegłość w narzędziach DevOps (Terraform, Ansible, AWS Lambda, GitLab CI/CD…). Bardzo dobra znajomość systemów Unix/Linux. Osoba zorganizowana, samodzielna, analityczna i elastyczna. Bardzo dobre umiejętności komunikacyjne i zdolność współpracy zarówno z zespołami technicznymi, jak i nietechnicznymi. Bardzo dobra znajomość języka angielskiego - B2 Chęć dołączenia do wiodącej firmy medialnej i streamingowej oraz pracy nad systemami dystrybucji na dużą skalę. Mile widziane: Doświadczenie z technologiami CDN lub zagadnieniami QoS w OTT będzie dodatkowym atutem. O projekcie: Jako członek zespołu naszego Klienta - CDN Operations będziesz odpowiedzialny/a za wdrażanie, niezawodność oraz nadzór techniczny nad naszymi wewnętrznymi i chmurowymi platformami CDN odegrasz kluczową rolę w zapewnieniu wydajności, skalowalności oraz doskonałości operacyjnej naszej globalnej infrastruktury dystrybucji OTT. Zakres obowiązków: Zapewnianie dostępności, odporności i wydajności wszystkich platform CDN (usługi chmurowe, serwery bare-metal, sieci międzynarodowe, punkty wymiany ruchu internetowego, cache’e hostowane u ISP). Regularna analiza pojemności CDN, trendów wydajności oraz prognoz wykorzystania w celu wsparcia globalnego wzrostu ruchu. Udział we wdrożeniach, rolloutach produkcyjnych oraz analizie wzorców konsumpcji OTT we wszystkich regionach. Monitorowanie i analiza kluczowych wskaźników wydajności (opóźnienie, przepustowość, efektywność cache, poziom błędów…) oraz ciągłe proponowanie optymalizacji poprawiających jakość usług i efektywność kosztową platformy. Udział w reagowaniu na incydenty, analizie przyczyn źródłowych (root cause analysis) oraz planach poprawy niezawodności. Okazjonalne wsparcie zespołów DevOps w przypadku nadmiernego obciążenia zadaniami operacyjnymi. Budowa i utrzymanie stosu observability dla wszystkich platform CDN (logi, metryki, trace’y, alerty), obecnie opartego na Datadog, z silnym naciskiem na skalowalność i standaryzację między regionami oraz spółkami zależnymi. Projektowanie i utrzymanie wielokrotnego użytku szablonów (dashboardy, reguły alertowania, widoki SLO/SLA, pipeline’y przetwarzania logów) w celu uprzemysłowienia monitoringu i zapewnienia spójnych praktyk obserwowalności dla wszystkich środowisk CDN (chmurowych i bare-metal). Tworzenie skalowalnych rozwiązań monitoringowych zdolnych obsługiwać duże wolumeny ruchu i danych, przy zachowaniu efektywności kosztowej. Implementacja zautomatyzowanych kontroli stanu (health checks), detekcji anomalii i workflow alertowych wspierających operacje 24/7 oraz redukujących pracę manualną. Ciągłe usprawnianie zbierania, korelacji i wizualizacji danych, tak aby zespoły inżynieryjne, operacyjne i biznesowe mogły szybko rozumieć zachowanie platformy oraz doświadczenie użytkowników. Tworzenie i rozwijanie systemów operacyjnych, skryptów i workflow automatyzacyjnych (Python/Bash/API) do zbierania metryk operacyjnych, wskaźników kosztowych i danych wydajnościowych na dużą skalę. Oferujemy: Stabilna długofalowa współpraca. Praca w pełni zdalna. Możliwość rozwoju w ramach struktury zespołu oraz całej grupy. Możliwość skorzystania z pakietów medycznych oraz karty Multisport.