Site Reliability Engineer
Rekrutacja ukryta
⚲ Gdańsk
15 000 - 18 000 PLN (B2B)
Wymagania
- Linux
- PostgreSQL
- Docker
- Ansible
- DevOps
- Bash
- Nomad
- Python
- Grafana
- SRE
- Ubuntu
- HAProxy
- Networking
- monitoring
- Ansible WorX
- GitLab
- Git
- Security (nice to have)
- Patroni (nice to have)
- Consul (nice to have)
- WireGuard (nice to have)
- VictoriaMetrics (nice to have)
- TSL (nice to have)
Opis stanowiska
O projekcie: O firmie i projekcie Pracujemy dla klienta z branży usług operacyjnych i technologicznych, który odpowiada za utrzymanie i skalowanie procesów krytycznych biznesowo dla swoich klientów. Organizacja łączy model managed services z własną platformą SaaS i systemem CRM, integrując operacje, technologię w jednym środowisku. Infrastruktura jest projektowana z myślą o wysokiej dostępności, przewidywalności działania i bezpieczeństwie danych, dlatego duży nacisk kładziony jest na stabilność oraz jakość operacyjną. To środowisko, w którym decyzje infrastrukturalne mają realny wpływ na ciągłość działania usług i doświadczenie końcowych użytkowników. Jak aplikować - Prześlij CV na maila rekrutacja@empse.pl, kub zaaplikuj przez formularz na stronie NFJ- Dołącz link do GitHub lub GitLab (jeśli masz).- W treści wiadomości odpowiedz krótko (maksymalnie 5 zdań) na jedno z poniższych pytań:- Opisz incydent produkcyjny, który rozwiązałeś — co się wydarzyło i jakie działania podjąłeś?- Opisz zmianę, której świadomie nie wdrożyłeś — co to było i dlaczego podjąłeś taką decyzję?- Dlaczego ta rola jest dla Ciebie bardziej interesująca niż praca w środowisku cloud lub Kubernetes? Wymagania: Wymagania - Minimum 4 lata doświadczenia na stanowisku DevOps, Site Reliability Engineer lub pokrewnym, w pracy z infrastrukturą produkcyjną.- Bardzo dobra znajomość systemów Linux (Ubuntu) na poziomie operacyjnym (systemd, nftables, LVM/mdadm, systemy plików, tuning jądra) oraz umiejętność diagnozowania problemów na podstawie logów i metryk.- Znajomość PostgreSQL na poziomie operatorskim (replikacja streamingowa, WAL, vacuum, analiza planów zapytań, debugowanie wydajności) oraz doświadczenie z rozwiązaniami HA (Patroni) i strategiami backupu/restore (np. pgBackRest lub równoważne).- Doświadczenie w pracy z HashiCorp Nomad (service discovery, KV store, templating) oraz w zarządzaniu środowiskiem kontenerowym opartym o Docker (volumes, networking, health checks).- Umiejętność konfiguracji i utrzymania HAProxy w warstwie L4 i L7 (SNI, TLS, ACL, wysokiej dostępności) oraz dobra znajomość zagadnień sieciowych, w tym WireGuard, Headscale lub rozwiązań typu overlay networking.- Doświadczenie w pracy z monitoringiem i obserwowalnością (Grafana lub VictoriaMetrics, VictoriaLogs) oraz umiejętność pracy z metrykami, alertami i diagnozowania problemów produkcyjnych.- Doświadczenie w automatyzacji z wykorzystaniem Ansible (playbooks, role, templates, idempotentność) oraz znajomość Bash i GitLab (praca z pull requestami i code review).- Bardzo dobra znajomość języka polskiego w mowie i piśmie (praca i dokumentacja w języku polskim). Mile widziane - Doświadczenie w automatyzacji zarządzania certyfikatami (np. Let’s Encrypt, DNS-01).- Znajomość TLS, PKI oraz kryptografii aplikacyjnej na poziomie pozwalającym diagnozować problemy (np. handshake, certyfikaty, ALPN).- Doświadczenie w tuningu systemu (sysctl, zarządzanie pamięcią, IO schedulers).- Znajomość Python wykorzystywanego do automatyzacji (mile widziane podejście asynchroniczne).- Doświadczenie ze środowiskiem Hetzner lub infrastrukturą bare-metal.- Znajomość zagadnień związanych z ochroną danych i bezpieczeństwem (np. RODO, dane wrażliwe, NISII).- Doświadczenie we współpracy z klientem lub zewnętrznym software house’em.- Udział w projektach związanych z narzędziami takimi jak Patroni, Nomad, Consul, Headscale, HAProxy lub elementami ekosystemu monitoringu. Codzienne zadania: - Na tym stanowisku będziesz odpowiedzialny za utrzymanie i rozwój infrastruktury produkcyjnej opartej o bare-metal oraz zapewnienie wysokiej dostępności kluczowych systemów, orkiestrowanych Nomadem w szczególności klastrów PostgreSQL w konfiguracji HA. Twoja praca będzie obejmowała diagnozowanie i rozwiązywanie problemów na poziomie systemowym – od analizy logów i metryk, przez debugowanie zapytań i konfiguracji sieciowych, aż po optymalizację wydajności środowiska. Będziesz rozwijać i utrzymywać automatyzację (głównie w Ansible) oraz współtworzyć platformę umożliwiającą zespołom developerskim stabilne i przewidywalne wdrażanie aplikacji. Istotną częścią roli jest dokumentowanie rozwiązań oraz udział w decyzjach architektonicznych opartych o dane z produkcji. - Pracujemy w sposób uporządkowany i świadomy, stawiając na małe, kontrolowane zmiany zamiast dużych migracji. Każda zmiana jest planowana, wdrażana i weryfikowana na podstawie danych. Decyzje podejmujemy w oparciu o logi i metryki, a dokumentacja jest częścią pracy. Priorytetem jest stabilność i bezpieczeństwo systemów, dlatego unikamy podejścia „move fast and break things”.