Web Data Engineer
Devire
⚲ Remote
18 480 - 21 840 PLN (B2B)
Wymagania
- ETL
- Python
- HTTP
- HTTPS
- Robot.txt
- XPath
- Sitemap
- CVS
- JSON
- Parquet
- SQL
- Git
- Docker
- CI/CD
- RODO
- GDPR
Opis stanowiska
O projekcie: Devire Outsourcing IT to forma współpracy dedykowana dla specjalistów z branży IT, oparta na zasadach własnej działalności gospodarczej - B2B, realizująca projekty dla Klientów prowadzących innowacyjne i nowoczesne projekty. Dla naszego klienta - firmy z branży logistycznej, poszukujemy osoby na stanowisko Web Data Engineer'a. Współpraca w modelu B2B, przy szacowanym nakładzie pracy ok. 10 godzin tygodniowo (ok. 40 godzin miesięcznie). - Wynagrodzenie w oparciu o umowę B2B (via Devire). - Elasyczny czas pracy, nakład ok 10 godzin tygodniowo. - Pakiet benefitów (opieka medyczna, karta multisport itp.). - Długofalowa współpraca. - Praca zdalna. Wymagania: - Min. 2 lata doświadczenia w scrapingu, ETL i pracy z danymi w Pythonie. - Bardzo dobra znajomość HTTP/HTTPS (sesje, nagłówki, cookies, statusy), robots.txt i sitemap. - Doświadczenie z: requests / httpx, BeautifulSoup4 lub lxml, selektory CSS / XPath, regex, paginacja, infinite scroll. - Praktyka z co najmniej jednym narzędziem do stron dynamicznych: Playwright lub Selenium. - pandas (czyszczenie, transformacje, joiny), formaty CSV / JSON / Parquet, podstawy SQL (SELECT, UPSERT, indeksy). - Obsługa retry/backoff, timeoutów, kontroli równoległości; logowanie i monitoring. - Git, podstawy Dockera oraz CI/CD (testy, lint, skanowanie sekretów). - Świadomość RODO/GDPR (PII, anonimizacja, minimalizacja danych, retencja). - Umiejętność tworzenia czytelnej dokumentacji i sprawnej komunikacji Codzienne zadania: - Projektowanie, implementacja i utrzymanie crawlerów oraz ekstraktorów danych (HTTP/HTTPS, paginacja, infinite scroll, SPA). - Dobór i wykorzystanie adekwatnych narzędzi: requests / httpx, BeautifulSoup4 / lxml, Scrapy, Playwright / Selenium (strony renderowane JavaScriptem). - Budowa pipeline’ów ETL/ELT: czyszczenie, normalizacja, deduplikacja i walidacja danych (np. pandas, Great Expectations / pandera). - Zapisywanie danych do CSV / Parquet oraz/lub ładowanie do relacyjnych baz danych (np. PostgreSQL, BigQuery). - Orkiestracja i automatyzacja zadań (cron, Airflow / Prefect); monitoring, alerting, logowanie, retry/backoff. - Zapewnienie zgodności prawnej i etycznej (robots.txt, regulaminy serwisów, RODO/GDPR). - Dokumentowanie schematów danych, przepływów (data lineage) i decyzji architektonicznych. - Współpraca z analitykami, produktowcami oraz – w razie potrzeby – zespołami prawnymi i bezpieczeństwa. - Proaktywne utrzymanie rozwiązań (szybka adaptacja scraperów po zmianach źródeł, niski MTTR).