Data Engineer - databricks (k/m/x)
Square One Resources
⚲ Warsaw
16 800 - 21 840 PLN (B2B)
Wymagania
- Python
- SQL
- Apache Spark
- PySpark
- Databricks
- ETL
- data-mining
- Machine learning
Opis stanowiska
O projekcie: - Poszukujemy Data Engineer do pracy przy projekcie związanym z rozwojem pojazdów autonomicznych (Autonomous Vehicles – AV). Osoba na tym stanowisku będzie analizować duże wolumeny danych sensorowych pochodzących z floty pojazdów testowych (kamery, LiDAR, radar), identyfikować rzadkie i krytyczne scenariusze drogowe (edge cases) oraz przygotowywać dane do symulacji i trenowania modeli ML. - Rola obejmuje pracę z zaawansowaną analityką danych oraz przetwarzaniem szeregów czasowych przy użyciu SQL, Python i Spark/PySpark, a także budowę procesów ETL i narzędzi wspierających eksplorację danych. Zespół odpowiada za przygotowanie i walidację danych wykorzystywanych w pipeline’ach ML oraz systemach symulacyjnych dla autonomicznej jazdy. Wymagania: - Silne podstawy w inżynierii oprogramowania - Zaawansowana znajomość SQL i umiejętność pisania złożonych zapytań - Zaawansowana znajomość Python - Bardzo dobra znajomość Spark / PySpark - Praktyczne doświadczenie z Databricks - Doświadczenie w zaawansowanej analizie danych - Doświadczenie w analizie szeregów czasowych (time-series) - Zrozumienie workflowów Machine Learning (przygotowanie danych do trenowania modeli) - Umiejętność pracy z dużymi wolumenami danych - Dodatkowe atuty: - Doświadczenie z danymi sensorowymi (np. kamery, LiDAR, radar) - Znajomość domeny autonomous driving / AV - Doświadczenie z danymi półstrukturalnymi (np. tablice struktur z modeli detekcji obiektów) Codzienne zadania: - Analiza dużych wolumenów danych z sensorów w celu identyfikacji edge cases (np. nagłe hamowanie, bliskie pojazdy) - Pisanie złożonych zapytań w SQL / Python / Spark (PySpark) do filtrowania, agregowania i transformowania danych - Analiza i przetwarzanie danych szeregów czasowych - Praca z wewnętrznymi narzędziami do wyszukiwania danych oraz workflowów auto-labeling - Przetwarzanie danych strukturalnych i półstrukturalnych generowanych przez modele detekcji obiektów - Identyfikowanie danych odpowiednich do symulacji pojazdów autonomicznych oraz pipeline’ów treningowych ML - Projektowanie i rozwój skryptów do zaawansowanego data mining - Budowa i utrzymanie procesów ETL dla dużych zbiorów danych - Rozwój i usprawnianie wewnętrznych narzędzi analitycznych wspierających eksplorację danych - Proponowanie i walidacja nowych podejść analitycznych usprawniających odkrywanie danych