AI Engineer
DCG
⚲ Warszawa
Wymagania
- JSON
- LLM
- API
- UAT
Opis stanowiska
Zakres obowiązków: • Projektowanie promptów jako artefaktów produktowych, odpornych na halucynacje, z separacją danych zaufanych i niezaufanych w kontekście • Tworzenie modularnych promptów (role, instrukcje, constraints, output schema) z myślą o reużywalności, parametryzacji i wersjonowaniu • Projektowanie system promptów dla agentów z dostępem do narzędzi, w tym precyzyjnych opisów narzędzi (tool descriptions traktowanych jako element promptu) • Projektowanie outputów zgodnych z systemami downstream: JSON, schematy decyzyjne, tabele, struktury walidowalne • Wsparcie projektowania orkiestracji multi-agent (np. wzorce supervisor/worker, specjalizacja agentów) • Zarządzanie kontekstem w długich trajektoriach: kompresja, podsumowania pośrednie, strategie pamięci • Projektowanie promptów dla scenariuszy RAG: wzorce cytowania, grounding na źródłach, obsługa sytuacji „brak danych w kontekście / nie wiem" • Współpraca przy projektowaniu strategii retrievalu i kompresji kontekstu pod konkretny use case biznesowy • Budowa golden datasets oraz eval setów dopasowanych do use case'u (zarówno dla pojedynczych promptów, jak i całych trajektorii agentowych) • Definiowanie i mierzenie metryk: jakość finalnej odpowiedzi, task success rate, tool-call accuracy, jakość trajektorii, stabilność, koszt i czas wykonania • Stosowanie podejścia LLM-as-a-judge ze świadomością jego ograniczeń i bias • Regression testing przy zmianach promptów, modeli lub wersji API; udział w testach UAT • Praca z narzędziami klasy Braintrust, LangSmith, Langfuse, Promptfoo lub własnymi harness'ami ewaluacyjnymi • Identyfikacja i mitygacja ryzyk: prompt injection (szczególnie w architekturach z narzędziami), data exfiltration przez tool use, jailbreaks, niepożądane ujawnienie danych • Świadome projektowanie z uwzględnieniem PII w promptach i logach, separacji trusted/untrusted content w kontekście • Praca z trace'ami agentów, analiza failure modes, root cause analysis dla niepożądanych zachowań • Iteracyjne ulepszanie promptów na podstawie danych z runtime, nie tylko intuicji • Przekładanie potrzeb biznesowych (use case'y, procesy, decyzje) na skuteczne rozwiązania promptowe i agentowe Wymagania: • Doświadczenie w projektach opartych o agentowe systemy LLM realizowanych w środowisku regulowanym (np. bankowość), obejmujących etapy PoC, pilotażu i UAT • Praktyczna znajomość pracy z Azure OpenAI w środowisku enterprise oraz doświadczenie z modelami reasoningowymi (np. o-series, Claude Extended Thinking) • Umiejętność projektowania i rozwijania promptów zgodnie z podejściem „prompt as code" — wersjonowanie w Git, code review, CI/CD, testy regresyjne, środowiska dev/test/prod • Doświadczenie w projektowaniu modularnych promptów i architektur agentowych (ReAct, planning, self-check, multi-agent orchestration) • Znajomość scenariuszy RAG oraz grounding — projektowanie rozwiązań opartych o źródła wiedzy, regulacje, procedury i dokumenty klienta • Umiejętność tworzenia promptów odpornych na halucynacje, prompt injection i inne ryzyka bezpieczeństwa związane z LLM • Doświadczenie w integracji rozwiązań AI z systemami biznesowymi oraz narzędziami orkiestracji agentów • Znajomość metod ewaluacji jakości modeli i promptów: golden datasets, eval sets, regression testing, LLM-as-a-judge, metryki jakości i stabilności • Praktyka w pracy z narzędziami typu LangSmith, Langfuse, Braintrust, Promptfoo lub własnymi frameworkami ewaluacyjnymi • Umiejętność analizy trace'ów agentów, debugowania failure modes oraz iteracyjnego ulepszania rozwiązań na podstawie danych runtime • Doświadczenie we współpracy z product ownerami, analitykami, zespołami AI/data/IT oraz obszarami compliance, risk, security i model risk management • Umiejętność przekładania potrzeb biznesowych na skuteczne rozwiązania promptowe i agentowe Oferujemy: • Dofinansowanie karty sportowej • Stałe wsparcie konsultanta • Program rekomendacji pracowników