Die Datenschutz Einstellungen Ihres Browsers führen dazu, dass diese Seite nicht richtig funktioniert. Bitte öffnen Sie die Seite in einem neuen Tab. Alternativ können Sie Cross-Sitetracking in Ihrem Browser erlauben.
In neuem Tab öffnen
LLM Engineer / AI Platform Engineer (m/w/d)
Projektkontext
OneAI ist eine mandantenfähige Enterprise-KI-Plattform mit lokal betriebenen Sprachmodellen (LLMs), Retrieval-Augmented Generation (RAG), automatisierten Datenimporten und Agentensteuerung.
Als LLM Engineer bist Du für die technische Basis unserer KI-Funktionen verantwortlich:
Du orchestrierst die Modellbereitstellung (Ollama), Embedding-Logik (LangChain, pgvector) und entwickelst das semantische Rückgrat unseres Systems – mandantenfähig, performant und EU-konform.
Deine Aufgaben
- Integration, Management und Optimierung lokaler LLMs (Ollama, LLaMA, Mistral, DeepSeek)
- Aufbau und Pflege der Embedding-Pipeline (Text-Chunks, pgvector, LangChain)
- Entwicklung & Betreuung von RAG-Komponenten, Retrieval-Strategien, Scoring
- Unterstützung bei LARA-Logik (Layered AI Retrieval Architecture) und promptbasierter Steuerung
- Modell-Management & Multi-Modell-Verwaltung (per API, CLI oder REST)
- Zusammenarbeit mit Backend (API), DevOps (Deployment), PO (Use Cases)
- Performance-Tuning, GPU-Auslastungsanalyse (MIG), Troubleshooting1
Unser Stack
- LLM-Infra: Ollama, Mistral, LLaMA, DeepSeek, GPU via MIG
- Embedding: LangChain, pgvector, Chunking, TextSplitter, FAISS (optional)
- Backend/API: Bun, TypeScript, REST, WebSocket
- Storage: PostgreSQL, SeaweedFS, JSON-Vektoren
- Orchestrierung: Docker, Traefik, 0codeDeploy, Prometheus, Grafana
Dein Profil
- Erfahrung mit LLM-Infrastruktur (Ollama, LangChain, gguf, HuggingFace, vllm o.?ä.)
- Sehr gutes Verständnis von Embedding-Konzepten, RAG, Vektorraumlogik, Prompt Engineering
- Praktische Erfahrung mit pgvector, SQL, Text-Splitting & Preprocessing
- Kenntnisse in TypeScript, Python oder Shell (z.?B. zur Integration in Pipelines)
- Interesse an GPU-Strategien, Modellgrößen, Quantisierung, Inferenzoptimierung
- Sorgfältige, dokumentierende, API-orientierte Arbeitsweise
Bonuspunkte
- Erfahrung mit Feintuning / LoRA / ggml-Optimierung
- Kenntnisse in Modellvergleich, Score-Tuning, Custom Prompt Templates
- Praxis in Mandantenfähiger RAG oder RAG-as-a-Service
- Grundlagen in LLM-Sicherheit (Injection Detection, Moderation)
Wenn Du RAG-Architekturen spannend findest, mit Embeddings experimentierst und AI nicht nur nutzen, sondern mitentwickeln willst – bist Du hier richtig.
Bewirb Dich und baue mit uns die souveränste KI-Plattform Europas.
Bewerben
Mobiles Arbeiten
Tätigkeitsbereich
IT und Software-EntwicklungKarrierestufe
mit BerufserfahrungArbeitszeit
VollzeitStandorte
Eisenbahnstr. 50, 72072 Tübingen, DeutschlandMobiles Arbeiten
Arbeitsverhältnis
FestanstellungDie relyon AG hat sich darauf spezialisiert, IT-Lösungen für den Mittelstand zu planen, umzusetzen und zu betreuen. Der Fokus liegt dabei auf zentralen Diensten wie Managed Services und cloudgestützten Infrastrukturen.
Entdecke unser Leitbild und entscheide selbst, ob du zu uns passt!