Die Datenschutz Einstellungen Ihres Browsers führen dazu, dass diese Seite nicht richtig funktioniert. Bitte öffnen Sie die Seite in einem neuen Tab. Alternativ können Sie Cross-Sitetracking in Ihrem Browser erlauben.
In neuem Tab öffnen
LLM Engineer / AI Platform Engineer (m/w/d) - Job Tübingen, Mobiles Arbeiten - relyon AG | Jobs

LLM Engineer / AI Platform Engineer (m/w/d)

Projektkontext

OneAI ist eine mandantenfähige Enterprise-KI-Plattform mit lokal betriebenen Sprachmodellen (LLMs), Retrieval-Augmented Generation (RAG), automatisierten Datenimporten und Agentensteuerung.

Als LLM Engineer bist Du für die technische Basis unserer KI-Funktionen verantwortlich:
Du orchestrierst die Modellbereitstellung (Ollama), Embedding-Logik (LangChain, pgvector) und entwickelst das semantische Rückgrat unseres Systems – mandantenfähig, performant und EU-konform.

Deine Aufgaben

  • Integration, Management und Optimierung lokaler LLMs (Ollama, LLaMA, Mistral, DeepSeek)
  • Aufbau und Pflege der Embedding-Pipeline (Text-Chunks, pgvector, LangChain)
  • Entwicklung & Betreuung von RAG-Komponenten, Retrieval-Strategien, Scoring
  • Unterstützung bei LARA-Logik (Layered AI Retrieval Architecture) und promptbasierter Steuerung
  • Modell-Management & Multi-Modell-Verwaltung (per API, CLI oder REST)
  • Zusammenarbeit mit Backend (API), DevOps (Deployment), PO (Use Cases)
  • Performance-Tuning, GPU-Auslastungsanalyse (MIG), Troubleshooting1

Unser Stack

  • LLM-Infra: Ollama, Mistral, LLaMA, DeepSeek, GPU via MIG
  • Embedding: LangChain, pgvector, Chunking, TextSplitter, FAISS (optional)
  • Backend/API: Bun, TypeScript, REST, WebSocket
  • Storage: PostgreSQL, SeaweedFS, JSON-Vektoren
  • Orchestrierung: Docker, Traefik, 0codeDeploy, Prometheus, Grafana

Dein Profil

  • Erfahrung mit LLM-Infrastruktur (Ollama, LangChain, gguf, HuggingFace, vllm o.?ä.)
  • Sehr gutes Verständnis von Embedding-Konzepten, RAG, Vektorraumlogik, Prompt Engineering
  • Praktische Erfahrung mit pgvector, SQL, Text-Splitting & Preprocessing
  • Kenntnisse in TypeScript, Python oder Shell (z.?B. zur Integration in Pipelines)
  • Interesse an GPU-Strategien, Modellgrößen, Quantisierung, Inferenzoptimierung
  • Sorgfältige, dokumentierende, API-orientierte Arbeitsweise

Bonuspunkte

  • Erfahrung mit Feintuning / LoRA / ggml-Optimierung
  • Kenntnisse in Modellvergleich, Score-Tuning, Custom Prompt Templates
  • Praxis in Mandantenfähiger RAG oder RAG-as-a-Service
  • Grundlagen in LLM-Sicherheit (Injection Detection, Moderation)

Wenn Du RAG-Architekturen spannend findest, mit Embeddings experimentierst und AI nicht nur nutzen, sondern mitentwickeln willst – bist Du hier richtig.
Bewirb Dich und baue mit uns die souveränste KI-Plattform Europas.

Bewerben
Die relyon AG hat sich darauf spezialisiert, IT-Lösungen für den Mittelstand zu planen, umzusetzen und zu betreuen. Der Fokus liegt dabei auf zentralen Diensten wie Managed Services und cloudgestützten Infrastrukturen.
Entdecke unser Leitbild und entscheide selbst, ob du zu uns passt!

Kontaktperson

David Walleneit
E-Mail anzeigen