The data privacy settings of your browser prevent this site from functioning properly. Please open the site in a new tab. Alternatively, you can allow cross-sitetracking in your browser.
Open in new tab
LLM Engineer / AI Platform Engineer (m/w/d) - Job Tübingen, Remote work - relyon AG | Jobs

LLM Engineer / AI Platform Engineer (m/w/d)

Projektkontext

OneAI ist eine mandantenfähige Enterprise-KI-Plattform mit lokal betriebenen Sprachmodellen (LLMs), Retrieval-Augmented Generation (RAG), automatisierten Datenimporten und Agentensteuerung.

Als LLM Engineer bist Du für die technische Basis unserer KI-Funktionen verantwortlich:
Du orchestrierst die Modellbereitstellung (Ollama), Embedding-Logik (LangChain, pgvector) und entwickelst das semantische Rückgrat unseres Systems – mandantenfähig, performant und EU-konform.

Deine Aufgaben

  • Integration, Management und Optimierung lokaler LLMs (Ollama, LLaMA, Mistral, DeepSeek)
  • Aufbau und Pflege der Embedding-Pipeline (Text-Chunks, pgvector, LangChain)
  • Entwicklung & Betreuung von RAG-Komponenten, Retrieval-Strategien, Scoring
  • Unterstützung bei LARA-Logik (Layered AI Retrieval Architecture) und promptbasierter Steuerung
  • Modell-Management & Multi-Modell-Verwaltung (per API, CLI oder REST)
  • Zusammenarbeit mit Backend (API), DevOps (Deployment), PO (Use Cases)
  • Performance-Tuning, GPU-Auslastungsanalyse (MIG), Troubleshooting1

Unser Stack

  • LLM-Infra: Ollama, Mistral, LLaMA, DeepSeek, GPU via MIG
  • Embedding: LangChain, pgvector, Chunking, TextSplitter, FAISS (optional)
  • Backend/API: Bun, TypeScript, REST, WebSocket
  • Storage: PostgreSQL, SeaweedFS, JSON-Vektoren
  • Orchestrierung: Docker, Traefik, 0codeDeploy, Prometheus, Grafana

Dein Profil

  • Erfahrung mit LLM-Infrastruktur (Ollama, LangChain, gguf, HuggingFace, vllm o.?ä.)
  • Sehr gutes Verständnis von Embedding-Konzepten, RAG, Vektorraumlogik, Prompt Engineering
  • Praktische Erfahrung mit pgvector, SQL, Text-Splitting & Preprocessing
  • Kenntnisse in TypeScript, Python oder Shell (z.?B. zur Integration in Pipelines)
  • Interesse an GPU-Strategien, Modellgrößen, Quantisierung, Inferenzoptimierung
  • Sorgfältige, dokumentierende, API-orientierte Arbeitsweise

Bonuspunkte

  • Erfahrung mit Feintuning / LoRA / ggml-Optimierung
  • Kenntnisse in Modellvergleich, Score-Tuning, Custom Prompt Templates
  • Praxis in Mandantenfähiger RAG oder RAG-as-a-Service
  • Grundlagen in LLM-Sicherheit (Injection Detection, Moderation)

Wenn Du RAG-Architekturen spannend findest, mit Embeddings experimentierst und AI nicht nur nutzen, sondern mitentwickeln willst – bist Du hier richtig.
Bewirb Dich und baue mit uns die souveränste KI-Plattform Europas.

Submit application
Die relyon AG hat sich darauf spezialisiert, IT-Lösungen für den Mittelstand zu planen, umzusetzen und zu betreuen. Der Fokus liegt dabei auf zentralen Diensten wie Managed Services und cloudgestützten Infrastrukturen.
Entdecke unser Leitbild und entscheide selbst, ob du zu uns passt!

Contact

David Walleneit
show e-mail