Die Datenschutz Einstellungen Ihres Browsers führen dazu, dass diese Seite nicht richtig funktioniert. Bitte öffnen Sie die Seite in einem neuen Tab. Alternativ können Sie Cross-Sitetracking in Ihrem Browser erlauben.

LLM Engineer / AI Platform Engineer (m/w/d)

Projektkontext

OneAI ist eine mandantenfähige Enterprise-KI-Plattform mit lokal betriebenen Sprachmodellen (LLMs), Retrieval-Augmented Generation (RAG), automatisierten Datenimporten und Agentensteuerung.

Als LLM Engineer bist Du für die technische Basis unserer KI-Funktionen verantwortlich:
Du orchestrierst die Modellbereitstellung (Ollama), Embedding-Logik (LangChain, pgvector) und entwickelst das semantische Rückgrat unseres Systems – mandantenfähig, performant und EU-konform.

Deine Aufgaben

Integration, Management und Optimierung lokaler LLMs (Ollama, LLaMA, Mistral, DeepSeek)
Aufbau und Pflege der Embedding-Pipeline (Text-Chunks, pgvector, LangChain)
Entwicklung & Betreuung von RAG-Komponenten, Retrieval-Strategien, Scoring
Unterstützung bei LARA-Logik (Layered AI Retrieval Architecture) und promptbasierter Steuerung
Modell-Management & Multi-Modell-Verwaltung (per API, CLI oder REST)
Zusammenarbeit mit Backend (API), DevOps (Deployment), PO (Use Cases)
Performance-Tuning, GPU-Auslastungsanalyse (MIG), Troubleshooting1

Unser Stack

LLM-Infra: Ollama, Mistral, LLaMA, DeepSeek, GPU via MIG
Embedding: LangChain, pgvector, Chunking, TextSplitter, FAISS (optional)
Backend/API: Bun, TypeScript, REST, WebSocket
Storage: PostgreSQL, SeaweedFS, JSON-Vektoren
Orchestrierung: Docker, Traefik, 0codeDeploy, Prometheus, Grafana

Dein Profil

Erfahrung mit LLM-Infrastruktur (Ollama, LangChain, gguf, HuggingFace, vllm o.?ä.)
Sehr gutes Verständnis von Embedding-Konzepten, RAG, Vektorraumlogik, Prompt Engineering
Praktische Erfahrung mit pgvector, SQL, Text-Splitting & Preprocessing
Kenntnisse in TypeScript, Python oder Shell (z.?B. zur Integration in Pipelines)
Interesse an GPU-Strategien, Modellgrößen, Quantisierung, Inferenzoptimierung
Sorgfältige, dokumentierende, API-orientierte Arbeitsweise

Bonuspunkte

Erfahrung mit Feintuning / LoRA / ggml-Optimierung
Kenntnisse in Modellvergleich, Score-Tuning, Custom Prompt Templates
Praxis in Mandantenfähiger RAG oder RAG-as-a-Service
Grundlagen in LLM-Sicherheit (Injection Detection, Moderation)

Wenn Du RAG-Architekturen spannend findest, mit Embeddings experimentierst und AI nicht nur nutzen, sondern mitentwickeln willst – bist Du hier richtig.
Bewirb Dich und baue mit uns die souveränste KI-Plattform Europas.

Bewerben Übersicht

Bewerben

Das Unternehmen

Die relyon AG hat sich darauf spezialisiert, IT-Lösungen für den Mittelstand zu planen, umzusetzen und zu betreuen. Der Fokus liegt dabei auf zentralen Diensten wie Managed Services und cloudgestützten Infrastrukturen.