Die Datenschutz Einstellungen Ihres Browsers führen dazu, dass diese Seite nicht richtig funktioniert. Bitte öffnen Sie die Seite in einem neuen Tab. Alternativ können Sie Cross-Sitetracking in Ihrem Browser erlauben.
In neuem Tab öffnen
DevOps Engineer (m/w/d)
Projektkontext
OneAI ist eine souveräne KI-Plattform für Unternehmen. Wir entwickeln ein mandantenfähiges System mit lokal betriebenen Sprachmodellen (LLMs), GPU-Slicing per MIG, RAG-Vektor-Datenbanken, Self-Service-Portalen und automatisierter Bereitstellung.
Als DevOps Engineer bist Du für die zuverlässige, isolierte und skalierbare Bereitstellung unserer Multi-Tenant-Infrastruktur verantwortlich – von GPU-Partitionierung bis zu Container-Netzwerken und Observability.
Deine Aufgaben
- Aufbau und Betreuung der Multi-Tenant Deployment-Umgebung mit Docker Compose
- Konfiguration von VLAN/MACVLAN/IP Netzwerken pro Mandant
- MIG-Konfiguration für dedizierte GPU-Slices pro Kunde (H100/H200)
- Automatisierte Bereitstellung via 0codeDeploy und GitHub CI/CD
- Einrichtung von Monitoring (Prometheus, Loki, Grafana, Tempo) und Alerting
- Absicherung von Services (API Keys, Traefik, TLS, Root-CA, IP-Filter)
- Backup/Restore-Strategien, Ressourcen-Management, Healthchecks
- Performance-Monitoring von Ollama, PostgreSQL, Vektordatenbank, LLM-Pipelines
Unser Stack
- Infra: Docker, Traefik, NVIDIA MIG, VLAN/MACVLAN
- LLM-Stack: Ollama, LangChain, Vektorisierung, RAG
- Monitoring: Prometheus, Grafana, Loki, Tempo
- CI/CD: GitHub Actions, 0codeDeploy, Shell
- Sicherheit: Root-CA, TLS (SAN/IP), API Keys, Audit Logging
Dein Profil
- Tiefes Verständnis von Containertechnologien (Docker, Compose, Traefik)
- Erfahrung mit Netzwerkisolation (VLANs, MACVLAN, IP-Konfiguration, Firewalling)
- Kenntnisse in GPU-Slicing mit NVIDIA MIG (Profilhandling, Mapping, Monitoring)
- Vertraut mit CI/CD Pipelines (GitHub Actions, Shell Scripting, Automatisierung)
- Erfahrung mit Observability-Stacks: Prometheus, Loki, Grafana, Tempo
- Security-Knowhow (TLS, Key Management, Container Hardening)
- Selbstständig, zuverlässig, sauber dokumentierende Arbeitsweise
Bonuspunkte
- Erfahrung mit Airgapped oder OnPrem-Deployments
- Kenntnisse in Supabase, pgvector, Ollama
- Performance-Optimierung für LLM-Infrastruktur
- Shell-Scripting & YAML-Zauberer
Du baust die Brücke zwischen Infrastruktur, KI-System und Datensicherheit.
Wenn Du robuste Systeme liebst, die mit Präzision und Automatisierung glänzen – bewirb Dich jetzt.
Bewerben
Mobiles Arbeiten
Tätigkeitsbereich
IT und Software-EntwicklungKarrierestufe
mit BerufserfahrungArbeitszeit
VollzeitStandorte
Eisenbahnstr. 50, 72072 Tübingen, DeutschlandMobiles Arbeiten
Arbeitsverhältnis
FestanstellungDie relyon AG hat sich darauf spezialisiert, IT-Lösungen für den Mittelstand zu planen, umzusetzen und zu betreuen. Der Fokus liegt dabei auf zentralen Diensten wie Managed Services und cloudgestützten Infrastrukturen.
Entdecke unser Leitbild und entscheide selbst, ob du zu uns passt!