Die Datenschutz Einstellungen Ihres Browsers führen dazu, dass diese Seite nicht richtig funktioniert. Bitte öffnen Sie die Seite in einem neuen Tab. Alternativ können Sie Cross-Sitetracking in Ihrem Browser erlauben.
In neuem Tab öffnen
DevOps Engineer (m/w/d)
Projektkontext
OneAI ist eine souveräne KI-Plattform für Unternehmen. Wir entwickeln ein mandantenfähiges System mit lokal betriebenen Sprachmodellen (LLMs), GPU-Slicing per MIG, RAG-Vektor-Datenbanken, Self-Service-Portalen und automatisierter Bereitstellung.
Als DevOps Engineer bist Du für die zuverlässige, isolierte und skalierbare Bereitstellung unserer Multi-Tenant-Infrastruktur verantwortlich – von GPU-Partitionierung bis zu Container-Netzwerken und Observability.
Deine Aufgaben
- Aufbau und Betreuung der Multi-Tenant Deployment-Umgebung mit Docker Compose
- Konfiguration von VLAN/MACVLAN/IP Netzwerken pro Mandant
- MIG-Konfiguration für dedizierte GPU-Slices pro Kunde (H100/H200)
- Automatisierte Bereitstellung via 0codeDeploy und GitHub CI/CD
- Einrichtung von Monitoring (Prometheus, Loki, Grafana, Tempo) und Alerting
- Absicherung von Services (API Keys, Traefik, TLS, Root-CA, IP-Filter)
- Backup/Restore-Strategien, Ressourcen-Management, Healthchecks
- Performance-Monitoring von Ollama, PostgreSQL, Vektordatenbank, LLM-Pipelines
Unser Stack
- Infra: Docker, Traefik, NVIDIA MIG, VLAN/MACVLAN
- LLM-Stack: Ollama, LangChain, Vektorisierung, RAG
- Monitoring: Prometheus, Grafana, Loki, Tempo
- CI/CD: GitHub Actions, 0codeDeploy, Shell
- Sicherheit: Root-CA, TLS (SAN/IP), API Keys, Audit Logging
Dein Profil
- Tiefes Verständnis von Containertechnologien (Docker, Compose, Traefik)
- Erfahrung mit Netzwerkisolation (VLANs, MACVLAN, IP-Konfiguration, Firewalling)
- Kenntnisse in GPU-Slicing mit NVIDIA MIG (Profilhandling, Mapping, Monitoring)
- Vertraut mit CI/CD Pipelines (GitHub Actions, Shell Scripting, Automatisierung)
- Erfahrung mit Observability-Stacks: Prometheus, Loki, Grafana, Tempo
- Security-Knowhow (TLS, Key Management, Container Hardening)
- Selbstständig, zuverlässig, sauber dokumentierende Arbeitsweise
Bonuspunkte
- Erfahrung mit Airgapped oder OnPrem-Deployments
- Kenntnisse in Supabase, pgvector, Ollama
- Performance-Optimierung für LLM-Infrastruktur
- Shell-Scripting & YAML-Zauberer
Du baust die Brücke zwischen Infrastruktur, KI-System und Datensicherheit.
Wenn Du robuste Systeme liebst, die mit Präzision und Automatisierung glänzen – bewirb Dich jetzt.
Bewerben
Mobiles Arbeiten
Tätigkeitsbereich
IT und Software-EntwicklungKarrierestufe
mit BerufserfahrungArbeitszeit
VollzeitStandorte
Eisenbahnstr. 50, 72072 Tübingen, DeutschlandMobiles Arbeiten
Arbeitsverhältnis
FestanstellungDie relyon AG ist ein innovationsgetriebener IT-Dienstleister & Systemintegrator aus Tübingen. Wir gestalten die digitale Zukunft unserer Kunden – mit Cloud-Technologie, Automatisierung und smarten IT-Lösungen.
Unsere Teams arbeiten interdisziplinär, agil und mit viel Freiraum für eigene Ideen. Wer Technik liebt und Verantwortung übernehmen will, ist bei uns genau richtig.
Let’s build the future of IT – together.
Unsere Teams arbeiten interdisziplinär, agil und mit viel Freiraum für eigene Ideen. Wer Technik liebt und Verantwortung übernehmen will, ist bei uns genau richtig.
Let’s build the future of IT – together.
Entdecke unser Leitbild und entscheide selbst, ob du zu uns passt!
In Kürze: Wir sind ehrgeizig, leistungsbereit und gestalten Wandel mit Leidenschaft und Innovationskraft. Gemeinsam, auf Basis von Vertrauen und Wertschätzung, schaffen wir Lösungen, die nachhaltig Erfolg sichern und Zukunft gestalten.
In Kürze: Wir sind ehrgeizig, leistungsbereit und gestalten Wandel mit Leidenschaft und Innovationskraft. Gemeinsam, auf Basis von Vertrauen und Wertschätzung, schaffen wir Lösungen, die nachhaltig Erfolg sichern und Zukunft gestalten.