The data privacy settings of your browser prevent this site from functioning properly. Please open the site in a new tab. Alternatively, you can allow cross-sitetracking in your browser.
Open in new tab
DevOps Engineer (m/w/d)
Projektkontext
OneAI ist eine souveräne KI-Plattform für Unternehmen. Wir entwickeln ein mandantenfähiges System mit lokal betriebenen Sprachmodellen (LLMs), GPU-Slicing per MIG, RAG-Vektor-Datenbanken, Self-Service-Portalen und automatisierter Bereitstellung.
Als DevOps Engineer bist Du für die zuverlässige, isolierte und skalierbare Bereitstellung unserer Multi-Tenant-Infrastruktur verantwortlich – von GPU-Partitionierung bis zu Container-Netzwerken und Observability.
Deine Aufgaben
- Aufbau und Betreuung der Multi-Tenant Deployment-Umgebung mit Docker Compose
- Konfiguration von VLAN/MACVLAN/IP Netzwerken pro Mandant
- MIG-Konfiguration für dedizierte GPU-Slices pro Kunde (H100/H200)
- Automatisierte Bereitstellung via 0codeDeploy und GitHub CI/CD
- Einrichtung von Monitoring (Prometheus, Loki, Grafana, Tempo) und Alerting
- Absicherung von Services (API Keys, Traefik, TLS, Root-CA, IP-Filter)
- Backup/Restore-Strategien, Ressourcen-Management, Healthchecks
- Performance-Monitoring von Ollama, PostgreSQL, Vektordatenbank, LLM-Pipelines
Unser Stack
- Infra: Docker, Traefik, NVIDIA MIG, VLAN/MACVLAN
- LLM-Stack: Ollama, LangChain, Vektorisierung, RAG
- Monitoring: Prometheus, Grafana, Loki, Tempo
- CI/CD: GitHub Actions, 0codeDeploy, Shell
- Sicherheit: Root-CA, TLS (SAN/IP), API Keys, Audit Logging
Dein Profil
- Tiefes Verständnis von Containertechnologien (Docker, Compose, Traefik)
- Erfahrung mit Netzwerkisolation (VLANs, MACVLAN, IP-Konfiguration, Firewalling)
- Kenntnisse in GPU-Slicing mit NVIDIA MIG (Profilhandling, Mapping, Monitoring)
- Vertraut mit CI/CD Pipelines (GitHub Actions, Shell Scripting, Automatisierung)
- Erfahrung mit Observability-Stacks: Prometheus, Loki, Grafana, Tempo
- Security-Knowhow (TLS, Key Management, Container Hardening)
- Selbstständig, zuverlässig, sauber dokumentierende Arbeitsweise
Bonuspunkte
- Erfahrung mit Airgapped oder OnPrem-Deployments
- Kenntnisse in Supabase, pgvector, Ollama
- Performance-Optimierung für LLM-Infrastruktur
- Shell-Scripting & YAML-Zauberer
Du baust die Brücke zwischen Infrastruktur, KI-System und Datensicherheit.
Wenn Du robuste Systeme liebst, die mit Präzision und Automatisierung glänzen – bewirb Dich jetzt.
Submit application
Remote work
Scope of activities
IT and software developmentCareer level
ProfessionalWorking time
Full timeLocations
Eisenbahnstr. 50, 72072 Tübingen, GermanyRemote work
Employment type
Permanent employmentDie relyon AG hat sich darauf spezialisiert, IT-Lösungen für den Mittelstand zu planen, umzusetzen und zu betreuen. Der Fokus liegt dabei auf zentralen Diensten wie Managed Services und cloudgestützten Infrastrukturen.
Entdecke unser Leitbild und entscheide selbst, ob du zu uns passt!