Deine Mission Als Senior Site Reliability Engineer (m/w/d) im MetaKube Accelerator Team nutzt du moderne Kubernetes- und Cloud-Native-Technologien, um die Zuverlässigkeit, Skalierbarkeit und operative Exzellenz der MKA-Plattform zu maximieren. Du löst komplexe Plattform-Herausforderungen, entwickelst produktionsreife Systeme und trägst zu Shared Ownership und kontinuierlicher Verbesserung bei. Damit gestaltest du aktiv die Weiterentwicklung des MetaKube Accelerators und erhöhst die Zuverlässigkeit unserer Managed Services. Deine Aufgaben Entwerfen und Implementieren von Observability-Lösungen mit Prometheus, Loki und Mimir, einschließlich der Definition sinnvoller Alerts sowie der kontinuierlichen Verbesserung der Monitoring-Abdeckung Analyse, Troubleshooting und Weiterentwicklung eigener Kubernetes-Controller, um Zuverlässigkeit und Stabilität sicherzustellen Entwicklung und Wartung von Produktionsanwendungen mit Fokus auf Codequalität, Skalierbarkeit und operativer Einsatzfähigkeit Betrieb, Automatisierung und kontinuierliche Weiterentwicklung der MKA-Plattform mit Fokus auf Effizienz und Wartbarkeit Weiterentwicklung interner Tooling-Lösungen, um Automatisierung zu fördern und manuellen Aufwand zu reduzieren Das bringst Du mit Erfahrung im Betrieb von hochverfügbaren, geschäftskritischen Anwendungen in Cloud- und On-Premises-Umgebungen, inklusive Incident Leadership Sehr gute Kubernetes-Kenntnisse sowie Erfahrung im Cluster-Management Erfahrung mit GitOps-Prinzipien für Deployment- und Delivery-Workflows Erfahrung mit Infrastructure as Code, insbesondere Terraform Gute Kenntnisse in Bash und/oder Python für Automatisierung und Tooling Verständnis von CI/CD-Pipelines, idealerweise mit Tekton-basierten Workflows Sehr gute Deutsch- sowie Gute Englischkenntnisse (B2+) für die technische Zusammenarbeit Nice to have Kenntnisse in ArgoCD oder vergleichbaren GitOps-Tools Berührungspunkte mit Configuration-Management-Tools wie Ansible Programmierkenntnisse in Go Vertrautheit mit Nix für Development-Tooling und Automatisierung Routine im Umgang mit Helm, Make und Git Weitere Einblicke in Cloud-Native-Plattformen, Observability oder Plattform-Automatisierung Was Dich bei uns erwartet Du erhältst tiefgehende praktische Kubernetes-Erfahrung und lernst die Internals auf einem Level kennen, das nur wenige haben. Du bekommst die Freiheit, Herausforderungen zu lösen, Wissen zu teilen und kontinuierlich zu lernen – sei es durch Team-Zusammenarbeit, interne Show-and-Tell-Sessions oder Konferenzen wie KubeCon oder Container Days. Deine Ansprechpartner:in

Senior Site Reliability Engineer (m/w/d) - Kubernetes Plattform

About this role

Similar jobs

Similar jobs

Similar jobs