Confidence with Chaos for your Kubernetes Observability
Der Kubernetes-Observability-Stack läuft mit Prometheus und Dashboards bieten viele interessante Einblicke. Die Details sind überwältigend und Teams sind mit Warnmeldungen überschwemmt. Alerts und Service Level Objectives (SLO) erfordern Absprachen im Team. Außerdem sind Dokumentation und Alarm-Aktionen für SRE- und DevOps-Teams erforderlich.
Ein simulierter Produktionsausfall kann helfen, um zu sehen, ob die SLOs erfüllt oder Alarme ausgelöst werden. Gibt es eine Möglichkeit, Anwendungen mit Chaos zu stören und das Verhalten zu überwachen?
Nehmen Sie an diesem Vortrag teil und tauchen Sie ein in Ops- und Dev-Geschichten mit praktischen Einblicken in Kubernetes-Metriken, Prometheus-Alarmierung, Chaos-Engineering mit Chaos Mesh und OpenTelemetry-App-Instrumentierung. Lernen Sie von Produktionsausfällen mit fehlgeschlagenen SLOs. Gewinnen Sie Vertrauen in Chaos-Engineering als Site Reliability Engineer und als Entwickler und erkennen Sie den Mehrwert von Observability.
Willkommen zu Day 2 DevOps!
Vorkenntnisse
Die Teilnehmer sollten über Grundkenntnisse in der Entwicklung und/oder Betriebserfahrung verfügen, um sich mit den Kubernetes-Implementierungen und Observability-Praktiken vertraut zu machen. Die vorgestellten Tools und Ideen laden dazu ein, sie nach dem Vortrag mit den zusätzlichen URLs auf den Folien zu verfolgen und zu üben.
Lernziele
Lernen Sie den Day-2-Betrieb nach der Installation des Observability-Stacks kennen, einschließlich Metriken, Service Level Objectives (SLOs) und Warnungen. Chaos Engineering wird der nativen Cloud-Bereitstellung hinzugefügt, und Ausfallszenarien werden simuliert, um Warnungen auszulösen sowie langlaufende Traces und fehlgeschlagene SLOs zu visualisieren. Ziel ist es, zu lernen, die Ergebnisse zu analysieren und ein besseres Alarm- und Incident-Management aufzubauen. Entwickler, Ops und SREs sollten mit Chaos Engineering in Cloud-Native-Implementierungen Vertrauen in die Observability gewinnen.