Site Reliability Engineers sind Googles Experten für den Betrieb der internen technischen Infrastruktur und Produkte. Sie müssen mit der enormen Größe, dem schnellen Wachstum und der enormen Komplexität der Systemlandschaft von Google Schritt halten. Da traditionelle Methoden nicht funktionieren würden, behandelt SRE den IT-Betrieb wie ein Software-Engineering-Problem. Der Vortrag gibt einen Überblick über den SRE-Ansatz und wie er die Systeme von Google schnell, zuverlässig und effizient macht.
Vorkenntnisse
* Einige grundlegende Kenntnisse in DevOps oder der Systemadministration könnten hilfreich sein, um die Vorteile des Modells einordnen zu können, sind aber nicht unbedingt erforderlich, um die Präsentation zu verstehen.
* Grundlegendes Verständnis der betrieblichen Herausforderungen beim Betrieb moderner Softwareinfrastrukturen
* Bonuspunkte, wenn man schon von SLOs, Release-Engineering und Bereitschaftsdienst gehört hat
Lernziele
* Wie man Softwaresysteme zuverlässig betreibt, ohne die Entwicklungsgeschwindigkeit zu beeinträchtigen
* Wie kann man Quellen von organisatorischen Konflikten zwischen Dev und Ops beseitigen?
* Wie können Kompromisse zwischen Zuverlässigkeit, Entwicklungsaufwand und Betriebskosten gemacht werden?
// Referent
Christof Leng
ist Senior Site Reliability Engineer bei Google, wo er ein SRE-Team für die Entwickler-Tools und -Infrastruktur von Google leitet. Er promovierte in Informatik an der TU Darmstadt, wo er verteilte Systeme erforschte. Christof war Postdoc am International Computer Science Institute und an der University of California Berkeley. Er war Vizepräsident der Deutschen Gesellschaft für Informatik und Vorsitzender der Deutschen Piratenpartei.